首页 Hive培训ppt课件

Hive培训ppt课件

举报
开通vip

Hive培训ppt课件**Hive简介Hive是基于Hadoop的一个数据仓库工具,将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换MapReduce计算任务。其优点是学习成本低,可以通过类SQL语句(HQL)快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。类似的工具还有Yahoo的pig。附Hive语句规范及注意事项1、Sql测试由于集群计算资源比较宝贵,建议复杂一些的Sql语句需先在一个小时分区数据测试,测试无误后生产数据上跑;2、日期分区...

Hive培训ppt课件
**Hive简介Hive是基于Hadoop的一个数据仓库工具,将结构化的数据文件映射为一张数据库 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf ,并提供完整的SQL查询功能,可以将SQL语句转换MapReduce计算任务。其优点是学习成本低,可以通过类SQL语句(HQL)快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 。类似的工具还有Yahoo的pig。附Hive语句 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 及注意事项1、Sql测试由于集群计算资源比较宝贵,建议复杂一些的Sql语句需先在一个小时分区数据测试,测试无误后生产数据上跑;2、日期分区根据日期查找,pt_date条件注意放在where条件首位且用()括起,在该分区下查找,防止全表扫描。3、字符集Hadoop和Hive都是用UTF-8编码的,所有中文必须是UTF-8编码才能正常使用,导出数据编码格式也是UTF-8。4、String数据类型只能用like进行模糊查询。5、只有一个reduce的场景:a、没有groupby的汇总b、orderbyc、笛卡尔积6、JOIN只支持等值连接7、DML操作只支持INSERT/LOAD操作,无UPDATE和DELTE8、HAVING不支持HAVING操作。如果需要这个功能要嵌套一个子查询用where限制。没有IN操作。9、子查询Hive不支持where子句中的子查询10、count(distinct)当前的Hive不支持在一条查询语句中有多Distinct。11、Hive没有真正的日期/时间类型,自增类型,以及操作日期和时间的一些函数如(ADD_MONTH)。12、Hive对于字符串没有FIND和REPLACE函数**Hive和普通关系数据库的异同需要特别注意的是:Hive的数据加载机制(读时模式)传统数据库对表数据验证是schemaonwrite(写时模式),而Hive在load时是不检查数据是否符合schema。hive遵循的是schemaonread(读时模式),只有在读的时候hive才检查、解析具体的数据字段、schema。读时模式的优势是loaddata非常迅速,因为它不需要读取数据进行解析,仅仅进行文件的复制或者移动。写时模式的优势是提升了查询性能,因为预先解析之后可以对列建立索引,并压缩,但这样也会花费要多的加载时间。**HIVE的数据存储Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。Hive中所有的数据都存储在HDFS中,Hive中包含以下数据模型:Table,ExternalTable,Partition,Bucket。1.Hive中的Table和数据库中的Table在概念上是类似的,每一个Table在Hive中都有一个相应的目录存储数据。2.Partition对应于数据库中的Partition列的密集索引,但是Hive中Partition的组织方式和数据库中的很不相同。在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition的数据都存储在对应的目录中。3.Buckets对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。目录实例:/hive/data/http_temp/pt_data=1/pt_hour=2014040323Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例1、登录生产环境,ssh。[hadoop@hm-nn-ser-01~]$hive2、查看表hive(default)>showtables;Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例3、建表createEXTERNALtableIFNOTEXISTStest(sidbigint,ipsidstring,reqteidstring,respteidstring,imsistring,imeiint,apnstring,msisdnstring,rattypestring,lacstring,cellcistring,areastring,citystring)partitionedby(pt_datebigint)ROWFORMATDELIMITEDFIELDSTERMINATEDBY',';查看表结构hive(default)>desctest;Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例4、加载数据LOAD和LOCATIONLOAD:HIVE装载数据没有做任何转换,加载到表中的数据只是进入相应的配置单元表的位置,纯粹的复制/移动操作。loaddatainpath'/bigData/testData/http_session/test.csv’intotableipsessionpartition(pt_date=2013120300);LOCATION:location后面跟的是目录而不是文件,hive会把整个目录下的文件都加载到表中altertabletestaddpartition(pt_date=20131206)location'/bigData/testData/http_session/';Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例5、查询数据select*fromtestlimit10;6、查询数据导出查询数据导出hive-e"selectcount(*)fromtest">>res.txt或者hive-fsql.q>>res.txt(在文件sql.q编辑查询语句)Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile数据加载 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 1、数据源文件清单加载到Hive数据仓库使用HiveLoad操作,将数据源文件清单加载到hive的数据仓库中(TEXTFILE),加载时根据节点、日期进行分区。其操作实质在HDFS创建目录后将源文件移动其中,同时建立元数据关联。加载一个数据源文件大概需要5-6秒。语句实例:loaddatainpath'/bigData/recordsCheck/data2/2014012116/ip_session_2014012116'overwriteintotableip_temppartition(pt_data=2,pt_hour=2014012116);加载后目录示例:Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile数据加载方案2、Hive中数据文件TEXTFILE格式加载、转换为RCFILE格式由于RCFILE格式的表不能直接从文件中导入数据,数据要先导入到TEXTFILE格式的表中,然后再从TEXTFILE表中用导入到RCFILE表中。SQL实例如下:hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"这个加载、转换、压缩过程对集群资源消耗较大,需要较长时间。Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile数据加载方案3、转换完成后调用hadoop命令删除源数据文件(HIVE临时表中的TEXTFILE)删除源数据脚本实例如下:hadoopfs-rm-r/hive/data/ip_temp_from20140109/pt_data=1/pt_hour=2014012207/ip_session_2014012207Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile性能测试数据Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**生产上HIVE表说明目前生产环境上表名和分区结构说明如下:三张表:ip_rc、http_rc、pdp_rc三个分区,根据日期、小时、采集节点进行分区:日期---pt_date---20140103小时---pt_hour---2014010312采集节点---pt_data---1HQL语句示例:查询并导出某个号码一小时清单:hive-e"select*fromhttp_rcwhere(pt_hour=2014010112)and(telnumberlike'%%')">>test.txt;汇总并导出一天应用服务记录总数:hive-e"selectservice,servicename,count(*)fromip_rcwhere(pt_date=20140116)groupbyservice,servicename">>/data/data【定向输出文件】Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE语句规范和注意事项1、Sql测试由于集群计算资源比较宝贵,建议复杂一些的Sql语句需先在一个小时分区数据测试,测试无误后生产数据上跑;2、日期和小时分区根据日期查找,pt_date条件注意放在where条件首位,在该分区下查找,防止全表扫描。3、字符集Hadoop和Hive都是用UTF-8编码的,所有中文必须是UTF-8编码才能正常使用,导出数据编码格式也是UTF-8。4、String数据类型只能用like进行模糊查询。5、只有一个reduce的场景:a、没有groupby的汇总b、orderbyc、笛卡尔积6、JOIN只支持等值连接,目前集群资源难以支撑。Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**敬请批评指正!此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!附Hive语句规范及注意事项1、Sql测试由于集群计算资源比较宝贵,建议复杂一些的Sql语句需先在一个小时分区数据测试,测试无误后生产数据上跑;2、日期分区根据日期查找,pt_date条件注意放在where条件首位且用()括起,在该分区下查找,防止全表扫描。3、字符集Hadoop和Hive都是用UTF-8编码的,所有中文必须是UTF-8编码才能正常使用,导出数据编码格式也是UTF-8。4、String数据类型只能用like进行模糊查询。5、只有一个reduce的场景:a、没有groupby的汇总b、orderbyc、笛卡尔积6、JOIN只支持等值连接7、DML操作只支持INSERT/LOAD操作,无UPDATE和DELTE8、HAVING不支持HAVING操作。如果需要这个功能要嵌套一个子查询用where限制。没有IN操作。9、子查询Hive不支持where子句中的子查询10、count(distinct)当前的Hive不支持在一条查询语句中有多Distinct。11、Hive没有真正的日期/时间类型,自增类型,以及操作日期和时间的一些函数如(ADD_MONTH)。12、Hive对于字符串没有FIND和REPLACE函数需要特别注意的是:Hive的数据加载机制(读时模式)传统数据库对表数据验证是schemaonwrite(写时模式),而Hive在load时是不检查数据是否符合schema。hive遵循的是schemaonread(读时模式),只有在读的时候hive才检查、解析具体的数据字段、schema。读时模式的优势是loaddata非常迅速,因为它不需要读取数据进行解析,仅仅进行文件的复制或者移动。写时模式的优势是提升了查询性能,因为预先解析之后可以对列建立索引,并压缩,但这样也会花费要多的加载时间。Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"
本文档为【Hive培训ppt课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
爱赢
公司经营范围:网络软件设计、制作、图文设计、影视制作(编辑)
格式:ppt
大小:942KB
软件:PowerPoint
页数:0
分类:企业经营
上传时间:2020-10-31
浏览量:20