Hive培训ppt课件

Hive培训ppt课件**Hive简介Hive是基于Hadoop的一个数据仓库工具，将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换MapReduce计算任务。其优点是学习成本低，可以通过类SQL语句(HQL)快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。类似的工具还有Yahoo的pig。附Hive语句规范及注意事项1、Sql测试由于集群计算资源比较宝贵，建议复杂一些的Sql语句需先在一个小时分区数据测试，测试无误后生产数据上跑；2、日期分区...

**Hive简介Hive是基于Hadoop的一个数据仓库工具，将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换MapReduce计算任务。其优点是学习成本低，可以通过类SQL语句(HQL)快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。类似的工具还有Yahoo的pig。附Hive语句规范及注意事项1、Sql测试由于集群计算资源比较宝贵，建议复杂一些的Sql语句需先在一个小时分区数据测试，测试无误后生产数据上跑；2、日期分区根据日期查找，pt_date条件注意放在where条件首位且用（）括起，在该分区下查找，防止全表扫描。3、字符集Hadoop和Hive都是用UTF-8编码的，所有中文必须是UTF-8编码才能正常使用，导出数据编码格式也是UTF-8。4、String数据类型只能用like进行模糊查询。5、只有一个reduce的场景：a、没有groupby的汇总b、orderbyc、笛卡尔积6、JOIN只支持等值连接7、DML操作只支持INSERT/LOAD操作，无UPDATE和DELTE8、HAVING不支持HAVING操作。如果需要这个功能要嵌套一个子查询用where限制。没有IN操作。9、子查询Hive不支持where子句中的子查询10、count(distinct)当前的Hive不支持在一条查询语句中有多Distinct。11、Hive没有真正的日期/时间类型,自增类型,以及操作日期和时间的一些函数如(ADD_MONTH)。12、Hive对于字符串没有FIND和REPLACE函数**Hive和普通关系数据库的异同需要特别注意的是：Hive的数据加载机制（读时模式）传统数据库对表数据验证是schemaonwrite（写时模式），而Hive在load时是不检查数据是否符合schema。hive遵循的是schemaonread（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema。读时模式的优势是loaddata非常迅速，因为它不需要读取数据进行解析，仅仅进行文件的复制或者移动。写时模式的优势是提升了查询性能，因为预先解析之后可以对列建立索引，并压缩，但这样也会花费要多的加载时间。**HIVE的数据存储Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。Hive中所有的数据都存储在HDFS中，Hive中包含以下数据模型：Table，ExternalTable，Partition，Bucket。1.Hive中的Table和数据库中的Table在概念上是类似的，每一个Table在Hive中都有一个相应的目录存储数据。2.Partition对应于数据库中的Partition列的密集索引，但是Hive中Partition的组织方式和数据库中的很不相同。在Hive中，表中的一个Partition对应于表下的一个目录，所有的Partition的数据都存储在对应的目录中。3.Buckets对指定列计算hash，根据hash值切分数据，目的是为了并行，每一个Bucket对应一个文件。目录实例:/hive/data/http_temp/pt_data=1/pt_hour=2014040323Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例1、登录生产环境，ssh。[hadoop@hm-nn-ser-01~]$hive2、查看表hive(default)>showtables;Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例3、建表createEXTERNALtableIFNOTEXISTStest(sidbigint,ipsidstring,reqteidstring,respteidstring,imsistring,imeiint,apnstring,msisdnstring,rattypestring,lacstring,cellcistring,areastring,citystring)partitionedby(pt_datebigint)ROWFORMATDELIMITEDFIELDSTERMINATEDBY',';查看表结构hive(default)>desctest;Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例4、加载数据LOAD和LOCATIONLOAD：HIVE装载数据没有做任何转换，加载到表中的数据只是进入相应的配置单元表的位置，纯粹的复制/移动操作。loaddatainpath'/bigData/testData/http_session/test.csv’intotableipsessionpartition(pt_date=2013120300);LOCATION:location后面跟的是目录而不是文件，hive会把整个目录下的文件都加载到表中altertabletestaddpartition(pt_date=20131206)location'/bigData/testData/http_session/';Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE基本操作实例5、查询数据select*fromtestlimit10;6、查询数据导出查询数据导出hive-e"selectcount(*)fromtest">>res.txt或者hive-fsql.q>>res.txt（在文件sql.q编辑查询语句）Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile数据加载方案 1、数据源文件清单加载到Hive数据仓库使用HiveLoad操作，将数据源文件清单加载到hive的数据仓库中（TEXTFILE），加载时根据节点、日期进行分区。其操作实质在HDFS创建目录后将源文件移动其中，同时建立元数据关联。加载一个数据源文件大概需要5-6秒。语句实例：loaddatainpath'/bigData/recordsCheck/data2/2014012116/ip_session_2014012116'overwriteintotableip_temppartition(pt_data=2,pt_hour=2014012116);加载后目录示例：Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile数据加载方案2、Hive中数据文件TEXTFILE格式加载、转换为RCFILE格式由于RCFILE格式的表不能直接从文件中导入数据，数据要先导入到TEXTFILE格式的表中，然后再从TEXTFILE表中用导入到RCFILE表中。SQL实例如下：hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"这个加载、转换、压缩过程对集群资源消耗较大，需要较长时间。Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile数据加载方案3、转换完成后调用hadoop命令删除源数据文件（HIVE临时表中的TEXTFILE）删除源数据脚本实例如下：hadoopfs-rm-r/hive/data/ip_temp_from20140109/pt_data=1/pt_hour=2014012207/ip_session_2014012207Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HiveRCFile性能测试数据Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**生产上HIVE表说明目前生产环境上表名和分区结构说明如下：三张表：ip_rc、http_rc、pdp_rc三个分区，根据日期、小时、采集节点进行分区：日期---pt_date---20140103小时---pt_hour---2014010312采集节点---pt_data---1HQL语句示例：查询并导出某个号码一小时清单：hive-e"select*fromhttp_rcwhere(pt_hour=2014010112)and(telnumberlike'%%')">>test.txt;汇总并导出一天应用服务记录总数：hive-e"selectservice，servicename,count(*)fromip_rcwhere(pt_date=20140116)groupbyservice,servicename">>/data/data【定向输出文件】Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**HIVE语句规范和注意事项1、Sql测试由于集群计算资源比较宝贵，建议复杂一些的Sql语句需先在一个小时分区数据测试，测试无误后生产数据上跑；2、日期和小时分区根据日期查找，pt_date条件注意放在where条件首位，在该分区下查找，防止全表扫描。3、字符集Hadoop和Hive都是用UTF-8编码的，所有中文必须是UTF-8编码才能正常使用，导出数据编码格式也是UTF-8。4、String数据类型只能用like进行模糊查询。5、只有一个reduce的场景：a、没有groupby的汇总b、orderbyc、笛卡尔积6、JOIN只支持等值连接，目前集群资源难以支撑。Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"**敬请批评指正！此课件下载可自行编辑修改，供参考！感谢您的支持，我们努力做得更好！附Hive语句规范及注意事项1、Sql测试由于集群计算资源比较宝贵，建议复杂一些的Sql语句需先在一个小时分区数据测试，测试无误后生产数据上跑；2、日期分区根据日期查找，pt_date条件注意放在where条件首位且用（）括起，在该分区下查找，防止全表扫描。3、字符集Hadoop和Hive都是用UTF-8编码的，所有中文必须是UTF-8编码才能正常使用，导出数据编码格式也是UTF-8。4、String数据类型只能用like进行模糊查询。5、只有一个reduce的场景：a、没有groupby的汇总b、orderbyc、笛卡尔积6、JOIN只支持等值连接7、DML操作只支持INSERT/LOAD操作，无UPDATE和DELTE8、HAVING不支持HAVING操作。如果需要这个功能要嵌套一个子查询用where限制。没有IN操作。9、子查询Hive不支持where子句中的子查询10、count(distinct)当前的Hive不支持在一条查询语句中有多Distinct。11、Hive没有真正的日期/时间类型,自增类型,以及操作日期和时间的一些函数如(ADD_MONTH)。12、Hive对于字符串没有FIND和REPLACE函数需要特别注意的是：Hive的数据加载机制（读时模式）传统数据库对表数据验证是schemaonwrite（写时模式），而Hive在load时是不检查数据是否符合schema。hive遵循的是schemaonread（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema。读时模式的优势是loaddata非常迅速，因为它不需要读取数据进行解析，仅仅进行文件的复制或者移动。写时模式的优势是提升了查询性能，因为预先解析之后可以对列建立索引，并压缩，但这样也会花费要多的加载时间。Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。hive-e"setmapred.job.priority=VERY_HIGH;sethive.exec.compress.output=true;setmapred.output.compress=true;setmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;setio.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;INSERTOVERWRITEtableip_rcPARTITION(pt_date=${DATE},pt_hour=${HOUR})selectsid,pid,reqteid,respteid,imsi,imei,apn,msisdn,rattype,lac,ci,area,......sys_reported_time,pt_datafromip_tempwherept_hour=${HOUR};"

                    本文档为【Hive培训ppt课件】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Hive培训ppt课件

你可能还喜欢