Hadoop 淘宝方案

Hadoop 淘宝方案nullnull*Hadoop与数据分析淘宝数据平台及产品部基础研发组周敏日期：2010-05-26OutlineOutlineHadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析 Hadoop集群管理典型的Hadoop离线分析系统架构常见问题及解决方案关于打扑克的哲学关于打扑克的哲学打扑克与MapReduce打扑克与MapReduceInput split shuffle output 分牌各自齐牌交换再次理牌搞定统计单词数统计单词数The weather is...

nullnull*Hadoop与数据分析淘宝数据平台及产品部基础研发组周敏日期：2010-05-26OutlineOutlineHadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析 Hadoop集群管理典型的Hadoop离线分析系统架构常见问题及解决方案关于打扑克的哲学关于打扑克的哲学打扑克与MapReduce打扑克与MapReduceInput split shuffle output 分牌各自齐牌交换再次理牌搞定统计单词数统计单词数The weather is goodThis guy is a good manToday is goodGood man is goodthe 1 weather 1 is 1 good 1today 1 is 1 good 1this 1 guy 1 is 1 a 1 good 1 man 1good 1 man 1 is 1 good 1a 1 good 1 good 1 good 1 good 1 good 1man 1 man 1the 1weather 1today 1guy 1is 1 is 1 is 1 is 1this 1a 1good 5guy 1is 4man 2the 1this 1today 1weather 1流量计算流量计算*趋势分析趋势分析*http://www.trendingtopics.org/截图用户推荐用户推荐*分布式索引分布式索引*Hadoop生态系统*Hadoop 核心 Hadoop Common 分布式文件系统HDFS MapReduce框架并行数据分析语言Pig 列存储NoSQL数据库 Hbase 分布式协调器Zookeeper 数据仓库Hive(使用SQL) Hadoop日志分析工具ChukwaHadoop生态系统Hadoop实现*Data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data dataResults Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data dataHadoop实现null作业执行流程作业执行流程null// MapClass1中的map 方法 public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\""); String mid = strList[3]; String sid = strList[4]; String timestr = strList[0]; try{ timestr = timestr.substring(0,10); }catch(Exception e){return;} timestr += "0000"; // 省略数十行 output.collect(new Text(mid + “\”” + “sid\”” + timestr , ...); } Hadoop 案例 (1)null public static class Reducer1 extends MapReduceBase implements Reducer { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException { String[] t = key.toString().split("\""); word.set(t[0]);// str.set(t[1]); output.collect(word,str);//uid kind }//reduce }//Reduce0b Hadoop案例(2)null public static class MapClass2 extends MapReduceBase implements Mapper { private Text word = new Text(); private Text str = new Text(); public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\\s+"); word.set(strList[0]); str.set(strList[1]); output.collect(word,str); } }Hadoop案例(3)null public static class Reducer2 extends MapReduceBase implements Reducer { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException { while(values.hasNext()) { String t = values.next().toString(); // 省略数十行代码 } // 省略数十行代码 output.collect(new Text(mid + “\”” + sid + “\””) + ...., ...) }Hadoop案例(4)nullBADAACBCBCDGroupCo-groupFunctionAggregate FilterFilterThinking in MapReduce(1)nullThinking in MapReduce(2)nullMagics of Hive: SELECT COUNT(DISTINCT mid) FROM log_table Hive的魔力为什么淘宝采用Hadoop?为什么淘宝采用Hadoop?webalizer awstat 般若 Atpanel时代日志最高达250GB/天最高达约50道作业每天运行20小时以上 Hadoop时代当前日志470GB/天当前366道作业平均6~7小时完成还有谁在用Hadoop?还有谁在用Hadoop?雅虎北京全球软件研发中心中国移动研究院英特尔研究院金山软件百度腾讯新浪搜狐 IBM Facebook Amazon Yahoo!nullWeb ServersLog Collection ServersFilersData Warehousing on a ClusterOracle RACFederated MySQLWeb站点的典型Hadoop架构淘宝Hadoop与Hive的使用HadoopRich ClientMetaStore ServerMysqlSchedulerThrift ServerWebJobClientCLI/GUIClient ProgramWeb Server淘宝Hadoop与Hive的使用null 标准输出,标准出错 Web显示(50030, 50060, 50070) NameNode,JobTracker, DataNode, TaskTracker日志本地重现: Local Runner DistributedCache中放入调试代码调试null 目的：查性能瓶颈，内存泄漏，线程死锁等工具： jmap, jstat, hprof,jconsole, jprofiler mat,jstack 对JobTracker的Profile 对各slave节点TaskTracker的Profile 对各slave节点某Child进程的Profile(可能存在单点执行速度过慢) Profilingnull目的：监控集群或单个节点I/O, 内存及CPU 工具： Ganglia 监控如何减少数据搬动?如何减少数据搬动?*数据倾斜数据倾斜*null

                    本文档为【Hadoop 淘宝方案】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Hadoop 淘宝方案

你可能还喜欢