首页 Hadoop 淘宝方案

Hadoop 淘宝方案

举报
开通vip

Hadoop 淘宝方案nullnull*Hadoop与数据分析淘宝数据平台及产品部基础研发组 周敏日期:2010-05-26OutlineOutlineHadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析 Hadoop集群管理 典型的Hadoop离线分析系统架构 常见问题及解决方案 关于打扑克的哲学关于打扑克的哲学打扑克与MapReduce打扑克与MapReduceInput split shuffle output 分牌各自齐牌交换再次理牌搞定统计单词数统计单词数The weather is...

Hadoop 淘宝方案
nullnull*Hadoop与数据 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 淘宝数据平台及产品部基础研发组 周敏日期:2010-05-26OutlineOutlineHadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析 Hadoop集群管理 典型的Hadoop离线分析系统架构 常见问题及解决方案 关于打扑克的哲学关于打扑克的哲学打扑克与MapReduce打扑克与MapReduceInput split shuffle output 分牌各自齐牌交换再次理牌搞定统计单词数统计单词数The weather is goodThis guy is a good manToday is goodGood man is goodthe 1 weather 1 is 1 good 1today 1 is 1 good 1this 1 guy 1 is 1 a 1 good 1 man 1good 1 man 1 is 1 good 1a 1 good 1 good 1 good 1 good 1 good 1man 1 man 1the 1weather 1today 1guy 1is 1 is 1 is 1 is 1this 1a 1good 5guy 1is 4man 2the 1this 1today 1weather 1流量计算流量计算*趋势分析趋势分析*http://www.trendingtopics.org/截图用户推荐用户推荐*分布式索引分布式索引*Hadoop生态系统*Hadoop 核心 Hadoop Common 分布式文件系统HDFS MapReduce框架 并行数据分析语言Pig 列存储NoSQL数据库 Hbase 分布式协调器Zookeeper 数据仓库Hive(使用SQL) Hadoop日志分析工具ChukwaHadoop生态系统Hadoop实现*Data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data data Data data data data dataResults Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data data Data data data dataHadoop实现null作业执行 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 作业执行流程null// MapClass1中的map 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\""); String mid = strList[3]; String sid = strList[4]; String timestr = strList[0]; try{ timestr = timestr.substring(0,10); }catch(Exception e){return;} timestr += "0000"; // 省略数十行 output.collect(new Text(mid + “\”” + “sid\”” + timestr , ...); } Hadoop 案例 全员育人导师制案例信息技术应用案例心得信息技术教学案例综合实践活动案例我余额宝案例 (1)null public static class Reducer1 extends MapReduceBase implements Reducer { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException { String[] t = key.toString().split("\""); word.set(t[0]);// str.set(t[1]); output.collect(word,str);//uid kind }//reduce }//Reduce0b Hadoop案例(2)null public static class MapClass2 extends MapReduceBase implements Mapper { private Text word = new Text(); private Text str = new Text(); public void map(LongWritable Key, Text value, OutputCollector output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\\s+"); word.set(strList[0]); str.set(strList[1]); output.collect(word,str); } }Hadoop案例(3)null public static class Reducer2 extends MapReduceBase implements Reducer { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException { while(values.hasNext()) { String t = values.next().toString(); // 省略数十行代码 } // 省略数十行代码 output.collect(new Text(mid + “\”” + sid + “\””) + ...., ...) }Hadoop案例(4)nullBADAACBCBCDGroupCo-groupFunctionAggregate FilterFilterThinking in MapReduce(1)nullThinking in MapReduce(2)nullMagics of Hive: SELECT COUNT(DISTINCT mid) FROM log_table Hive的魔力为什么淘宝采用Hadoop?为什么淘宝采用Hadoop?webalizer awstat 般若 Atpanel时代 日志最高达250GB/天 最高达约50道作业 每天运行20小时以上 Hadoop时代 当前日志470GB/天 当前366道作业 平均6~7小时完成 还有谁在用Hadoop?还有谁在用Hadoop?雅虎北京全球软件研发中心 中国移动研究院 英特尔研究院 金山软件 百度 腾讯 新浪 搜狐 IBM Facebook Amazon Yahoo!nullWeb ServersLog Collection ServersFilersData Warehousing on a ClusterOracle RACFederated MySQLWeb站点的典型Hadoop架构淘宝Hadoop与Hive的使用HadoopRich ClientMetaStore ServerMysqlSchedulerThrift ServerWebJobClientCLI/GUIClient ProgramWeb Server淘宝Hadoop与Hive的使用null 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 输出,标准出错 Web显示(50030, 50060, 50070) NameNode,JobTracker, DataNode, TaskTracker日志 本地重现: Local Runner DistributedCache中放入调试代码 调试null 目的:查性能瓶颈,内存泄漏,线程死锁等 工具: jmap, jstat, hprof,jconsole, jprofiler mat,jstack 对JobTracker的Profile 对各slave节点TaskTracker的Profile 对各slave节点某Child进程的Profile(可能存在单点执行速度过慢) Profilingnull目的:监控集群或单个节点I/O, 内存及CPU 工具: Ganglia 监控如何减少数据搬动?如何减少数据搬动?*数据倾斜数据倾斜*null
本文档为【Hadoop 淘宝方案】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_901115
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:建造师考试
上传时间:2012-06-04
浏览量:39