关于大数据的观察与思考——张宏江

关于大数据的观察与思考——张宏江关于大数据的观察和思考张宏江智谷发明董事长兼CEO 金山软件集团 CEO 我想说的一个出发点 CBIR 两个观察大数据机器学习三个趋势：Research 2.0 四点关于研究的随机思考一个出发点：从CBIR说起一个典型的图像搜索系统 Query Formation Results Presentation Ranking Indexing Data Index Query Use...

关于大数据的观察和思考张宏江智谷发明董事长兼CEO 金山软件集团 CEO 我想说的一个出发点 CBIR 两个观察大数据机器学习三个趋势：Research 2.0 四点关于研究的随机思考一个出发点：从CBIR说起一个典型的图像搜索系统 Query Formation Results Presentation Ranking Indexing Data Index Query User Intention Gap Semantic Gap Intention/ Semantic Gap The Problem Semantic gap: How to build automatic concept classifiers and image annotation models? - Label collection: Annotation 跨越语义鸿沟 Query Results IBM QBIC (Flickner et al ’95) CBIR 又遇语义陷阱 Feature Vectors Let’s view the feature groups as words! …… …… …… …… …… … … W o rd 1 w o rd 2 w o rd 3 …… …… …… w o rd n Models What kinds of image features should be used? How to map them to words (semantics)? 问题和解决方案 Problem: Never sufficient data 互联网如何改变了CBIR ? 无穷的数据上亿的用户几十亿的交互 Flicker Fotki 美图秀秀 ... Facebook Twitter 微信... Photo sharing Social network Dropbox 金山快盘... Cloud 中秋节四天，金山云每天上传的照片超过两千万 “Flicker: … Currently 8 billion photos are stored. ”(Mar., 2013) http://www.cemspot.com/2013/07/number-of-users-in-social- media.html “… Tencent’s Qzone … now hosts over 150B photos” (Aug., 2012) http://thenextweb.com/asia/2012/08/09/picture-this-chinese- internet-giant-tencents-qzone-social-network-now-hosts-over-150- billion-photos/ Cloud storage “Facebook has 220 billion of your photos to put on ice.” (Oct., 2012) http://gigaom.com/2012/10/17/facebook-has-220-billion-of-your- photos-to-put-on-ice/ IMAGE ANNOTATION BY SEARCH + MINGING Data Driven, Model Less • Two basic stages: – Searching similar images: For an uncaptioned image Iq, we first find a set of visually similar images Φs from a large-scale image database. – Mining representative keywords: Given the image set Φs, we further cluster the descriptive texts of Φs (i.e., image title, surrounding text, etc.) to find the most representative keywords as the annotations to Iq. Search Mining MSRA IMAGE ANNOTATION BY SEARCH + MINGING Query Image + One Keyword Search In A Large Image Database (80 millions) Semantically & Visually Similar Images Mining Key Phrases Additional Keywords MSRA IMAGE ANNOTATION BY SEARCH + MINGING 2.4 million images MSRA Duplicate Search from 2 Billion Images Nike Tiger Woods MSRA mercedes benz; swarovski crystal Logo; mercedes benz; mercedes van; mercedes logo chocolate, Red, Favorites Las vegas Vegas; las vegas sacre coeur; Paris; location vacances paris hilton; hollywood gossip; barack obama; presidential candidate bill gates frida kahlo; hope,tree,art; masters painter van gogh; oil painting; drinkers, vangogh van gogh; night café; oil paintings Happy birthday dog balloons; Glitter Simpsons movie travel inn; premier inn; city centre; basildon hotel pearl harbor josh hartnett timber wolf Monkey MSRA 互联网如何改变了CBIR ? The Problem Semantic gap: How to build automatic concept classifiers and text annotation models ? – Data driven, model less – Inter play between text data and visual features Annotation: Label collection – Billions of user tags – Crowd Sourcing Big Data + Machine Learning + Crowd Sourcing CROWD SHOUCING: 表哥事件观察一: 互联网催生大数据什么是大数据大数据是现代社会在掌握海量数据收集、存储和处理技术基础上所产生的一种以群体智慧进行判断和预测的能力。内在含义 – 经验主义>理性主义 – 数据 > 模型 – 相关关系 > 因果关系 – 数据 > 平台 > 模型文继荣大数据的三大挑战性 Variety Volume 模态多样 Veracity Volume 真伪难辨 Velocity Volume 变化极快文本视频图片音频分享的内容条目超过 25亿个/天，增加数据超过500TB/天数据的变化 • 实时性：时间维度的增加 – 数据收集的实时性：极大地增加了数据量 – 数据分析的实时性：极大地增加了处理量数据的异构性 • 提升覆盖率：从多个异构的数据源融合数据 • 增加数据的随机性：多个数据源交互印证数据的质量 • 什么是“低质” – 随机噪音 • 大而低质 > 小而高质？多大的数据是大数据当数据多到能对几乎整个样本空间进行充分覆盖，从而减弱对理论和模型的依赖时，这样的数据就足够“大”了 – 对预测掷硬币这种问题，样本空间为{0，1}，1000个样本就足以得到置信度很高的预测 – 对于机器翻译，样本空间的数量级就大很多：所有可能的句子？ – 对于图像识别：one picture is worth of a thousand words? 大数据应用开发的典型流程 1. 找到一个重要的应用，确定问题的数据类型和样本空间 2. 收集到尽可能多（或足够多）的相关数据来覆盖样本空间 – 不要特别在意数据质量和格式 3. 选择（或搭建）一个合适的大数据处理平台 4. 针对应用对数据进行预处理 – 格式转换、数据抽取、数据集成、数据质量控制 5. 处理数据 6. 结果解读和应用观察二: 大数据改变机器学习传统方法 vs. 大数据方法 Yes/No 传统方法 Yes/No 大数据方法新样本特征表示模型结果训练样本（小数据）新样本已知样本（大数据）结果文继荣从量变到质变大数据时代 – 大量新技术使得数据的收集和分享变得非常容易 • 传感器 • 互联网数据越多，就越不需要模型 – 覆盖度：对所有或大部分事件，我们有样本来覆盖 – 精度：对高频事件，我们有足够多样本来提升精度经验主义的复活 – 从特殊到特殊大数据改变机器学习 • 处理器： 16,000个 • 神经网络：1B 个连接 • 训练数据：10M 图像 • 方法：深度学习 – 多层神经网络 (NN) – 无人监管的数据 – 原始数据，而非特征量 How Many Computers to Identify a Cat? 16,000 – New York Time 大数据，强计算，新方法 http://www.nytimes.com/2012/06/26/technology/in-a- big-network-of-computers-evidence-of-machine- learning.html?_r=0 模型真的没有用吗？数据总是不够 – 样本空间太大 • 机器翻译例子中所有可能的句子 – 样本空间变化 • 查询结果排序例子中，新的查询和新的网页在不停出现模型需要和数据结合，提供适当的泛化能力数据、平台、模型传统方法：少的数据+复杂的模型性能已经很难提升大数据方法：多的数据+简单的模型更好的结果多的数据+复杂的模型更好的结果？多的数据好的平台 Big Data Machine Learning Crowd Sourcing • Systems & Infrastructure • Sparseness -> abundance of data provides sufficient signals for ML • Data-driven businesses and data economics • Sciences & Algorithms • Text & Data Mining • Natural Language Processing • Information retrieval • Analytics • Human computation • Social sharing • Human tasking o Incentives o Network effect Virtuous cycle & Reinforcement Wei-Ying Ma, MSRA 小结三个趋势：Research 2.0 以互联网为平台 WEB AS A RESEARCH PLATFORM 有史以来最大的数据库，还在不断的增长 – 连接上了“数据” 最大的计算平台 – 连接上了“智能” 最大的社交网络 – 连接上了“人” 每个研究领域都需要以网络为落脚点 – data资源 – Idea资源 – 用于部署或实验的渠道 – 集体智能解决了很多难题 • 具有最大的互相审阅群体 • 新的研究和商业模型 – SNS 社区效应 • 口口相传的效应 – 接受度 • 点到点网络 & 超级分布式 – 交付 • 社会化排名、忠诚度、粘性 – 健壮性以数据为中心 DATA CENTRIC COMPUTING 大数据: There is no data like more data 数据=> 信息 => 价值 – 内容, Metadata , 链接/关联分析, 程序网络数据是活的，并且在不断演进 – 数据获取和更新以数据为中心的计算 – 查找, 聚集, 理解 & 分享对研究的影响 – 有史以来最大的数据源 (文本，图片, 视频, …) – 数据挖据 & 知识发现 – 未结构化知识的交叉影响 – 新应用的mashups 以部署为推动 DEPLOYMENT DRIVEN RESEARCH 形成创新的良性循环把用户当作共同的开发者实现原型, 然后快速迭代充分听取用户的反馈对做研究所带来的影响 – 缩短创新周期 – 减少了用于公开发表或者走向市场的时间 – 用专研的眼光互相审阅研究的成果建立原型评估/发表改进原型产品化四点关于研究的随机思考 • Video Parsing: Structurization • Relevance Feedback: Back to Semantics • Adaptive Content Delivery: Heterogeneous Internet Environment • Attention Model: The Sense of Importance • Annotation Mining and Learning: Data Explosion 发现和定义问题往往更具影响力建立体系，持续耕耘把握崩溃点 (Failure Mode) 语音识别手势识别运动跟踪玩家识别: 语音／虚拟签名 Kinect: 已不再仅仅是游戏？把握崩溃点 (Failure Mode) 了解技术的发展周期我今天说的一个出发点多媒体搜索是个大数据问题两个观察 – 互联网催生大数据 – 大数据改变机器学习三个趋势：Research 2.0 – 互联网为平台，数据为中心，部署为推动四点随机思考 – 问题，体系，崩溃点，周期我下次想说的 … 致谢：文继荣, 马维英, 张磊, MSRA, … 谢谢!

                    本文档为【关于大数据的观察与思考——张宏江】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

关于大数据的观察与思考——张宏江

你可能还喜欢