首页 关于大数据的观察与思考——张宏江

关于大数据的观察与思考——张宏江

举报
开通vip

关于大数据的观察与思考——张宏江 关于大数据的观察和思考 张宏江 智谷发明 董事长兼CEO 金山软件集团 CEO 我想说的 一个出发点 CBIR 两个观察 大数据 机器学习 三个趋势:Research 2.0 四点关于研究的随机思考 一个出发点:从CBIR说起 一个典型的图像搜索系统 Query Formation Results Presentation Ranking Indexing Data Index Query Use...

关于大数据的观察与思考——张宏江
关于大数据的观察和思考 张宏江 智谷发明 董事长兼CEO 金山软件集团 CEO 我想说的 一个出发点 CBIR 两个观察 大数据 机器学习 三个趋势:Research 2.0 四点关于研究的随机思考 一个出发点:从CBIR说起 一个典型的图像搜索系统 Query Formation Results Presentation Ranking Indexing Data Index Query User Intention Gap Semantic Gap Intention/ Semantic Gap The Problem Semantic gap: How to build automatic concept classifiers and image annotation models? - Label collection: Annotation 跨越语义鸿沟 Query Results IBM QBIC (Flickner et al ’95) CBIR 又遇语义陷阱 Feature Vectors Let’s view the feature groups as words! …… …… …… …… …… … … W o rd 1 w o rd 2 w o rd 3 …… …… …… w o rd n Models What kinds of image features should be used? How to map them to words (semantics)? 问题和解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 Problem: Never sufficient data 互联网如何改变了CBIR ? 无穷的数据 上亿的用户 几十亿的交互 Flicker Fotki 美图秀秀 ... Facebook Twitter 微信... Photo sharing Social network Dropbox 金山快盘... Cloud 中秋节四天,金山云每天上传 的照片超过两千万 “Flicker: … Currently 8 billion photos are stored. ”(Mar., 2013) http://www.cemspot.com/2013/07/number-of-users-in-social- media.html “… Tencent’s Qzone … now hosts over 150B photos” (Aug., 2012) http://thenextweb.com/asia/2012/08/09/picture-this-chinese- internet-giant-tencents-qzone-social-network-now-hosts-over-150- billion-photos/ Cloud storage “Facebook has 220 billion of your photos to put on ice.” (Oct., 2012) http://gigaom.com/2012/10/17/facebook-has-220-billion-of-your- photos-to-put-on-ice/ IMAGE ANNOTATION BY SEARCH + MINGING Data Driven, Model Less • Two basic stages: – Searching similar images: For an uncaptioned image Iq, we first find a set of visually similar images Φs from a large-scale image database. – Mining representative keywords: Given the image set Φs, we further cluster the descriptive texts of Φs (i.e., image title, surrounding text, etc.) to find the most representative keywords as the annotations to Iq. Search Mining MSRA IMAGE ANNOTATION BY SEARCH + MINGING Query Image + One Keyword Search In A Large Image Database (80 millions) Semantically & Visually Similar Images Mining Key Phrases Additional Keywords MSRA IMAGE ANNOTATION BY SEARCH + MINGING 2.4 million images MSRA Duplicate Search from 2 Billion Images Nike Tiger Woods MSRA mercedes benz; swarovski crystal Logo; mercedes benz; mercedes van; mercedes logo chocolate, Red, Favorites Las vegas Vegas; las vegas sacre coeur; Paris; location vacances paris hilton; hollywood gossip; barack obama; presidential candidate bill gates frida kahlo; hope,tree,art; masters painter van gogh; oil painting; drinkers, vangogh van gogh; night café; oil paintings Happy birthday dog balloons; Glitter Simpsons movie travel inn; premier inn; city centre; basildon hotel pearl harbor josh hartnett timber wolf Monkey MSRA 互联网如何改变了CBIR ? The Problem Semantic gap: How to build automatic concept classifiers and text annotation models ? – Data driven, model less – Inter play between text data and visual features Annotation: Label collection – Billions of user tags – Crowd Sourcing Big Data + Machine Learning + Crowd Sourcing CROWD SHOUCING: 表哥事件 观察 一: 互联网催生大数据 什么是大数据 大数据是现代社会在掌握海量数据收集、存储和处 理技术基础上所产生的一种以群体智慧进行判断和 预测的能力。 内在含义 – 经验主义>理性主义 – 数据 > 模型 – 相关关系 > 因果关系 – 数据 > 平台 > 模型 文继荣 大数据的三大挑战性 Variety Volume 模态多样 Veracity Volume 真伪难辨 Velocity Volume 变化极快 文本 视频 图片 音频 分享的内容条目超过 25亿个/天,增加数 据超过500TB/天 数据的变化 • 实时性:时间维度的增 加 – 数据收集的实时性:极 大地增加了数据量 – 数据分析的实时性:极 大地增加了处理量 数据的异构性 • 提升覆盖率:从多个异 构的数据源融合数据 • 增加数据的随机性:多 个数据源交互印证 数据的质量 • 什么是“低质” – 随机噪音 • 大而低质 > 小而高质? 多大的数据是大数据 当数据多到能对几乎整个样本空间进行充分覆盖, 从而减弱对理论和模型的依赖时,这样的数据就足 够“大”了 – 对预测掷硬币这种问题,样本空间为{0,1},1000个样 本就足以得到置信度很高的预测 – 对于机器翻译,样本空间的数量级就大很多:所有可 能的句子? – 对于图像识别:one picture is worth of a thousand words? 大数据应用开发的典型 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 1. 找到一个重要的应用,确定问题的数据类型和样 本空间 2. 收集到尽可能多(或足够多)的相关数据来覆盖 样本空间 – 不要特别在意数据质量和格式 3. 选择(或搭建)一个合适的大数据处理平台 4. 针对应用对数据进行预处理 – 格式转换、数据抽取、数据集成、数据质量控制 5. 处理数据 6. 结果解读和应用 观察 二: 大数据改变机器学习 传统方法 vs. 大数据方法 Yes/No 传统方法 Yes/No 大数据方法 新样本 特征表示 模型 结果 训练样本(小数据) 新样本 已知样本(大数据) 结果 文继荣 从量变到质变 大数据时代 – 大量新技术使得数据的收集和分享变得非常容易 • 传感器 • 互联网 数据越多,就越不需要模型 – 覆盖度:对所有或大部分事件,我们有样本来覆盖 – 精度:对高频事件,我们有足够多样本来提升精度 经验主义的复活 – 从特殊到特殊 大数据改变机器学习 • 处理器: 16,000个 • 神经网络:1B 个连接 • 训练数据:10M 图像 • 方法:深度学习 – 多层神经网络 (NN) – 无人监管的数据 – 原始数据,而非特征量 How Many Computers to Identify a Cat? 16,000 – New York Time 大数据,强计算,新方法 http://www.nytimes.com/2012/06/26/technology/in-a- big-network-of-computers-evidence-of-machine- learning.html?_r=0 模型真的没有用吗? 数据总是不够 – 样本空间太大 • 机器翻译例子中所有可能的句子 – 样本空间变化 • 查询结果排序例子中,新的查询和新的网页在不停出现 模型需要和数据结合,提供适当的泛化能力 数据 、平台、模型 传统方法:少的数据+复杂的模型性能已经很 难提升 大数据方法:多的数据+简单的模型更好的结 果 多的数据+复杂的模型更好的结果? 多的数据好的平台 Big Data Machine Learning Crowd Sourcing • Systems & Infrastructure • Sparseness -> abundance of data provides sufficient signals for ML • Data-driven businesses and data economics • Sciences & Algorithms • Text & Data Mining • Natural Language Processing • Information retrieval • Analytics • Human computation • Social sharing • Human tasking o Incentives o Network effect Virtuous cycle & Reinforcement Wei-Ying Ma, MSRA 小结 三个趋势:Research 2.0 以互联网为平台 WEB AS A RESEARCH PLATFORM 有史以来最大的数据库,还在不断的增长 – 连接上了“数据” 最大的计算平台 – 连接上了“智能” 最大的社交网络 – 连接上了“人” 每个研究领域都需要以网络为落脚点 – data资源 – Idea资源 – 用于部署或实验的渠道 – 集体智能解决了很多难题 • 具有最大的互相审阅群体 • 新的研究和商业模型 – SNS 社区效应 • 口口相传的效应 – 接受度 • 点到点网络 & 超级分布式 – 交付 • 社会化排名、忠诚度、粘性 – 健壮性 以数据为中心 DATA CENTRIC COMPUTING 大数据: There is no data like more data 数据=> 信息 => 价值 – 内容, Metadata , 链接/关联分析, 程序 网络数据是活的,并且在不断演进 – 数据获取和更新 以数据为中心的计算 – 查找, 聚集, 理解 & 分享 对研究的影响 – 有史以来最大的数据源 (文本, 图片, 视频, …) – 数据挖据 & 知识发现 – 未结构化知识的交叉影响 – 新应用的mashups 以部署为推动 DEPLOYMENT DRIVEN RESEARCH 形成创新的良性循环 把用户当作共同的开发者 实现原型, 然后快速迭代 充分听取用户的反馈 对做研究所带来的影响 – 缩短创新周期 – 减少了用于公开发表或者走向市场的时间 – 用专研的眼光互相审阅研究的成果 建立原型 评估/发表 改进原型 产品化 四点关于研究的随机思考 • Video Parsing: Structurization • Relevance Feedback: Back to Semantics • Adaptive Content Delivery: Heterogeneous Internet Environment • Attention Model: The Sense of Importance • Annotation Mining and Learning: Data Explosion 发现和定义问题往往更具影响力 建立体系,持续耕耘 把握崩溃点 (Failure Mode) 语音识别 手势识别 运动跟踪 玩家识别: 语音/虚拟签名 Kinect: 已不再仅仅是游戏? 把握崩溃点 (Failure Mode) 了解技术的发展周期 我今天说的 一个出发点 多媒体搜索是个大数据问题 两个观察 – 互联网催生大数据 – 大数据改变机器学习 三个趋势:Research 2.0 – 互联网为平台,数据为中心,部署为推动 四点随机思考 – 问题,体系,崩溃点,周期 我下次想说的 … 致谢: 文继荣, 马维英, 张磊, MSRA, … 谢谢!
本文档为【关于大数据的观察与思考——张宏江】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_163890
暂无简介~
格式:pdf
大小:2MB
软件:PDF阅读器
页数:0
分类:英语四级
上传时间:2013-11-06
浏览量:36