关于大数据的观察和思考
张宏江
智谷发明 董事长兼CEO
金山软件集团 CEO
我想说的
一个出发点
CBIR
两个观察
大数据
机器学习
三个趋势:Research 2.0
四点关于研究的随机思考
一个出发点:从CBIR说起
一个典型的图像搜索系统
Query Formation
Results Presentation
Ranking Indexing
Data Index Query User
Intention
Gap
Semantic
Gap
Intention/
Semantic
Gap
The Problem
Semantic gap: How to build automatic concept
classifiers and image annotation models?
- Label collection: Annotation
跨越语义鸿沟
Query
Results
IBM QBIC (Flickner et al ’95)
CBIR
又遇语义陷阱
Feature
Vectors
Let’s view the feature
groups as words!
…… …… …… …… …… …
…
W
o
rd
1
w
o
rd
2
w
o
rd
3
…… …… ……
w
o
rd
n
Models
What kinds of image
features should be used?
How to map them to
words (semantics)?
问题和解决
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
Problem: Never sufficient data
互联网如何改变了CBIR ?
无穷的数据
上亿的用户
几十亿的交互
Flicker
Fotki
美图秀秀
...
Facebook
Twitter
微信...
Photo
sharing
Social
network
Dropbox
金山快盘...
Cloud
中秋节四天,金山云每天上传
的照片超过两千万
“Flicker: … Currently 8 billion
photos are stored. ”(Mar., 2013)
http://www.cemspot.com/2013/07/number-of-users-in-social-
media.html
“… Tencent’s Qzone … now hosts
over 150B photos” (Aug., 2012)
http://thenextweb.com/asia/2012/08/09/picture-this-chinese-
internet-giant-tencents-qzone-social-network-now-hosts-over-150-
billion-photos/
Cloud
storage
“Facebook has 220 billion of your
photos to put on ice.” (Oct., 2012)
http://gigaom.com/2012/10/17/facebook-has-220-billion-of-your-
photos-to-put-on-ice/
IMAGE ANNOTATION BY SEARCH + MINGING
Data Driven, Model Less
• Two basic stages:
– Searching similar images: For an uncaptioned image Iq,
we first find a set of visually similar images Φs from a
large-scale image database.
– Mining representative keywords: Given the image set
Φs, we further cluster the descriptive texts of Φs (i.e.,
image title, surrounding text, etc.) to find the most
representative keywords as the annotations to Iq.
Search
Mining
MSRA
IMAGE ANNOTATION BY SEARCH + MINGING
Query Image
+
One Keyword
Search In
A Large
Image Database
(80 millions)
Semantically & Visually
Similar Images
Mining Key Phrases
Additional
Keywords
MSRA
IMAGE ANNOTATION BY SEARCH + MINGING
2.4 million images
MSRA
Duplicate Search from 2 Billion Images
Nike
Tiger Woods
MSRA
mercedes
benz;
swarovski
crystal
Logo;
mercedes
benz;
mercedes van;
mercedes
logo
chocolate,
Red,
Favorites
Las vegas
Vegas;
las vegas
sacre coeur;
Paris;
location
vacances
paris hilton;
hollywood
gossip;
barack obama;
presidential
candidate
bill gates
frida kahlo;
hope,tree,art;
masters
painter
van gogh;
oil painting;
drinkers,
vangogh
van gogh;
night café;
oil paintings
Happy
birthday dog
balloons;
Glitter
Simpsons
movie
travel inn;
premier inn;
city centre;
basildon hotel
pearl harbor
josh hartnett
timber wolf Monkey
MSRA
互联网如何改变了CBIR ?
The Problem
Semantic gap: How to build automatic concept
classifiers and text annotation models ?
– Data driven, model less
– Inter play between text data and visual features
Annotation: Label collection
– Billions of user tags – Crowd Sourcing
Big Data + Machine Learning + Crowd Sourcing
CROWD SHOUCING:
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
哥事件
观察 一: 互联网催生大数据
什么是大数据
大数据是现代社会在掌握海量数据收集、存储和处
理技术基础上所产生的一种以群体智慧进行判断和
预测的能力。
内在含义
– 经验主义>理性主义
– 数据 > 模型
– 相关关系 > 因果关系
– 数据 > 平台 > 模型
文继荣
大数据的三大挑战性
Variety
Volume
模态多样
Veracity
Volume
真伪难辨
Velocity
Volume
变化极快
文本
视频
图片
音频
分享的
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
条目超过
25亿个/天,增加数
据超过500TB/天
数据的变化
• 实时性:时间维度的增
加
– 数据收集的实时性:极
大地增加了数据量
– 数据分析的实时性:极
大地增加了处理量
数据的异构性
• 提升覆盖率:从多个异
构的数据源融合数据
• 增加数据的随机性:多
个数据源交互印证
数据的质量
• 什么是“低质”
– 随机噪音
• 大而低质 > 小而高质?
多大的数据是大数据
当数据多到能对几乎整个样本空间进行充分覆盖,
从而减弱对理论和模型的依赖时,这样的数据就足
够“大”了
– 对预测掷硬币这种问题,样本空间为{0,1},1000个样
本就足以得到置信度很高的预测
– 对于机器
翻译
阿房宫赋翻译下载德汉翻译pdf阿房宫赋翻译下载阿房宫赋翻译下载翻译理论.doc
,样本空间的数量级就大很多:所有可
能的句子?
– 对于图像识别:one picture is worth of a thousand
words?
大数据应用开发的典型
流程
快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计
1. 找到一个重要的应用,确定问题的数据类型和样
本空间
2. 收集到尽可能多(或足够多)的相关数据来覆盖
样本空间
– 不要特别在意数据质量和格式
3. 选择(或搭建)一个合适的大数据处理平台
4. 针对应用对数据进行预处理
– 格式转换、数据抽取、数据集成、数据质量控制
5. 处理数据
6. 结果解读和应用
观察 二: 大数据改变机器学习
传统方法 vs. 大数据方法
Yes/No 传统方法
Yes/No 大数据方法
新样本 特征表示
模型
结果
训练样本(小数据)
新样本
已知样本(大数据)
结果
文继荣
从量变到质变
大数据时代
– 大量新技术使得数据的收集和分享变得非常容易
• 传感器
• 互联网
数据越多,就越不需要模型
– 覆盖度:对所有或大部分事件,我们有样本来覆盖
– 精度:对高频事件,我们有足够多样本来提升精度
经验主义的复活
– 从特殊到特殊
大数据改变机器学习
• 处理器: 16,000个
• 神经网络:1B 个连接
• 训练数据:10M 图像
• 方法:深度学习
– 多层神经网络 (NN)
– 无人监管的数据
– 原始数据,而非特征量
How Many Computers to Identify a Cat? 16,000 – New York Time
大数据,强计算,新方法
http://www.nytimes.com/2012/06/26/technology/in-a-
big-network-of-computers-evidence-of-machine-
learning.html?_r=0
模型真的没有用吗?
数据总是不够
– 样本空间太大
• 机器翻译例子中所有可能的句子
– 样本空间变化
• 查询结果排序例子中,新的查询和新的网页在不停出现
模型需要和数据结合,提供适当的泛化能力
数据 、平台、模型
传统方法:少的数据+复杂的模型性能已经很
难提升
大数据方法:多的数据+简单的模型更好的结
果
多的数据+复杂的模型更好的结果?
多的数据好的平台
Big Data
Machine
Learning
Crowd
Sourcing
• Systems & Infrastructure
• Sparseness -> abundance of data
provides sufficient signals for ML
• Data-driven businesses and data
economics
• Sciences & Algorithms
• Text & Data Mining
• Natural Language
Processing
• Information retrieval
• Analytics
• Human computation
• Social sharing
• Human tasking
o Incentives
o Network effect
Virtuous cycle
&
Reinforcement
Wei-Ying Ma, MSRA
小结
三个趋势:Research 2.0
以互联网为平台
WEB AS A RESEARCH PLATFORM
有史以来最大的数据库,还在不断的增长 – 连接上了“数据”
最大的计算平台 – 连接上了“智能”
最大的社交网络 – 连接上了“人”
每个研究领域都需要以网络为落脚点
– data资源
– Idea资源
– 用于部署或实验的渠道
– 集体智能解决了很多难题
• 具有最大的互相审阅群体
• 新的研究和商业模型
– SNS 社区效应
• 口口相传的效应 – 接受度
• 点到点网络 & 超级分布式 – 交付
• 社会化排名、忠诚度、粘性 – 健壮性
以数据为中心
DATA CENTRIC COMPUTING
大数据: There is no data like more data
数据=> 信息 => 价值
– 内容, Metadata , 链接/关联分析, 程序
网络数据是活的,并且在不断演进
– 数据获取和更新
以数据为中心的计算
– 查找, 聚集, 理解 & 分享
对研究的影响
– 有史以来最大的数据源 (文本, 图片, 视频, …)
– 数据挖据 & 知识发现
– 未结构化知识的交叉影响
– 新应用的mashups
以部署为推动
DEPLOYMENT DRIVEN RESEARCH
形成创新的良性循环
把用户当作共同的开发者
实现原型, 然后快速迭代
充分听取用户的反馈
对做研究所带来的影响
– 缩短创新周期
– 减少了用于公开发表或者走向市场的时间
– 用专研的眼光互相审阅研究的成果
建立原型 评估/发表 改进原型 产品化
四点关于研究的随机思考
• Video Parsing: Structurization
• Relevance Feedback: Back to Semantics
• Adaptive Content Delivery: Heterogeneous Internet
Environment
• Attention Model: The Sense of Importance
• Annotation Mining and Learning: Data Explosion
发现和定义问题往往更具影响力
建立体系,持续耕耘
把握崩溃点 (Failure Mode)
语音识别
手势识别
运动跟踪
玩家识别: 语音/虚拟签名
Kinect: 已不再仅仅是游戏?
把握崩溃点 (Failure Mode)
了解技术的发展周期
我今天说的
一个出发点 多媒体搜索是个大数据问题
两个观察
– 互联网催生大数据
– 大数据改变机器学习
三个趋势:Research 2.0
– 互联网为平台,数据为中心,部署为推动
四点随机思考
– 问题,体系,崩溃点,周期
我下次想说的 …
致谢:
文继荣, 马维英, 张磊, MSRA, …
谢谢!