¢ñ£Ĕ��ÔĆ 6¸
Î
2012-01-07
Who am I
! Who am I
– Î
– pengtao@baidu.com
– ×~üĭ¢ñğ
• ÔĆ 6¸ó
– v!ą\
• ¢ñ|ĵíÈĔ�ĵïúÙ ĵÔÂĵÊĤ6¸
• �«±+Ø�7"
nĽ¢ñ£l Ĕ�
L;¬�Ľ���¨
0ÿ¬�Ľý�Ø®
µY¬�ĽĴnIJ
÷
Ĩ
Ú
1. ¢ñ£l Ĕ�ľ
! �õĔ��;
– ¢ñ_2010{ĥ�āüê�j}Ô ĺ81.9%Ļ
• CNNIC, ķ�]�āüùFuÐ3úČRĸļ2011
– Google effects on memory
• Ĭr[ĩĦįĽĦį v.s. Õă
• Į²ĂÔÕăĽ
ċĦį v.s. WĢ±Õă
– (Sparrow, 2011)
• The Internet has become a primary form of external or transactive memory,
where information is stored collectively outside ourselves.
1. ¢ñ£l Ĕ�ľ
! ¢ñ£ØĔ�
– Ü+
• Query #$ url
– Ċ~
• ĵ4ĵ(ĵ©
! ö-ªÈ
– MAP
– DCG
– nDCG
– ERR
– …
2�
3�
1�
2�
2�
2�
1⁄1 ×�1⁄2 ×�1⁄3 ×�1⁄4 ×�1⁄5 ×�1⁄6 ×�
+�
+�
+�
+�
+�
=�
5.0667�
nĽ¢ñ£l Ĕ�
L;¬�Ľ���¨
0ÿ¬�Ľý�Ø®
µY¬�ĽĴnIJ
÷
Ĩ
Ú
2. L;¬�Ľ���¨
! Side by side Ĕ�
2. L;¬�Ľ���¨
! ¢ñ£�vĔ�Ľ
– àF�S¡5�ä©|ëÖĺªÈĻ
• qijϳE v.s. ò�e4C
– 10000
• �log�G10000�queryļQEUC��ϳO¬¼Ė
– 1000
• 10000�query�ļ±1000�÷¹|�OØ
– 100
• 1000�diff�ļPMĞ100�ĜĆ�vreview
• 30ĺgood) : 50 (same) : 20 (bad)
PM�
2. L;¬�Ľ���¨
! L;¬�Ø
– §Ĥ
• ×~Å«Ø¢ñĤ v.s. pmĔ�ØqueryĤ
– ¬ħ
• “�Tø5Ĕ�÷đĶ”
PM�
nĽ¢ñ£l Ĕ�
L;¬�Ľ���¨
0ÿ¬�Ľý�Ø®
µY¬�ĽĴnIJ
÷
Ĩ
Ú
3.0ÿ¬�Ľý�Ø®
! �? ĺcrowdsourcing)
– �h?)MìčAďļ>Ī.Ā�Sĺevaluator)Ķ
– s��¢ñĔ��=6ċ Đit�=Ķ
– Å�evaluatorpĄy�=ļ°PÇĶ
! WSEĽ×~¢ñĔËzK
– /ğijē
– ò�tĉÂqij
– ĝ�U#¥
– xĉěĆ�Ù
2. 0ÿ¬�Ľý�Ø®
! WSEzKĽevaluatorØv!Òf
3.0ÿ¬�Ľý�Ø®
! �?Lesson1:
– dĎÆ�§ģĈ
3.0ÿ¬�Ľý�Ø®
! �?Lesson2:
– ��JīØ
– Ü"*ĕļ�Ü"�V
3.0ÿ¬�Ľý�Ø®
! �?Lesson3:
– µ:Æ´ÄģĈ
– �O�=îcØ`ć
• EconomicsĽÓ�$Ē
– �OĔ�þ�=ĤØ`ć
• �Ľ�@ÃáÑ
• evaluatorĽ�@¤'
3.0ÿ¬�Ľý�Ø®
! WSE�5
– §×Ĕ�þ
– ÅT10w��ؽÉ
! +
crowdsourcingدi
– reCaptcha
– Amazon Mechanical Turk
– ESP Game
– Human computation
nĽ¢ñ£l Ĕ�
L;¬�Ľ���¨
0ÿ¬�Ľý�Ø®
µY¬�ĽĴnIJ
÷
Ĩ
Ú
3.µY¬�ĽĴnIJ
! ĴnIJļ5¶ÍÍĹ
– 8ÔÝqÔEİļÛijēëÖØka
– AB testing, Bucket testing
'���
���
�$��
� �
��
�/�
�2
).%
100%�
50%�
50%�
3.µY¬�ĽĴnIJ
! �
ĈġÔAB testingتÈ?
– Z »�¥Hļ
ĩ�vÛĔ�
3.µY¬�ĽĴnIJ
! �
ĈġÔAB testingتÈ?
– Z B�ëÖئ¹
3.µY¬�ĽĴnIJ
! AB testingØÊå
– 4gqijĽÂb+«
– ÊĤ6Ġ
– qij�ò
– «6¸
3.µY¬�ĽĴnIJ
! AB testingØ«6¸Â
– 1T Cm§
• cubeproducer, disqlļhadoop
– 1G olap§
• infobright, mondrian
– 1M ôé§
• ABreport
3.µY¬�ĽĴnIJ
! AB testing½Øċė
– �äĘ
• ��½Ľ
– Overall Evaluation Criteria
» ("Crook,"2009)"
– Queryrank:
» #�,�+&)
» ��&��-(�%�)
• i�½Ľ
– 8Ôi�½�DijēļûNċė
– �v2ë¾
3.µY¬�ĽĴnIJ
! ÌĤ§ċėØöij
– _ċė;ø5Į²
• §J�ÌĤļ÷đI±��
– Á¼�7
• qijĒČ
– æĚĽAA test
– EĚ
• ÒfÁ¼
– «ċ¸Øw9
– �ߦÑØw9
3.µY¬�ĽĴnIJ
! ÌĤ§ċėØöij
– �ߦÑØw9
3.µY¬�ĽĴnIJ
! ÊĤè�
– 50% v.s. 50% Ľıĭ¥Ï
– ,�qij
<ľ
Baidu�
B1�
B2�
B3�
B4�
a1�
a2�
i1�
i2�
i3�
i4�
d1�
d2�
d3�
u1�
u2�
u3�
nĽ¢ñ£l Ĕ�
L;¬�Ľ���¨
0ÿ¬�Ľý�Ø®
µY¬�ĽĴnIJ
÷
Ĩ
Ú
÷
! ¢ñ£Ĕ�
– Ü+Ľļ4ļ(ĵ©
– ö-ªÈĽDCG
! ×~qę
– Cm¬�ĽPM review
– 0ÿ¬�Ľcrowdsourcing
– µY¬�ĽAB testing
÷
! Ľ
– �vĔ� v.s. AB testing½o_1ç
– ���ã�@&ðl Ĕ�
– Þ¬ÔXk v.s. ĥ²Ôĥ
nĽ¢ñ£l Ĕ�
L;¬�Ľ���¨
0ÿ¬�Ľý�Ø®
µY¬�ĽĴnIJ
÷
Ĩ
Ú
Ĩ1ĽwsezKØo%º·
���
��� �
�� ��� ������
��!�
�#�
�
�#�
�
���
���
�"�
�
����
�
�
��
Ĩ2Ľ¿Àºº·â^
BWS�
M1�
BWS�"�
�
!1)
Sid=1001)
User)log�
#�/Cookie�
�1���)
��sid�0#X�*X’�
internal)log�
M2�
M10�
N2�
关注我们:t.baidu-tech.com
资料下载和详细介绍:infoq.com/cn/zones/baidu-salon
InfoQ 策划·组织·实施
关注我们:weibo.com/infoqchina
“畅想•交流•争鸣•聚会”是百度技术沙龙的宗旨。 百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目
的是让中高端技术人员有一个相对自由的思想交流和交友沟通的的平台。主要分讲师分享和OpenSpace两个关键环节,每期
只关注一个焦点话
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
。
讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验,OpenSpace环节是百度技术沙龙主题的升华
和展开,提供一个自由交流的平台。针对当期主题,参与者人人都可以发起话题,展开讨论。