Page 35 - 网络电信2016年第4期
P. 35

大数据分析

题,这对于矢志立于大数据潮流之巅的企业来说,不免英雄气           们在Kaggle平台上搞了一个比赛,因为资金有限,就出了5000
短。                                    美金,没想到还是吸引到了400多支团队参赛,最终他们确实选
                                      到了一个合适的算法,让这个应用脱胎换骨。Jetpac马上就拿
      与此同时,一股轰轰烈烈的资源革命在互联网卷过,共        到了240万美金的风险投资,他们的精明之处在于:利用社会的
享经济充分利用互联网将闲散资源与需求对接,解决了供需失           资源为其贡献才智,换来资本的青睐。
衡的问题。设想数据科学家的技能和时间也是一种资源(克
莱·舍基将其称作“ 认知盈余”),应该也能够在这一框架下                对于当前的“ 大众创业、万众创新”,数据科学的专业性
提高使用效率。这就是所谓的开放的社会化分析服务。              门槛必然导致洛阳纸贵;而这样的思想众包平台将解决数据智
                                      慧的短缺,提升众创的成功率。
      这种服务对我们的社会来说并不陌生。某种意义上,这是
一种古老智慧“悬赏”和现代“众包”思维的合体。1714年,               大家试想,Kaggle这个平台,也就数十万注册用户,咱们
英国议会悬赏20000英镑的“ 经度”大奖促使一个钟表匠发明        中国毕业生每年都是千万,学科学工程专业的也有好几百万,
了航海天文钟,完全改变了航海史和征服史。18世纪,拿破仑          在中国可资利用的社会化分析力量一定更为强大。
悬赏12000法郎征集储存食物的方法,促使一个商人之子发明了
罐头。近现代史上这样的悬赏还有很多,比如跨大西洋飞行、                 鉴于此,中国计算机学会大数据专家委员会主办了“ 中国
月球车、宇航员手套等。另一方面,众包完全改变了当代知识           好创意”全国青年大数据创新大赛。首先,它是学生学习数据
的生成和解决问题的方式,比如维基百科。                   科学,切磋数据分析技术的平台;第二,像中国好声音一样,
                                      它一定是年轻人展现自己的平台,就像吴晓波所言,这个时代
      那么,开放的社会化分析服务该如何工作呢?下面我讲几       是无名山丘崛起为峰的时代,这个时代需要这么一个平台;第
个故事。Netflix在2006—2009年之间向大
众发起数据分析挑战赛,希望能够通过预测                                          三,操作系统BSD的发明人Bill Joy提出了
用户星级评分来提升推荐引擎的效率,目标                                          Joy定律:在这个时代,无论公司再牛,世
是提升10%,为此设了百万美金大奖,吸引                                         界上最聪明的绝大多数人都是为其他人工作
了全世界180多个国家4万多支团队来参加。                                        的。那么最好的办法就是打开组织的边界,
非常可惜的是Netflix没有采用第1 名的算                                      让组织虚拟化,让世界上成千上万的人帮忙
法。那这个比赛是否没有价值呢?不然,大                                          你解决难题。同时,对于数据科学家/工程师
数据生态系统中最受关注的Spark平台正是                                        来说,数据分析能力将成为其行走江湖的独
因为这个比赛形成了灵感和最早的原型。大                                          特品牌,纵横于不同企业之间,最大化其价
赛的价值往往不在赛场里。                                                 值。

      第2个故事关于休利特基金会。它征集                                     跨领域数据思维
一个对学生的短论文进行自动化评分的算
法,因此设立了10万美元奖金的Automated                                           2013年,一种病毒在上海和安徽爆发,
Student Assessment Prize。第1轮大赛先                              国家派出了很多工作组,前往各个现场采
向十多家专业的教育科研机构开放,而第2                                          样,对10000个样本进行分析。他们寻找的
轮则是在Kaggle平台上向社会开放。Kaggle                                    是H7N9禽流感病毒。笔者当时在想,我们的
坐拥数十万具有专业知识和自由时间的分析                                          生物科技人员要是有大数据思维多好!早在
师,而具有数据分析需求的企业只要把数据                                          2005年,Craig Ventor——这位被称为“科
和挑战赛规则放到网上,分析师们就可以八                                          学界Lady Gaga”的奇人,已经在对纽约的空
仙过海、各显神通、一较高低。结果出人意                                          气做全集的基因组测序。如果对源头菜市场
料,这些业余爱好者搞出来的算法,远胜于专业机构的算法。                                  的空气做全集的检测,不正是大数据全集思
更让人大跌眼镜的是前3名获得者分别是美国一位机械工程专业          维相对于采样的优势吗?Ventor的跨界思维并不止于此。2014
的本科生,斯洛文尼亚一位计算机系的博士生,和新加坡一位           年,他的创业公司“人类长寿”从Google挖走了顶级计算机科
39岁的保险精算师。第1、3名获奖者刚刚从Coursera慕课平台     学家,谷歌翻译首席科学家Franz Och。在这里,Franz将运用
上学完了斯坦福机器学习的课程,刚刚学完去参赛,就摘得桂           大数据去解密人类基因组的奥秘。
冠,这是非常颠覆的。Netflix大赛的获奖团队都是高大上的科             同样,生物科学的思维也能帮助大数据。百度首席科学家
研人员,包括两个AT&T的研究主管,而这次竟然让几个初通机         吴恩达,曾经一度迷惘人工智能走进了死胡同:识别杯子需要
器学习门径的学生拿到了大奖。竞赛改变了学生的命运,第1名          一种算法,识别人脸又是一种算法,识别汽车还要一种算法,
转向了数据科学专业,而斯洛文尼亚和新加坡的两位优胜者在           似乎永远无法穷尽人的智能。直到有一天,神经科学方面的最
美国找到了职业发展的巨大空间。                       新进展让他大开眼界:科学家把大脑皮层负责听力的区域与听
                                      力器官的神经连接剪断,连到视网膜,过了一段时间,这部分
      第3个故事是关于一家很小的初创公司Jetpac,它在IPAD  区域竟然能够形成视觉理解了;同样,负责触觉的区域也可以
上做一个关于旅游的应用。这个公司非常小,做技术的两个            被训练成具有视觉功能。吴恩达获得了顿悟:原来人脑只有一
人,一个CTO,另一个是程序员,他们希望有一个自动化的算法         套算法实现各种认知功能,从此他走上了深度神经网络的研究
在很多照片中筛选出最好的照片。但两个人学识有限,于是他           之路。

46 网络电信 二零一六年三月
   30   31   32   33   34   35   36   37   38   39   40