Page 33 - 网络电信2016年第4期
P. 33

大数据分析

识未必能够彻底脱敏。美国研究显示:即使把姓名、地址等标             而未来市场的参与者可能同时是提供者与请求者。其次,交易
识信息拿掉,只要有邮政编码、性别、生日等3项信息,就有             将不仅是简单的“ 给”和“ 得”,而是融合、使用从而产生
60%~90%的可能性锁定个人。即使去标识很彻底,仍有“ 阿喀         新的衍生价值。因此,数据的定价不是那些比特的固有价值,
琉斯之踵(致命弱点)”。一种攻击的方法是通过多数据源的             而是在这一次“使用”中产生的当前价值。数据市场应该是使
比对来缩小搜索范围,重新标识;另一种方法是基于统计的攻             用和买卖一站式服务,并且是先使用再买卖。
击,比如根据两个打分再加上一定的时间范围约束,还是有接
近70%的可能性锁定个人。                                 Steven Johnson 的TED 演讲《伟大创意的诞生》是从咖啡
                                        馆说起,它创造了一个安全的空间,让不同的人做思想碰撞,
      (4)防止隐私攻击的匿名化技术。比较典型的如            创造新的想法。数据何尝不需要这样一个咖啡馆,让各方的数
k-anonymity和Ldiversity等,但在敏感属性不够多样化,或攻  据能够产生“化学作用”。“数据咖啡馆”项目基于多方安全
击者具有背景知识时,这两种技术仍不够鲁棒。目前最好的一             计算,试图解决3个问题:安全可控的开放;数据市场和云计算
种技术叫差分隐私,即把噪声加入到数据集中,但仍保持它的             的一体化;数据定价的问题。
一些统计属性,支持特定的机器学习算法。
                                              然而,绝大多数数据的价值是不确定的,这正是数据的外
      这些困难和挑战都不能阻挡开放数据运动的深入人心。在         部性。这种属性决定了数据与石油本质上的区别:石油的价值
数据(尤其是商业数据)仍然无法充分流通的今天,开放数据             在燃烧的一瞬间实现并消失了,但数据能够反复使用,产生不
无疑能够让具有数据思维和分析能力的创意者点石成金,把死             可预期的新价值。基于Moody的信息估值七律,可以衍生出数据
的、消耗成本的数据变活、创造利润。                       估值七律:

    基于数据安全流通和定价的数据市场                          (1)数据可以被无限次共享,可以产生更大的总体价值,
                                        但多次复制会使所有权复杂化,增加成本;
      数据之于数据社会,就如同水之于城市或血液之于身
体——城市因河流而诞生,也受其滋养;血液一旦流动停滞,                   (2)数据用得越多,价值越大;
身体就有危险。所以,在数据化生存的今天,一定要让数据                    (3)数据价值会随时间衰变;
流动起来。数据开放更多适用于政府公                             (4)数据越精确,价值越大;
共数据和纳税人资助的科研数据,而更
多涉及私人隐私或企业机密的数据无法                                                           (5)多个独立数据源的融合为
通过简单的开放获得。如果把数据看作                                                    1+1>2;
一座冰山,公开的只是露出海面的一点
点,绝大多数藏在暗黑的海面以下。                                                            (6)更多的数据不见得能带来更多
                                                                     的价值;
      数据拥有者不愿意把数据拿出来,
有两个原因:担心数据被偷窃;对自己                                                           (7)数据不会损耗,反而会越用越
并无好处。所以,解决时该问题时需要                                                    多。
把握两点:保障数据的安全流通;对数
据的使用进行定价,而实现这两个关键                                                           这些基本原则对数据的定价具有指
的载体是数据市场。数据市场并非是新                                                    导意义——数据的使用频度、新鲜度、
概念。早年的综合数据市场多进行原始                                                    质量、外部性等都是重要变量。Glue
数据集的下载交易,由于数据容易复                                                     Reply公司据此提出了基于使用的估值模
制,版权保护困难,这种形态逐渐被几                                                    型。
种新的形态取代:
                                                                            另一方面,Gartner分析师
      (1)为特定用户定向采集或加工数据,如某公司从事人脸                                     DougLaney——大数据3V的提出者,把信
分析技术,委托第3 方采集各类、各种姿态和光照条件的人脸                                         息和数据的估值模型分成非金融模型和
数据,或某公司具有大型数据集,需要特定的服务来做标注。                                          金融模型。

      (2)专业领域的数据服务,如交通领域的Inrix或金融领                                          我们期待未来的数据市场有灵活的
域美国三大征信公司。                              数据定价模型,该模型既考虑数据的使用历史和时间嬗变所形
                                        成的基础价值,又能计量当前的这次租用中可量化的价值,计
      (3)不给出整个数据集,只能基于查询或应用程序接口         算出这次交易的数据定价。同时,如果这次使用有多方数据参
(API)提供数据的受控访问,中国出现的数据交易市场多为此           与,根据各方在计算中贡献的大小,对其数据分别进行定价。
类型。                                     数据的安全流通和定价将鼓励数据拥有者将其数据参与流通,
                                        对其数据价值化、货币化和资产化,从而形成“ 收集-使用-价
      (4)不给出原始数据,只交易加工信息,这是之前大数据        值化-更多收集-更多使用”的正向反馈,为开放式创新提供更
时代的主流,有些公司(如彭博社)甚至提供专门的终端保证             广泛的原材料供给。
信息服务。
                                            开放的基础设施
      随着数据生态的完善,数据市场的形态将更为丰富。首
先,上述形态多为数据提供者与数据请求者的简单交易关系,                   笔者的同事Eric Dishman罹患肾癌23年,尝试了各种治疗
                                        方案,甚至换肾,一直没有进展,直到他选择了基于基因分析
                                        的精准治疗。整个测序和锁定致病基因片段的过程花了3个月;

44 网络电信 二零一六年三月
   28   29   30   31   32   33   34   35   36   37   38