如今,我们每个人都在谈论“数据科学”,《哈佛商业评论》杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的顶尖数据科学家,希望能让你们了解这些神奇的人和他们的神秘事儿,为你们一窥数据科学的未来与未知。
汤奇峰,学管理出身,曾任谷歌中国区大客户部总经理,自此和技术、数据、市场结下不解之缘。‘数据科学50人’选择汤奇峰作为访谈对象,源于其在数据交易领域的最新市场化探索——目前他带领着年轻的上海数据交易中心,试图从技术、市场维度,探索出一套具有上海特色的数据交易商业新模式。
“数据孤岛”越来越大了?
最近,知名独立媒体人、零点咨询创始人袁岳在一场演讲中针对国内的数据开放现状发表了一番感慨:“我们今天依然没有大数据,只有大的数据孤岛。每一个人都抱着自己的数据,实际上还是一个数据孤岛,而且孤岛比以前更大了。”
这种看法,点出了国内大数据应用方面的一大“软肋”:企业往往对自家的数据“看得很紧”,只想从别人那里得到数据,却不愿意拿出数据。其结果就是很多数据都被锁在了“笼子里”,没能发挥更大的融合的价值。
怎样让数据更高效地流通融合?在大数据业界,已经开始尝试一种商业化模式:成立数据交易中心或是交易所,加速大数据的合法买卖和流通,也就是说,你可以在交易中心合法买到其他公司提供出来的合法数据。
2015年以来,从贵阳、到武汉,再到上海、重庆、杭州、哈尔滨等地,数据交易机构、公司的数量逐渐多了起来。这其中,既有政府许可的、也有民资的各类创业公司(以API接口作为交易方式)。
民资背景的大数据交易平台“发源地大数据”创始人马建军较为乐观,他透露,2015年以来,大数据交易的市场规模扩大了将近10倍,预计2017年的交易额有200亿元左右。“总体上是一片蓝海”。
在马的认知中,政府许可的机构以及民资背景的企业各有优势,而政府许可的交易机构可能会在政策层面参与地更深。
DT君的问题也恰恰在于此。政府许可的数据交易机构的数据交易模式是怎样的?会从实际层面为打破“数据孤岛”带来哪些改变?进一步开花结果的障碍在哪里?带着这些问题,DT君专访了上海数据交易中心CEO汤奇峰,希望一探大数据交易行业的现状、了解行业的困局与方向。
政府支持的机构,怎么做数据交易?
去年12月刚入选“2017年上海领军人才培养计划”百人名单的汤奇峰,是大数据应用企业晶赞科技(上海数据交易中心的技术支持方及股东之一)的创始人。他掌舵的上海数据交易中心,是一家由政府许可并批复、国资民资共同参与的混合所有制企业。目前,该中心也是“大数据流通与交易技术国家工程实验室”的承担单位、国家大数据交易标准化试点单位。
2016年4月,上海数据交易中心正式挂牌,中心是上海市大数据发展“交易机构+创新基地+产业基金+发展联盟+研究中心”五位一体规划布局内的功能性机构,承担着促进商业数据流通、跨区域的机构合作和数据互联、政府数据与商业数据融合应用等工作职能。
(图片说明:由上海数据交易中心承担建设的上海大数据应用展示中心)
相对于2015年4月成立的中国首个大数据交易所——贵阳大数据交易所,以及之后陆续推出的10多家类似机构,上海数据交易中心并非国内最早。但作为一种新生的商业模式,在公司成立之初,汤奇峰还是花了很多时间向外界解释:什么是数据交易?公司的模式是什么?
汤曾向媒体举了这样一个例子:张先生是一位厨师,正打算从金融企业借钱买一款手机,金融企业必然要做风险评估。第一步,金融企业需要判断张先生是否真要拿钱去买手机。这个时候,大数据可以知道,张先生最近是否访问过京东、苏宁等购物网站;第二步,金融企业还需要判断张先生是否真的是厨师。这时候,同样是通过大数据,可以了解到张先生是否连续在固定地址上班;第三步,还可以看张先生的手机号码是新开通的还是老用户,有没有固定的社交圈,甚至他在航空公司的旅行记录,还可以帮助确定其收入。
对于上述例子中的这一类金融企业来说,以往要获得各种数据,需要到处“拜码头”,寻求数据合作。但成立数据交易中心后,分散在各处的数据源可以在这里集中起来交易。在交易的过程中,还要对数据是否涉及用户隐私问题进行评估(必要时要对数据脱敏处理)、数据的确权、定价、数据质量的认定等一系列工作。工作虽然复杂,但因为集中化,因此往往效率更高。
出于对数据安全、隐私和风险评估等方面的考虑,上海数据交易中心目前采取的是会员制,交易并不对个人开放,而只是面向企事业单位。所有有意向的成员,第一步都需要提交申请材料,通过审核之后才能获取成员账号。而不管是数据的供应方还是需求方,都需要承担相应的权利和义务。
对于数据的供应方,需要按照一定的标准,对数据的属性进行准确描述,然后才会进行挂牌。而数据的需求方则可以在交易平台查询、选择数据供应方的可供应产品。
至于数据的定价,需要经过供应方密封递价进行竞价,需求方择优选定之后,才会生成数据商品订单。
“数据交易在国内总体上还是比较新的事物,但已经有越来越多的企业开始接受这种模式。”汤奇峰向DT君表示。
对大企业之间来说,可能会有数据互换的需求,而对于更多的中小企业,对于数据价值的认识本身也在提升,“让数据变现”成了很多企业愿意尝试的。
“上海模式”有何不同
对于上海数据交易中心这类由政府许可的机构来说,在大规模市场化之前,先建立一套交易的准则,更注重数据的安全、隐私的保护,是其主要特点之一。
这样的事情,各地的类似数据交易中心也都在做。上海的优势和独特之处又在哪里?
面对DT君这样的提问,汤奇峰的回答也很干脆:上海这座城市,就是最大的优势所在。
他坦承,上海数据交易中心成立的时间并不早,但在数据的流通方面,早在2012年上海就已经有相关的研究。而上海一贯的特点是“谨慎而务实”,做了充分讨论,但步子在最初并没有迈大。
“尽管上海并不是第一个成立数据交易中心的,但为什么国家会把大数据流通和交易技术的实验室放在上海数据交易中心?我之前去项目现场答辩的时候,就强调了这样的因素:上海人才和科研机构众多,多年来在信息系统上已经产生了重要的基础和支撑。要想在数据交易和流通方面有所突破,普惠整个行业,把大旗交给上海是再合适不过了。”他进一步补充。
上海的天然优势有不少。比如,上海本身是金融的中心、航运的中心,比较早地感受到了数字时代,一是数据资源丰富,二来从市场的迫切性来讲,也有数据资源重新配置的需求。而在其他经济本身不太活跃的地区,对数据要素的需求显然也是不太活跃的。
而在上海数据交易中心的一整套模式和做法上,也有着上海这座商业城市的鲜明特点。
先是公司的性质,不同于国内其他数据交易中心要么由民资、要么由国资主导,上海数据交易中心的成立则是由政府许可并批复,企业来共同参与,属于国有控股混合所有制企业。在发起单位中,既有上海市信息投资股份有限公司、中国联通、中国电子等国企,也有如晶赞科技、万得、万达信息这样的民营企业。用汤奇峰的话来说,“政府牵头、民企也参与,既兼顾了数据交易的公信力,也更有效率。这就是大数据交易的‘上海模式’。”
另外一方面则是其浓厚的技术特色。虽然各地的数据交易中心都在做自己的研究,但各自的方向和侧重点有所不同。和国内其他数据交易中心的重心要么侧重市场拓展,要么是行业整合等“对外”事务上不同,上海数据交易中心的技术色彩更浓。
在国家设立的11家大数据领域的国家工程实验室中,上海数据交易中心承担的实验室是唯一一家以大数据流通与交易技术为重点方向的。
(图片说明:上海数据交易中心目前是大数据流通与交易技术国家工程实验室的承担单位。)
说到交易技术,很多人可能不太理解,但这却是和每个人密切相关。比如,在数据传输流通中,最令人担忧的往往就是个人信息是否安全。而通过一系列交易技术,能够实现对个人信息的保护。
去年9月,上海数据交易中心和公安部第三研究所共同研发、推出了数据流通xID标记技术。这种技术组合了数据分类规则、不可逆标记生成、传输控制等多项技术,使得交易数据无法识别个体且不能复原个人信息,形成的无特定标识的个体标记数据。
同时,基于真实应用场景,在数据流通规则控制下,在线实现数据的合规按需获取。
有了这类技术,数据流通中的个人信息安全就有了保障。
除了技术,上海数据交易中心还有一大特色:“不做产品”。
所谓不做产品,指的是不做标准化的产品,而是更关注基于场景的应用。目前,上海数据交易中心提供的服务主要聚焦市场营销、金融风控这两大应用板块。“没有应用场景的数据流动本身就是非常流氓的做法,因为数据流动会产生很多社会、法律问题,对于数据流通的边界需要有预先的感知,我们觉得在什么场景下使用是非常重要的。”汤奇峰称。
“解决数据孤岛并不难,难的是思维转变”
2015年,在贵阳实现了中国首批大数据交易,据《贵州商报》当时的报道,在首批数据交易中,卖方中出现了腾讯的身影,而买方则包括京东。
在某些特别的资本运作或商业联盟下,部分拥有丰富数据资源的科技巨头对数据交易这种模式,似乎并不排斥。但在促进数据流通的过程中,对于更多的企业来说,所谓的“数据的孤岛效应”是个绕不过去的槛。
一般而言,很多企业都比较在意数据的权属,不太放心将自己的数据拿出来交易给别人,但对别人的数据却都虎视眈眈。
发源地大数据创始人马建军此前向DT君表示,除了政府层面促进各个部门的数据开放,以及大企业出于对各类数据的巨大需求,有可能会互换数据外,如何让更多的中小企业也参与数据的共享、融合,是“数据孤岛”最大的问题所在。
而在汤奇峰看来,要解决这样的问题,让更多的企业愿意拿出数据,思维的转变是重要一步。
汤奇峰觉得,单纯就数据交易来讲,孤岛的问题并不难解决,因为企业所需要的数据的供应商往往不是唯一的。
他举例说,比如中国民航信息集团(中航信)拥有一部分国人乘坐航班的数据,通过中航信也许可以获得这部分数据。但是中航信并不是唯一的供应商。
尽管不是每个企业都愿意拿出数据,但是也有一些公司在业务发展过程中,思维会比较开明,觉得既然数据是资源,那么就应该在流动过程中发挥价值,让其“变现”。
比如,有一些航空公司在想清楚这个问题之后,就可能会把数据拿出来。如果有一两家这样的航空公司,再加上机场方面的一些数据,是可以拼接出一份完整度较高的数据的。
因此,汤奇峰认为,数据的来源是完全可替代的。
“我觉得其实所谓数据孤岛不是数据的孤岛,而是数据思维的孤岛,当企业真正想清楚了,问题就简单了。你需要别人在数据方面帮助你的同时,其实你也需要对别人做相应的支撑,要有相应的社会角色。数字经济本身就是一种分享经济,这种数据的分享,当然不是没有代价的。”他说。
除了数据的分享,要打破数据思维的孤岛,促进数据的流通,加强企业内部的数据治理也是重要一步。
“很多时候,有些企业会感叹说没有数据,其实企业对于自己的内部有什么数据并没有进行梳理。”
在汤奇峰的观察中,一些企业的内部数据往往就已经能解决很多问题,而且现在很多企业本身也不是孤零零地存在,而是在整个供应链的链条上。即便企业本身数据不多,跟上下游的企业也是可以谈数据合作的。
行业发展的最大挑战在法律的“缺位”
在上海数据交易中心网站提供的资料中,展示了其自行编制的一系列适用于其平台的规范化的交易准则和标准文件,比如《数据互联准则》、《个人数据保护原则》、《流通数据处理准则》、《流通数据禁止清单》等。
DT君发现,像是《流通数据禁止清单》中,就包含了涉及特定个人、特定企业权益、或者是危害社会稳定等数据类型。而在《个人数据保护原则》中,也强调了数据的持有人应该自觉维护数据主体的合法权益。
之所以列出这么多的准则,在很大程度上和适用法律的不明确有关。
汤奇峰表示,对于数据交易中心这类机构来说,发展遇到的最大挑战就在于对法律的把握。目前,国内没有出台个人信息保护法,因此,在数据的流通过程中,企业方对于哪些数据不能流通、哪些环节和应用的场景可能和法律有冲突,会出现一些不太容易把握的情况。
“其他像是商业机密数据的问题,都已经有刑法或其他法律的规范。目前对整个行业影响最大的就是在个人信息这一块”。
尽管面临挑战,汤奇峰还是在专访的尾声中表示看好数据交易行业的前景。
他最后说道:“在人类没有发现石油之前,当然没有人去使用石油。数据也是一样,当你有数据的意识之后,对数据的使用就会产生较强的需求,自然会形成一个数据资源配置的市场。”
结束专访的DT君不免唏嘘,数据孤岛的破与立实际上对于不同的人,站在不同角度看,有很不同的状态,但对于大部分人与商业体而言,孤岛效应依旧存在。大数据产业早已是国家战略,而交易流通依旧面临技术、商业关系以及思维等阻碍。作为“数据科学50人”的又一访,我们领略了数据交易人的故事,局内人无不是“路漫漫其修远兮,吾将上下而求索。”
文 | 胡世龙: hushilong@dtcj.com
题图 | 视觉中国
期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。
关于数据科学50人
数据科技50人项目是DT财经旗下数据侠计划重点内容产品,旨在与数据科学领域KOL共同挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。
数据侠门派
本文数据侠汤奇峰,上海数据交易中心CEO,上海晶赞科技发展有限公司创始人,2017年入围“上海领军人才培养计划”、上海智慧城市建设领军先锋。中国大数据流通与交易技术国家工程实验室理事会理事长、中欧数字经济专家组中方专家。曾任谷歌中国区大客户部总经理。
加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系datahero@dtcj.com。
举报/反馈

DT商业观察

10.1万获赞 8.8万粉丝
「 DT] 是 第 一 财 经 旗 下 传 播 与 研 究 机 构 , 关 汪 互 联 网 、 消 费 、 文 娱 、 科 技 等 领 域 , 致 力 于 通 过 洞 察 人 群 趋 势 和 商 业 逻 辑 的 内 容 和 服 务 , 帮 助 读 者 更 洁 晰 地 认 识 世 界 , 助 力 品 牌 、 企 业 更 好 地 决 策 、 沟 通 和 连 接 。
鲲鹏计划获奖作者
关注
0
0
收藏
分享