文/程一祥
如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家、从业者们又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的顶尖数据科学从业者,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。
大数据、人工智能、无人驾驶、区块链,技术浪潮总是一波未平一波又起。风口中,一个数据科学家该如何选择。阿里云机器智能科学家闵万里为DT君讲述了他的故事。
当“少年班”不再是少年
春节过后的杭州依然还有些冷,连绵的几日阴雨似乎也在阻延着人们找回工作的热情。
虽然街道上人烟稀少,阿里的办公楼里却人来人往,大多行色匆匆。他们穿行在一个又一个会议室之间,屋内的繁忙与窗外的萧瑟形成了极强的对比。
在傍晚,DT君见到闵万里的时候,他刚结束了一个部门会议——这是他今天开的第三个会了,而且晚上还有会。
(图片说明:DT君在杭州阿里云总部采访刚开完会的闵万里)
今年春节前后,阿里加速了在人工智能领域的布局。他们的明星AI产品“ET城市大脑”在一月底得到马拉西亚政府认可,被引入首都吉隆坡治堵;二月又登上网络春晚的舞台。作为阿里云机器智能科学家以及这款明星产品的主要幕后推手之一,闵万里在这几个月里,显得格外的忙碌。
如今的节奏,对闵万里来说,还真有点似曾相识:科技、曝光、节奏快。二十多年前,当闵万里走进“中国科学技术大学少年班”的时候,他就开始感受到了。虽然时间已经有点久远,但一提起“科大少年班”这个话题,关于“神童”的讨论总还是能吸引人注意。
这么多年过去了,这个群体再次以另一种方式出现在了人们的视野中。他们不再是“神童”,而是开始成为科技领域的执牛耳者。当年与闵万里一起入学的,还有如今中国科学院最年轻的华人院士庄小威、打破了华人年龄纪录晋升的哈佛教授尹希、发现世界上最小的纳米碳管的秦禄昌、发明原子陷阱追踪分析法的卢征天.......
当然也并不是所有人都这么幸运。当年媒体口中的“第一神童”宁铂后来出了家,很多人也逐渐离开了科技领域。
“其实我从一开始也就没觉得(我们)跟普通大学生有什么区别,如果非要说的话,就是课业压力更重一些。”谈到科大少年班,闵万里的话语自始至终都流露着亲切和感激,他没觉得自己有什么不同。在他心中,正是从科大开始,他开启了自己追逐数据科学的道路。
“那个时候才十五六岁啊,就要把大学本科数学系的课程全学完。每周六节课,晚上还要做实验。”对于闵万里来说,他觉得终身受益的地方,就是在少年班这个机制下,他接受了科大最系统、最严谨的数学和物理学训练。
“当时科大有一个讲线性代数的小册子,李炯生和查建国老师编的,当时堪称最难宝典。我们连那个都学下来了。那数学肯定是没问题了。”闵万里回忆说,如今能在数据科学领域取得一定成绩,离不开在科大打下的数学和物理的知识体系基础。加入少年班时,闵万里靠的是自己过人的数学天赋,在科大选专业时,他又选择了物理学作为研究方向。
在他看来,数学和物理的知识体系结合,给他后来的研究提供了自信的基础。“如今我们做数据科学,首先要梳理行业的商业逻辑对吧,这就需要用物理的思维,去抽象定位这个业务的本质是什么;抓住本质后你要有数学工具去量化它,处理庞大的数据问题,建模等。知其然,然后知其所以然,不是乱套框架。”闵万里说到。
闵万里谈到数据,总是有一种学者般的认真劲儿,和一种纯粹的理科逻辑。到现在,当他在公司里跟人讨论技术问题的时候,如果遇到分歧,他还是会说“实在不行我们就推公式嘛,算一算,看看谁是对的”。
科大毕业后,闵万里考入了美国芝加哥大学继续攻读物理学博士。如果就这么走下去,他可能会成为一个优秀的物理学家,而与人工智能擦肩而过。博士期间的转专业的决定,让他最终还是踏上了数据科学这趟高速列车。
面对选择
陶杰在《杀鹌鹑的少女》中写到:“当你老了,回顾一生,就会发觉,什么时候出国读书,什么时候决定做第一份职业,什么时候选定了对象而恋爱,什么时候结婚,其实都是命运的巨变。只是当时站在人生的三岔路口,眼见风云千樯,你作出选择的那一日,在日记上,相当沉闷和平淡,当时还以为是生命中最普通的一天。 ”
1999年,闵万里遇到了他的第一个三岔路口。
当时的美国处在互联网泡沫的前期,整个资本市场表现出了对科技狂热的追捧。“只要做个类似PPT的产品演示,忽悠一些互联网概念,就能拿一亿美元的融资。”——钱来的实在太容易了。
大环境吸引了大批优秀的校园精英投身互联网科技行业,计算机相关的专业大受追捧。据闵万里回忆,很多物理系的研究生,念了一年物理就不念了,转去再读一年CS编程,出来就能去A股公司拿十万美刀的年薪。
在当时很多学物理、数学这些基础学科的学生看来,计算机简直是太好入门了。又容易赚钱,为什么不呢?毕竟没有人非要和钱过不去。
闵万里这时去找到教授,说他也要转专业。
“你是不是也要去学计算机?”这是那位费米国家实验室的老教授看到他后的第一反应。
不过闵万里却是想转到统计系。
“完全是兴趣使然。”闵万里在研究粒子物理的两年里,接触到了大量数据统计的工作,他逐渐对统计领域产生起浓厚的兴趣。
(图片说明:芝加哥大学图书馆;图片来源:Wikipedia)
在科大培养起的数学功底,让他在统计上更加如鱼得水,也更加自信。
谈起当时的互联网热潮,闵万里说:“从没心动”,因为那从来不是他要的生活。与其说是兴趣决定选择,不如说是一种对自我认知的自信——他一直很清楚自己要什么。
“钱是迟早都会有的,但是如果找到机会做自己喜欢做的事,这个机会是难得的。”
统计就是他当时最喜欢做的事儿。
老教授用费米国家实验室专用的信纸,洋洋洒洒地为他写了一封推荐信,帮助闵万里进入了芝加哥大学的统计学系。这也是他真正开始数据科学的起点。
当“艺术”照进现实
“Data Science(数据科学)虽然现在火,但是早期并没有提,我们那时自己人都叫它Data Art(数据艺术)。”
离开象牙塔后,闵万里就迫不及待地加入了IBM。他形容自己就像是一个狙击手,“一定要上战场才行”,数据应用必须要到业界实践中去。
在对数据科学的讨论中,当时分为两派。一派是以统计学家为代表的“理论派”,他们坚信遇到问题应该先从物理本质出发,基于逻辑寻找相关性,然后设计模型,选择变量;另一派是以计算机专家为代表的“实干派”——不管基础理论,套模型先算起来,比较“暴力”地直接试。孰优孰劣,就结果看还真是难分高下。
“当时我们就觉得,这个东西应该叫‘数据艺术’,我们就像艺术家,数据就像调色板,我们要去凭空创造。”
2008年,还在IBM的闵万里创作了他第一个非常满意的“数据艺术作品”——利用道路交通的摄像头和传感器数据,预测新加坡中央商务区未来60分钟里的交通状况,从而避免交通拥堵,准确率高达85%。
他的灵感,来源于读博时研究的网络随机过程课题。闵万里创造性地运用统计学和物理学的方法,解决了一个交通的工程学问题。这项研究的直接价值在于,通过这套算法,只需要调整一些红绿灯设置,就能够一定程度避免大城市的交通堵塞问题,每天可以为每个人节约5-10分钟的通勤时间。
“这是多大的生产力价值!”闵万里感慨地说,“我当时觉得,自己的公式终于没有白推,还是挺幸运的。”
闵万里的时任老东家IBM却想的比他更多。
2008年11月,IBM在美国纽约发布了《智慧地球:下一代领导人议程》主题报告,其中正式提出了“智慧地球”的概念。这个概念后来被称为“智慧城市”,简单来说,就是应用信息技术等高科技更加精细、动态、科学的管理我们的城市,解决城市发展的诸如拥挤、堵车、污染等问题。
(图片说明:IBM的“智慧地球”计划;图片来源:IBM官网)
2009年8月,IBM又发布了《智慧地球赢在中国》计划书,正式揭开 IBM“智慧地球”中国战略的序幕。同年十一月,福布斯杂志报道,IBM已经和沈阳、北京等城市管理人员展开合作洽谈,希望引入自己的交通管理系统,帮助解决城市道路拥堵问题——也就是基于闵万里论文的内容。
虽然2008年就已经写好了,但是迫于商业上的考量,他的研究论文直到2011年才被IBM允许公开发表出来。
起了个大早,但这家老牌的科技巨头公司却在“智慧城市”的竞争中赶了个晚集。
“IBM的智慧城市计划,变现模式依然是卖机器,侧重的还是IT的基础设施建设。”闵万里认为,这种老式观念已经与当时的互联网思维脱节了。
1953年,IBM用电子订票系统替换了美国航空的纸质系统,带来了控制系统领域的革新。从那时起,卖机器、卖系统、卖数据库就成为了这家公司的核心商业模式之一。相比之下,2008年正是中国本土互联网企业野蛮生长的一年,移动互联网的大潮席卷全球。轻资产、卖服务、重数据开始成为科技公司的主流,商业模式的创新层出不穷。
“技术领先十年,观念落后百年。”闵万里评价道。
2010年4月9日,时任工信部部长李毅中在2010年经贸形势报告会上,重申信息安全问题。与此同时,IBM的“智慧地球”项目也由于实现难度过大等原因,在中国各地被叫停。
IBM的智慧城市项目在中国没有取得成功。
不过,这一些列的尝试拓展了闵万里的视野。他看到了数据科学下“智慧城市”的巨大潜力。
智慧城市2.0
离开了IBM后,闵万里希望自己能够去一家有更好的平台、能够更快释放自己研究价值的公司。
他一开始选择了谷歌。
在谷歌,他主要负责移动广告业务。“主要就是把网页端的广告主,吸引到移动端来,我们要根据移动设备的位置、精准给用户推荐广告。”
在移动端业务的一个核心因素,就是用户的位置信息。比如用户如果三十分钟前搜索了一个广场的位置,那他可能就会去这个广场吃饭、购物,谷歌就能够预判用户的位置,智能为用户推送周边的消费广告。这与闵万里之前的交通研究,一脉相承。
在2012年底,谷歌的年度战略只有一个关键词——Mobile(移动)。闵万里团队在移动广告端的努力帮助谷歌顺利完成了转型。
2013年,马云在卸任阿里巴巴CEO的时候,去斯坦福商学院做了一次演讲,当时闵万里也在。那次演讲让他感受到了阿里独特的地方——“阿里巴巴有全世界最大的数据,比亚马逊、eBay、PayPal加起来还多,来了之后更发现此言不虚,甚至还保守了些”,闵万里说。
来到阿里巴巴,闵万里就开始着手人工智能类的项目。有了IBM的经验,闵万里对于人工智能的商业化想法更加成熟。他基于自己过去的研究,与团队一起做了一个2.0版本的“智慧城市”——ET城市大脑。如今,ET城市大脑已经成为阿里的明星AI产品,在杭州、苏州、衢州等城市提供服务,同时走向马来西亚等世界其他国家。
(图片说明:ET城市大脑在苏州的应用场景——对苏州工业园区主干线的公交线路进行了调控,不改变车辆数量,只是动态调整每一辆公交车发车的时间,结果乘坐公交车的人多了17%)
与IBM从硬件入手不同,闵万里是从跟数据入手,通过对海量数据的分析处理优化交通管理问题。“这就像是万里长征的最后一步,前些年硬件的发展为交通积累了很多数据,我们现在就是把它用起来。”
据阿里巴巴技术委员会主席王坚说,“城市大脑”现在已经接管了杭州128个信号灯路口,试点区域通行时间减少15.3%。在主城区,城市大脑通过连接高德地图、交警微博和视频数据去感知交通事件,日均报警(比如行人错走上高架路等)500次以上,准确率达到92%。
(图片说明:阿里巴巴技术委员会主席王坚在活动中介绍“ET城市大脑”项目)
在试点的萧山区,利用机器智能调节路口信号灯、提前排空前方车流的技术,使120救护车到达现场的时间缩短了一半。
“其实做的越多,越发现有很多事情是我们做不到的。”闵万里从来不避讳ET城市大脑的局限性,他把城市比做一个生命体,他们所提供的只是大脑,是一种“多体多智能”的庞大计算中心。“如果躯体跟大脑不能连接在一起,那就做不到智慧的城市。”它要跟各个领域的部门合作,去找业务支撑。
ET大脑是阿里巴巴的阿里云研发的超级人工智能,专门用来解决和探索社会和经济发展当中依靠人脑所无法解决的一些棘手问题,例如交通治理、环保预警、工业控制、智能媒体等。除了交通方面,阿里的ET大脑还开发了环境大脑、工业大脑、航空大脑等等。闵万里如今的业务已经让人工智能,从交通拓展到了更多的产业领域。
比较“冷”的数据科学家
如果你见过闵万里,你很难想象他与“冷”这个词有什么联系。
采访的时候,他穿着一件抓绒外衣,不说话的时候,脸上总是笑眯眯地看着大家。
他评价自己的时候却说,自己是一个比较“冷”的数据科学家——冷静地看待数据,冷酷地对待科学。
如果我们稍微把时钟往前拨几年,当你回顾互联网科技的发展历史,除了兴奋和赞叹,你也会惊讶于它的速度和疯狂。在中国,2014年大家都在追移动互联网;2015年大数据开始变得火热;2016年媒体的头条充斥着VR、AR报道;2017年人工智能和无人驾驶又粉墨登场;现在2018年,大街小巷都在讨论区块链的影响......
在资本和舆论的追逐下,数据科学开始披上不同的外衣,一方唱罢一方登场,不停地刺激着人们的神经。很多技术热词的生命力,甚至只有几个月。为了迎合这些风口,看中热钱的投机客们也多了起来。
“很多人昨天是大数据专家,今天是人工智能专家,明天又变成了区块链专家,就感觉他永远都是那个弄潮儿。”但是技术的发展哪有这么容易,随技术更新随波逐流的人很容易就淹没了自己原本的标签。
闵万里则始终把自己看做一个“大数据”从业者,他不喜欢新词热词,对“数据”保持始终如一的冷静。
“别人不要想来忽悠我,我明白数据的局限性,技术不是万能的,算法不是万能,数据也不是万能的。”在闵万里看来,所谓数据科学的本质,只有放到“上下文”中,才能发挥正确的价值。“行业需求是什么?市场是什么?这才是核心问题,然后再说如何用技术解决。”
想用技术热词忽悠他,只谈概念是不行的。“技术交流不服的时候就推公式嘛,我敢于刺刀见红。推不出来你就,是吧,很冷酷。”
闵万里的这种对自己技术路线的“自信”和“定力”,很多也受到了阿里云的创始人王坚博士的影响。
在五年前云计算还是一个“笑话”的时候,王坚用技术自信,顶着压力把这件事儿坚持了下来。闵万里说,“那时有人说他是‘骗子’、‘忽悠’、‘疯子’,不理解”,但今天阿里云上演了技术创业史上最精彩的大反转。
冷静的技术判断,冷酷的商业选择。
闵万里把这些技术热词打了个有趣的比方,“这就像你在校园里去追漂亮女生,这一个手还没拉上呢,你又看上另一个了。”重要的是修炼内功,不要一个技术还没搞好,就去追另一个新时髦。把内功练好,“漂亮女生”说不定就来追你了。
ET城市大脑的成功,让闵万里他们看到了ET大脑的巨大商业潜力,他决定把“大脑”覆盖到更多产业领域。不过他熟悉交通,对不熟悉的领域怎么办呢?
(图片说明:阿里云的ET工业大脑已经运用在了一些传统工厂的车间,将人工智能技术与传统制造业融合)
回忆刚做“ET工业大脑”的时候,他看不懂工厂里的那些数据,他形容当时看到那些工业生产数据就像“看天书”。于是他带领团队走到工厂生产第一线,挨个询问老师傅们数据的含义。最后他把这些数据汇聚在ET工业大脑上,仅通过AI算法,帮助工厂提升了1%良品率,换算成人民币差不多每年节省了上亿元。
面对未知与不确定,有技术自信和才敢坚持走下去,去揽瓷器活。
看到“风口”,这位比较“冷”的数据科学家建议,不如练好你的“金刚钻”先?
题图 | 站酷海洛
关于数据科学50人
数据科学50人项目是DT财经旗下数据侠计划重点内容产品,旨在与数据科学领域KOL共同挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。
数据侠门派
闵万里,阿里云机器智能科学家。14岁被中科大少年班录取。19岁毕业后赴美攻读物理学硕士。2004年获得芝加哥大学统计学博士学位。先后在IBM Watson研究院及 Google 担任研究员,2013年加入阿里巴巴,领导阿里云人工智能ET大脑项目。
长期从事机器学习理论研究与应用算法研发,在脑电波(EEG)解析、高维数据挖掘、随机过程理论、时间序列分析、网络流理论等领域获得多项国际专利。2011年发表的道路交通流预测研究,是该领域全球五年来被引用次数最多的论文之一。曾推动纽约、新加坡、瑞典等地的智慧城市创新。
加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系datahero@dtcj.com。
举报/反馈

DT商业观察

10.1万获赞 8.8万粉丝
「 DT] 是 第 一 财 经 旗 下 传 播 与 研 究 机 构 , 关 汪 互 联 网 、 消 费 、 文 娱 、 科 技 等 领 域 , 致 力 于 通 过 洞 察 人 群 趋 势 和 商 业 逻 辑 的 内 容 和 服 务 , 帮 助 读 者 更 洁 晰 地 认 识 世 界 , 助 力 品 牌 、 企 业 更 好 地 决 策 、 沟 通 和 连 接 。
鲲鹏计划获奖作者
关注
0
0
收藏
分享