文/陈鸿
作为“一夜崛起之城”,深圳城市的发展速度众所周知。其实,“深圳速度”不仅体现在盖高楼,更体现在工作岗位的升级变迁上。在7月27日的深圳城市大数据活跃报告发布会现场,来自e成招聘的首席科学家陈鸿博士,用海量人才大数据展示了另一种“深圳速度”。
看职业:仓储管理员少了,软件开发者们多了
在北上广深四个一线城市中,深圳无疑是最年轻的。自从1979年有一位老人在南海边画了一个圈后,不知不觉,深圳也走过了37年的发展历程了。从最初的小渔村到如今的超级大都市,深圳的城市变迁轨迹从某种程度上来说,其实也是人口活动的变迁轨迹。
在上周深圳的数据侠实验室活动中,e成招聘的首席科学家陈鸿博士结合e成的就业大数据,从人的维度结合地理位置信息,更细致地描绘了深圳这几年的发展变化。
e成是一家专注于人力资源行业的大数据公司。全网积累了1.3亿份简历数据,其中已经识别到1248个城市的8300万份简历(1248个城市包括发达地区的部分地级市及县级市和不发达地区的部分地级市)。
这些简历提供了很多有价值的实体数据,例如公司、所在行业、年龄、技能等,其中公司是有地理位置信息的,这就把“人”和“地点”联系在了一起。陈鸿在分享中说:“有地理信息,我们通过就业数据来理解城市变迁特征的可能性就从此打开了,我们可以知道在城市的哪一个地点有哪些人在工作,在活动。这件事情很有趣。”
首先,陈鸿先将深圳的人才数据根据职能进行了统计。他发现,从2015年到2017年,深圳市的高级职能人才变多了,低级职能人才在减少。
(图片说明:深圳2015-2017年间不同职业人才的数量变化)
城市是多样的,这个多样归根到底是人的多样。从劳动者的结构上看,深圳在过去的三年中,销售、软件开发、行政和人力资源类的就职人口增加迅速,国贸、会展中心、高新园等地铁站点的职能变化速度较快。相对应的,文员、销售导购、仓库管理人员、操作工等相对低端的职能,则正在从深圳消失。
对比分析上面这两张图,深圳城市的职能变化就更清楚了。以高新园区这个站点为例,在过去三年中,这里的仓库管理员在大量消失,与此同时软件开发等职位在快速增加。说明这里应该是出现了产业结构的变化——从物流业到IT业变动的趋势。
“深圳这两年,还出现了更多的白领、销售、行政。如果一个地方写字楼不多的话,是不会有很多行政的,所以我们就能够看出一些变化。而且,这件事情对政府和商业圈的选址也有用,比如麦当劳想选址,先在城市按照销售额去排名,看哪些地点是卖的不错的,然后再找到相似的地点,就可以快速的得到好的地址。”陈鸿说道。
看业态:深大站变化最大,福田口岸原地踏步
除了这些宏观的简单统计,如果还想更细致地看到深圳各区域城市业态的变化,这就需要对数据进行进一步处理。
陈鸿用到的方法,是把简历中这些抽象的标量数据变成连续的向量(DT君注:向量是指一个同时具有大小和方向的几何对象,向量之间是可以运算的),构成一个向量空间。陈鸿解释说,“这个职能空间是一个300维的抽象数学模型,每个职能在向量空间里都有一个位置,然后我们获取了每个地点周边的工作信息,把地点信息也变成向量空间中的一个位置。这样,深圳100多个地铁站就也跑到抽象的职能空间中去了。我们就可以通过计算向量的差值,来定量得度量不同年份间城市不同位置的业态变化了。”
(图片说明:深圳2015-2017年间城市业态变化最大的十个地点)
深大、会展中心、市民中心、福田、科苑、购物公园、高新园、国贸、车公庙、竹子林是用这种算法计算出的深圳在2015-2017年地区业态变化最大的十个地点。从数据上来讲,这些地方应该是发展比较快、有更多的就业人口涌入的区域,或者说是业态发生了巨大的转型,才会导致这些向量的改变值比较大。
(图片说明:深圳2015-2017年间城市业态变化最小的十个地点)
反过来,我们也可以找出一些变化最小的地区,即周围的就业人口结构在这两年之间基本上是没有什么变化。令人惊讶的是,福田口岸这一深圳著名的站点竟然榜上有名,福田口岸虽然人流量巨大,但是这些年的城市业态几乎鲜有变化。如果对比一下两张图的纵坐标,其实差距就更明显了。第一张图的纵坐标是百位,第二张图则是十分位,相差了几百倍。
陈鸿认为,深圳这个城市不同地点的快速发展,肯定是有起有伏,用这个方法就可以画出城市变化的中心地和变化的边缘区。“我很想看到深圳哪个地方发展的更快,哪些地方是接近停滞的。”
平心而论:上海的IT业可能比深圳落后了两年
这些向量,不仅可以进行计算,还可以对他们进行聚类。陈鸿首先把不同年份地点对应的职能向量放在一起(取2015、2017两个年份),对各个站点进行了聚类。这可以看出来深圳不同地点在不同时间的发展情况,去发现城市功能分区在时间序列上的挪移。
(图片说明:深圳2015年与2017年的各地点的表征向量聚类结果图)
大剧院2017、下沙2017、科苑2015、深大2015等这些站点聚在了一起,说明2017年的大剧院附近的业态与2015年的深大、科苑等比较接近。由于深大、科苑等地点一直都是对应的IT产业,所以大剧院、下沙等地的IT业在2017年有进步的可能。
但是即便如此,这些数据对于不了解深圳的外地人来说,依然十分抽象。想要快速了解深圳的话,最简单的方式就是拿一个自己熟悉的城市去比较。于是,陈鸿在向量空间中加入了上海的数据,又做了一次聚类。这样就可以通过一个转移效应,快速了解深圳的情况。
(图片说明:深圳各地点与上海地点在向量空间内聚类的结果图)
例如,在这份聚类中,深圳的IT园区深大2017,还有科苑2017、高新园2017各自自成一类,在聚类表的前列。上海的IT园区张江高科则与科苑2015聚在了一类,也就是说,张江高科附近的城市业态与科苑2015年的水平更加接近。“仅仅从这个数据上来讲,深圳的IT产业可能要领先上海2年呢。”
注:以上内容根据陈鸿演讲实录整理,图片均来自嘉宾PPT,文章经过本人审阅。关注DT数据侠(微信ID:DTdatahero),后台回复“就业数据”,即可获取完整版本PPT。
我们汇集了深圳165个地铁站辐射圈的静态和动态数据形成14个指标,推出重新认识地铁上的深圳:2017深圳城市大数据活跃报告》,后台回复“深圳报告完整版”可购买。
数据侠门派
陈鸿,e成合伙人,首席科学家,正致力于将海量职场数据变成连接人与工作的知识图谱。陈鸿博士毕业于北京大学计算机系,曾担任豆瓣第一任数据科学家,分析过豆瓣小组的七种可能形态和演化路径,也用算法跑出社区用户的行为辞典供GrowthHacking。他拥有近十年业界前沿数据挖掘和机器学习经验积累。在自然语言处理,推荐系统,舆情分析,用户画像,知识图谱等领域有过深入积累。
加入数据侠
“数据侠计划”由第一财经数据新媒体DT财经发起的数据人社群平台,旗下有数据侠专栏、数据大咖及爱好者社群、线上线下“数据侠实验室”系列活动等项目。
举报/反馈

DT商业观察

10.1万获赞 8.8万粉丝
「 DT] 是 第 一 财 经 旗 下 传 播 与 研 究 机 构 , 关 汪 互 联 网 、 消 费 、 文 娱 、 科 技 等 领 域 , 致 力 于 通 过 洞 察 人 群 趋 势 和 商 业 逻 辑 的 内 容 和 服 务 , 帮 助 读 者 更 洁 晰 地 认 识 世 界 , 助 力 品 牌 、 企 业 更 好 地 决 策 、 沟 通 和 连 接 。
鲲鹏计划获奖作者
关注
0
收藏
分享