我用微博签到数据,给长三角城市重新排了个名

DT财经 2017-09-08 14:51 阅读:1702
摘要:文/数据侠徐凯恒这位数据侠,用宏观数据结合微博签到数据进行聚类分析的方式,重新划分了长三角的城市等级。本文转自公众号数读城事(ID:CityDAst)好久没有做新数据应用的文章了,虽说是新的网络数据,

文/数据侠 徐凯恒

这位数据侠,用宏观数据结合微博签到数据进行聚类分析的方式,重新划分了长三角的城市等级。

本文转自公众号数读城事(ID:CityDAst)

好久没有做新数据应用的文章了,虽说是新的网络数据,微博签到数据应该也不算是什么新的数据了,早有各路大神用的飞起了,我在这里也就拙劣的试一下手。

总的来说,技术路线就是通过微博签到数据中 「签到次数」与「签到图片数量」的总量表征城市的网络活力,通过网络活力、人均GDP、人口密度等值进行聚类分析,从而得出城市群内城市等级梯度的划分。

今天的主题是城市群,具体来说是长三角城市群,除了利用新浪微博的签到数据外,主要参考的文件为2016年发改委印发的《长江三角洲城市群发展规划》。

长江三角洲城市群(以下简称长三角城市群)是我国经济最具活力、开放程度最高、创新能力最强、吸纳外来人口最多的区域之一,是“一带一路”与长江经济带的重要交汇地带,在国家现代化建设大局和全方位开放格局中具有举足轻重的战略地位。

长三角城市群在上海市、江苏省、浙江省、安徽省范围内,由以上海为核心、联系紧密的多个城市组成,主要分布于国家“两横三纵”城市化格局的优化开发和重点开发区域。

范围包括:上海市,江苏省的南京、无锡、常州、苏州、南通、盐城、扬州、镇江、泰州,浙江省的杭州、宁波、嘉兴、湖州、绍兴、金华、舟山、台州,安徽省的合肥、芜湖、马鞍山、铜陵、安庆、滁州、池州、宣城等26市,国土面积21.17万平方公里,2014年地区生产总值12.67万亿元,总人口1.5亿人,分别约占全国的2.2%、18.5%、11.0%。

(图片说明:长三角城市群范围;图片来源:《长江三角洲城市群发展规划》)

微博签到数据的可视化

获取了江苏省、上海市、安徽省和浙江省的微博签到数据,数据包括签到点名称,地址、类型、签到次数、签到照片数量等,几十万条吧大概,反正就是有点卡想换电脑那种。

(图片说明:微博签到数据示例)

将微博签到数据空间化落在地理空间上,选择适合的符号系统,呈现出来的效果类似于夜间灯光数据集,或许这张图也可以叫做「微博签到点亮长三角」。

在图里我们可以看到,数据最为集中的区域主要是长江沿线以及环杭州湾一带,也可以大概看出长三角城市群内核心区域的大概范围。

(图片说明:微博签到点亮长三角)

通过对微博签到数据进行核密度分析,以及每个签到点的签到次数和签到照片数量进行计算得到每个签到点的网络活力:

网络活力=签到次数+1.5*签到照片数量

每个点的网络活力作为核密度分析的权重值,计算半径为1000米。(签到同时拍照比单纯的签到具有更高的活力,因此乘以了1.5,这里还有待商榷)

特别注意到的是,上海——苏锡常都市圈的关系尤为紧密,上海——苏州——无锡——常州呈现出绵延连片的趋势,特别是县级市、小城镇在其中担当了相当重要的作用,昆山、常熟、张家港、江阴等地也显示出了较强的网络密度。

(图片说明:上海、苏州、无锡、常州微博签到密度)

通过汇总将每个城市的网络活力的数值进行求和运算,得到每个城市的网络活力总量。总的来看,结果还是和经验认知相符的。

(图片说明:长三角城市群各城市网络活力总量)

长三角城市群经济基础条件

由于时间限制,我仅选取了人口、人口密度、GDP和人均GDP这几个指标进行分析,资料来源于上海、浙江、安徽和江苏的2016统计年鉴,人口选择常住人口,这里仅进行最简化的经济基础条件的分析。

从各城市的人口总量来看,呈现出沿海、沿江分布的特点,由于各市行政区划面积存在较大差异,需要比较人口密度的指标。

(图片说明:长三角城市群各城市常住人口数量)

人口密度分布情况来看,沿海沿江的特点更为明显,上海作为城市群内的中心城市,人口密度当之无愧位于第一,沿长江经济带的城市,特别是长江以南的苏州无锡等城市人口密度也相对较高。

(图片说明:长三角城市群各城市人口密度)

生产总值与人均生产总值情况来看,长三角城市群边缘城市的经济体量与核心城市存在较大差异。

(图片说明:长三角城市群各城市地区生产总值)

(图片说明:长三角城市群各城市人均生产总值)

案例

对于城市群内的城市等级划分,我选取了K均值聚类算法

K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。(以上内容来源于百度百科)

下图展示了对n个样本点进行K-means聚类的效果,这里k取2

用于聚类分析的变量,也就是要选取的指标,我简单选择了人口、人口密度、生产总值、人均生产总值、网络活力(签到次数+1.5*签到照片数量)。

通过计算,将26个城市分成了4个等级。

(图片说明:城市等级分布)

这次的微博数据的小小实验就到这里。

想浏览更多数据侠文章?快关注DT数据侠吧~各路大牛带你玩转大数据!

数据侠门派

本文数据侠徐凯恒,现就职于发展改革委城市和小城镇改革发展中心综合交通院,主要从事交通-产业-空间三要素协调规划,除了长得帅,媳妇也特别漂亮。 数读城事(CityDAst)这个公众号就是他和媳妇两个人在学生时代的时候一点点运营起来的,主要是想分享经验与结交朋友,虽然规模不大,但是做得很用心。

加入数据侠

“数据侠计划”由第一财经数据新媒体DT财经发起的数据人社群平台,旗下有数据侠专栏、数据大咖及爱好者社群、线上线下“数据侠实验室”系列活动等项目。

版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。
阅读量: 1702
0