房产大数据里,究竟有没有房价真相?

DT财经 2017-09-27 13:39 阅读:689
摘要:文/数据侠谢明如果买卖或者租过房,你一定会对市场上五花八门的房产交易App有了解。市面上还有另一类和房产买卖有关的App,它们本身也许不是交易平台,却可以提供基于大数据的购房辅助指导。房产领域里什么数

文/数据侠 谢明

如果买卖或者租过房,你一定会对市场上五花八门的房产交易App有了解。市面上还有另一类和房产买卖有关的App,它们本身也许不是交易平台,却可以提供基于大数据的购房辅助指导。

房产领域里什么数据最有价值?如何才能科学地预测房价?9月21日,房产服务App“兔博士”首席战略科研项目负责人谢明,在数据侠实验室的线上活动中分享了兔博士的实践干货,本文是其演讲实录。

先要认清房产业务的本质

研究房产行业大数据,首先要研究客户。

弄清楚我们需要面向什么样的用户、提供什么样的服务、什么样的服务才是最好的,所以先要对房产相关的业务本质特征做研究。

从住房的需求定义来看,一般体现在两个方面,一方面是用户有能力满足的欲望,比如你有基本的生活需求、对房子的喜好、房子能带给你社会虚荣感等;另一方面是财富价值的实现需求,这个一般体现在投资上。

从用户特征方面来看,我们可以把用户分为三大种类:买家、卖家、机构(中介),每个种类的用户其实都有自己的原则和倾向。

对于买家来说,他们会根据自己的情况,比如是不是刚需、自己的购买力怎样、家庭情况等,从而表现出来一些倾向;对于卖家来说,一般是追求效益最大化;对于机构而言,他们也有自己的关注点,比如房源的覆盖范围、交易规模、房屋的交易流通速度等。

我们认识、理解用户的这些特征以后,可以去分析、细化、剥离出房产大数据所需要面对的具体需求特征。

先来看具体的需求特征,如上图,一般我们会把它归为几个方面:

首先是房子本身特征,比如面积大小、房型、装修程度,以及它是适合单身还是家庭住等;其次是周边特征,无外乎就是关系到生活品质、商业特性、专项需求等方面的因素,这些都是跟房子本身的价格水平息息相关的。

接着是价格特征,就是指房子位于什么样的总价格段,还包括首付的价格情况,还贷压力等。

除了上面这些特征外,还有一点不能忽视的是整个社会的特征。比如说整体的看涨或看跌,这会影响人们的情绪。社会的人口结构也会导致房产交易上的一些变化。此外,政府的政策导向,不管是刺激政策还是限制政策,也有很大的影响。

上面每个方面的需求特征都有其自我独立的部分,但是它们之间在内在方面又有一些相互影响的关系。只有在对这些业务本质特征进行详细一些的深入理解后,我们才能寻找到应该用大数据来做什么样的事情,体现更高的价值。

房产大数据的建设维度

在对整个房产行业的业务特征进行梳理归纳之后,我们对房产行业大数据的构成、相互的关系等做了一些总结。

可以看一下这个图:

从这张图上可以发现,房产行业大数据体系包含了基础的字典数据、基础的交易数据、基础的用户行为数据,在这些基础的数据之上,形成了画像体系、分析数据以及内容大数据。

具体说来,做房产行业的大数据,首先最重要的是做好基础字典数据,比如大家看到的小区字典数据、房源字典数据、区域数据、以及周边基础设施等等数据。

房地产行业有一个现象,就是数据的不透明问题非常严重。

在中国房地产市场,很少见到有非常完整完善的字典数据。不管是政府、房地产市场上的公司、互联网平台,在以前,大家的数据都是基于单一的角度,形成了一些片面的数据,而且不少数据的出入还都比较大。

至于说基础交易数据,也有一些比如虚假挂牌或者重复挂牌的情况,其实目前在在市场上也是大量存在的。

从房产行业大数据来看,基础的字典数据和基础交易数据是整个大数据研究往后延伸、往更高的层面上发展的一个基础。

接着是用户的行为数据部分,这也是非常重要的基础数据,因为它对于我们了解用户的特征,做用户画像都有很重要的意义。在这个基础之上,我们可以进行整个用户画像体系的建设。

数据的进一步分析,还包含了另外几个重要方面,比如多维度的价格分析,比如均价、成交历史走势、排行榜等,然后也可以做交易热度的分析,做房产估值、各类推荐算法甚至未来的价格趋势的预测。

与此同时,在房产行业,内容这个角度的大数据也是不可或缺,我们可以利用这个大数据来为这个行业做更多的挖掘,特别是对人的情绪的一种预判,对社会的预期研究方面,有着非常重要的意义。

总的来说,在上面这张结构图上,其实能看出这是一个由基础的建设、到后面模型的深入扩展,然后不断地分析提升,通过不断地结合形成更高价值的数据。

兔博士怎么构建基础数据?

兔博士在创业初期就花了很大的投入来建立科学严谨的字典数据库,包括小区字典、交易字典等基础数据。

房地产市场的信息化在前期是存在很多问题的,在小区字典的建设上不仅要结合人力投入,还要有好的算法模型、好的识别机制,能够对错误的数据进行识别和自动判断,再借助更多的手段来完善,使字典数据达到正确、真实。

举个例子,有时候我们看到市面上一个小区,但其实在政府平台上或者其他一些信息平台上,小区的名字可能不一样。有些小区分好几期,在进入二手房交易时,这些信息就应该进行整合,做到能够被识别,并且能够准确地合并到一个统一的维度上。这块如果做不好,那么小区的字典数据就不完整,后面的价格分析的运算就会出现错误。

至于交易数据,其实大家也都知道,因为房地产市场交易有一些特殊的情况,比如做高、做低房价等,很多交易在报给房地产交易中心时,数据都存在一些偏差。针对这种做低做高的现象以及一些异常的情况,都必须要有合理的清洗算法来修正错误。

另外,房源信息也需要进行大量的清洗,因为同一套房子可能会委托给多家中介,网络上的大量信息需要进行很好地梳理和合并之后,才能够进行有效的识别。

除了对这些基础的数据、挂牌数据等进行有效的清洗之外,用户行为也是非常关键的一环。特别在现在的大数据发展的链条中,用户行为起着非常重要的作用,从一开始就建立科学完整的用户行为的收集体系也是很重要的。

在进行整个的数据清理和优化计算的过程中,大数据的算法、模型必须是合理且可不断迭代的,模型需要具备自我修正、自我报警,能够让自己处在不断地自我改进的迭代机制中。

核心数据源的准确性和完整性是做房产大数据分析的首要前提。因为这决定着你以后的所有的分析和计算结果、所有的预测是不是基于正确的基础。

画像体系的价值

在处理了基础数据的真实性、准确性和完整性问题以后,后面最重要的是要建立画像体系。

画像体系的本质核心是标签,对于建立标签,我们的原则是以最能体现业务本质特征的这一层作为最细的一层标签,搭建一个明细程度不一的多层次的标签结构。

比如用户画像,其实我们非常想知道用户的家庭情况、年龄段、购买力以及他目前所处在的阶段(看房、买房、交易到了什么阶段),要想得到这类信息,我们可以通过他的行为的明细标签来界定,比如他查看App的频次、查看的时间分布、在看什么样的小区、小区的价格段等等,对这些行为做关联分析,探讨之间的逻辑。

至于小区的画像,会涉及到它的主力房型、主力价格段、小区的物业、绿化情况等,当然也包括周边的特征,交通是否便利等。对用户、小区的画像都独立做完之后,再寻求它们之间的关联。

这些看似独立、又存在内在联系的标签之间的逻辑关联一旦成立,那么对画像数据进行整合之后,它所发挥出来的分析价值、数据价值就会呈几何倍数的增长。

大数据预测房价:过去、现在、未来结合

其实我想很多人更关心的还是房价,房产大数据对于预测房价到底能起到什么样的作用呢?

当我们说房价的时候,我们不应该只想到明天房价会是多少,而应该立体地来看房价。房价其实是一个结构:可以看昨天是什么样子,再看今天的房价是什么情形,然后再预测看看明天的房价会怎样。

我们有大量的数据,可以提供多维度的交叉分析。比如历史数据、成交价格走势、涨幅跌幅,可以通过走势图清晰地表现出来。

我们也可以用大数据的模型来给自己的房子估值,通过结合其他的数据来对你当前的情况做一个基本的判断。

当然,我们还可以通过先进的大数据模型的算法,来对未来的房价走势做专业的预测。兔博士还做了一些投资性的数据报告,可以帮助大家对未来的形势有一个预判。

兔博士考虑的是,怎么样提供最好的用户视角来展示数据,让用户以最低的浏览成本来获取最有价值的数据量。

在兔博士的App上,打开之后可以看到你所在位置周边的相关数据,这其实并不是简单的原始数据的展示,而是已经包含了大数据的分析。

如果当前这个位置不是你想看的,你可以随时搜索其他的板块、位置的情况:

在小区的相关页面上,我们组织了很多指导性的数据,包括挂牌行情、成交数量、在售数量等,大家还可以看到成交的曲线,曲线的最后其实是一个未来成交均价的预测。这样做,可以说是把这个房子的过去、现在以及房子将来可能的情况都在页面上集中展示给了用户。

至于说估值,在这个页面上,你不仅可以看到房屋估价的数据,还可以预计到房屋多久会成交等。

我们现在回过头来看本质,我们的理解是房价信息透明和趋势预测其实才是决策的核心和基石。房产大数据的意义和终极目标不是简单地对房价给出一个准确的预估价格,这不是科学。

要做科学的大数据,应该是提供给用户他所需要的各种信息,帮助他解决问题,然后做出正确的决定。

我们觉得,以服务为目标,同时在技术体系上又能够做到核心数据源的完整严谨,数据处理流程、结构科学合理,系统自动化程度高,并不断进行自我优化迭代,这样的房产大数据体系下的数据就是好的大数据。

房产市场有它的一些特殊性,房子本身是大额商品,房地产也是战略性的行业之一,房子本身还具有一些特殊性。

我们做了基础数据、用户画像后,一个不能回避的问题就是关于社会的预期和情绪。大数据可以帮助我们验证社会预期情绪的冷热。所以兔博士还提供了两个内容服务:一是地产头条,二是大咖问答,这些可以帮助我们对未来做更好的判断。

回到做房产大数据的初衷,我们觉得大数据的意义在于给决策提供支持,向用户提供更多有价值的信息,帮助用户解决问题,作出正确的决定,这是我们认为的房产大数据最重要的一个目标。

DT君发福利:文中所有数据侠PPT都可在DT数据侠后台获得,方法:关注DT数据侠(DTdatahero),后台回复“房产大数据”。

注:以上内容根据谢明在数据侠实验室的演讲实录整理,图片均来自嘉宾PPT,已经本人审阅。

期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。

数据侠门派

本文数据侠谢明,兔博士首席战略科研项目负责人。

加入数据侠

“数据侠计划”由第一财经数据新媒体DT财经发起的数据人社群平台,旗下有数据侠专栏、数据大咖及爱好者社群、线上线下“数据侠实验室”系列活动等项目,了解数据侠计划详情请关注DT数据侠


版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。
阅读量: 689
0