如何用大数据干掉星巴克？

百度首页

文/数据侠 Mario

对生意人来说，店铺的选址一向是个颇为“考究”的事情。在大数据和算法的帮助下，这件事今后或许可以交给机器和模型来完成。在本文中，美国的一位数据侠Mario Aksiyote以纽约为例，为我们演示了一套咖啡店选址的科学姿势。

“不眠之城”的咖啡情节

咖啡是纽约的“城市之魂”。当你看到“大苹果”街头遍布着3389间咖啡店，便会明白这座城市是一个“不眠之城”。

追溯到17世纪中叶，当时其他殖民地偏爱茶饮料，将咖啡打入冷宫，而纽约却对咖啡情有独钟，成了重要的咖啡大区。

到了19世纪中叶，纽约已经成为美国最大的咖啡烘焙中心之一。最近，初创企业MassiveHealth的研究就发现，纽约市民的咖啡摄入达到了美国其他城市居民的6.7倍左右。

如果你是一位纽约人，那么你现在很可能正喝着一杯咖啡。

（图片说明：咖啡品牌店Caffe Reggio在1974年的店面；图片来源：Caffe Reggio）

咖啡对纽约来说如此重要，以至于它的容器之一——由Leslie Buck在1963年设计的经典Anthora纸杯成为了这座城市的标志之一。

（图片说明：Anthora咖啡杯在经典美剧《法律与秩序》中常常“露脸”；图片来源：NBC）

不过，尽管你现在还是可以从街上的杂货店或酒店买上一份纸杯咖啡，但这种咖啡已经不是市场主流。

和美国的其他区域一样，纽约的咖啡场景经历了各种“咖啡浪潮”的洗礼。

然而，你要是觉得本文是想要回答类似“第四次咖啡浪潮是否出现”这些争议性的话题，那就理解错了。我们感兴趣的核心问题是纽约咖啡店的店铺分布。

在这篇文章中，我们希望以纽约的咖啡店为例，来探索一个空间经济学中的基本问题——商店是如何确定营业地址的？

为了解决这个问题，我们需要借助不同领域的技术和理论，来建立一套可以科学预测纽约最佳咖啡店选址地点的模型。

科学预测选址地点的方法：建立一套预测模型

下面这张地图展示了纽约城所有3389家咖啡店的分布（排除餐馆、超市和其他可能售卖咖啡的商铺）。

地图上的每一点都代表着一个基于地理位置作出的商业选址决策，显然，纽约的某些地区相较其他区域更受咖啡店主的欢迎（这其中曼哈顿中城和下城独占鳌头）。

为了更好地理清咖啡店的选址因素，我们开始思考：

是什么原因使得一个地区比另一个更具吸引力呢？为什么咖啡店存在着在相同地区集群化的趋势？目前的咖啡店布局是商业的最优布局吗？

为了弄清楚这些问题，我们建立了一个模拟纽约城咖啡店地理分布的模型。参考了博弈论中的思想，我们把建立模型的过程分成了三部分：

1. 输入：确定哪些是影响咖啡店选址的关键因素

2. 模拟：基于不同的输入，反复进行模型优化

3. 预测：纽约未来的咖啡店的最佳选址是哪儿

影响咖啡店选址因素：价格、距离、人口、竞争、文化等

首先我们来看看，哪些是影响咖啡店选址的主要因素呢？

作为消费者，决定去哪里买咖啡往往非常简单。大多数情况下，我们基于口味偏好，价格高低，远近方便程度等进行选择：为了喝上一杯你喜爱的咖啡店的咖啡，你愿意走多远的路，花上多少钱呢？

作为咖啡店店主，决定在哪里开店却会相当复杂。

是不顾市场饱和且有激烈竞争的情况，在靠近布莱恩公园（曼哈顿）的地方开上一家店呢？还是在一个顾客密度较小但竞争不大的地方，比如托滕维尔（斯塔腾岛）开上一家呢？倘若定位是高端咖啡店，选址是不是应当迁往公寓租金最高的葛兰姆西公园（曼哈顿）呢？

为了总结出一套能够预测咖啡分布的影响因素，我们从著名的霍特林模型和它背后的最小差异原则入手。霍特林模型来自于“供应商倾向于选择靠近顾客的地址”这一假设。

基于这一原则，竞争者倾向于在所有可能的顾客中心——相同地点选址。这便是上图的由来：曼哈顿中城和下城，这两个纽约人口最密集的地区以压倒性的优势汇集了纽约大多数的咖啡店。

（图片说明：霍特林模型相关分析演示，红色和绿色方块代表某沙滩边上的2个冰激凌摊贩，假设总共有100名顾客都准备就近购买，那么只要其中一个摊贩的位置移动，它们的顾客数量也会相应发生改变。）

尽管霍特林的理论有助于我们更好地理解店铺和顾客之间的距离、以及店铺之间的竞争是如何影响商业选址的，它仍有局限之处：霍特林假设所有的竞争者都提供相同的服务，这与2017年纽约咖啡业的真实情况大有不同。

而一些霍特林模型的修正版本甚至认为，两个异质的竞争者倾向于最大化彼此之间的距离，来更好地形成垄断势力。

因此，我们还需要考虑那些使咖啡店彼此互不相同的因素——饮品的质量，价格水平和咖啡店的店铺文化。

最后，鉴于我们在对真实世界的选址进行建模（存在规划上的限制、需考虑周边的环境），我们将可获得的商业区位信息、周边地区的社区文化和经济水平也纳入模型之中。

算法和模型的不断打磨、优化

接着我们进入模拟环节。

我们利用接近霍特林模型原始公式等一系列基础方程进行模拟过程的初期推导。对于每个方程，我们通过数学计算进行调整，以赋予不同的权重值（Wu1,Wu2等），不断对模型进行改进优化以产生更接近现实的结果。

下面我们以咖啡店C为例，给出了不同指标的计算公式。

咖啡店C的功效评分值：我们基于咖啡店饮品质量与距离两个因素之间的均衡，定义了评价咖啡店C的功效函数。

（其中饮品质量的数值通过整合从不同渠道获得的关于咖啡店C的点评得到）

顾客光临咖啡店C的可能性：我们将店铺的功效评分值占所在地区其他所有咖啡店功效评分总值的比例，作为顾客选择咖啡店C的概率。

咖啡店C位于区域N时的顾客人数期望值：假设一家咖啡店选址在区域N，我们可以通过将咖啡店选址在区域N内各地区时顾客光临的概率乘以该地区的人口总数进行加和，来估计咖啡店C可能拥有的顾客人数。

详细写法表达如下：

得到上述方程后，我们对纽约市的3389家咖啡店进行了模拟，并不断通过对咖啡店进行重新定位、使总体最接近纳什平衡情况，得到了我们第一份关于咖啡店最佳分布的结果。

不过，这份结果对于我们分析纽约咖啡分布图毫无帮助，反而与纽约的人口分布图有着惊人相似。

这一失败的尝试提醒我们要考虑街头咖啡的一个重要特征：它们一般是白天饮用的饮料。因为需要对模型做的第一点优化便是在模型中利用白天的人口（而不是一般居民）的地理分布信息。

（图片说明：纽约人口居住分布情况。）

（图片说明：纽约白天人口分布情况）

完善了这一点后，我们的模型就立刻发现，咖啡店在曼哈顿中城和下城显示出了明显密集的集中趋势，修正后的地图也与实际的情况更加相近。

然而在一些特定地区（如第五大道，华尔街等）却出现明显过于饱和的现象，周边大量地区密密麻麻地被咖啡店占据，而这个数字几乎是不符合实际的。

显然，咖啡店应当只位于经济贸易集中的地带（即商圈）；我们想起了之前讨论到的一个关键输入变量：周边区域的经济水平，将它纳入模型后该问题得到了解决。

接着，将商圈的相关信息纳入模型后，我们的地图离目前纽约咖啡分布情况又近了一步。

中央公园南部和华尔街的过饱和情况得到缓解，而曼哈顿以外的咖啡店分布开始清楚地表现出沿着主干道分布的特点；在更远的区，咖啡店往往靠近居民生活圈的中心。

就当我们对整合结果十分满意时，我们还想起了没有考虑过、却是最为举足轻重的经济因素：价格。

我们通过修正我们的功效函数，将价格因素整合到了模型之中：

把价格作为输入量纳入模型是我们为了成功度量而进行优化的过程中必不可少的一环——毕竟一家店铺的成功与否，是由总收入的多少而非顾客的数量定义的。

进一步的，为了解释纽约城各地区饮食，租金，房价等价格差异，我们将周边社区经济综合指数作为输入量纳入模型；因此当地区的物价总水平越高时，咖啡的价格因素在我们模型中产生的影响也越小。

尽管目前模拟的全部店铺选址分布已经同现实高度近似（在前面已指出），我们得到的地理价格分布地图却远非如此：尤其在模拟曼哈顿区咖啡价格时，实际情况远远低于预测的理论值。这主要是由以下原因导致的：

曼哈顿超高的咖啡店密度→曼哈顿店铺间激烈的相互竞争→导致曼哈顿咖啡的低价格

这次试验的失败主要原因出在了咖啡文化上。任何一个2017年在纽约东村地区(在曼哈顿，是嬉皮士出没的地区)买过咖啡的人都知道——如今在曼哈顿，咖啡店之间比拼的不是价格，而是文化。

因此，在模型中还需要考虑到文化的因素。

La Colombe和Dunkin’Donuts（两家纽约的著名咖啡店）之间的竞争不仅仅在于价格方面，还存在文化上，因为它们展现给消费者的是完全不同的两类文化（以及产品）。

不同的咖啡店有着不同定位的目标顾客——一家精品咖啡店也许在布什维克走红，却很可能在时代广场碰壁；Dunkin’Donuts可能在时代广场吃香，却在对它不太友好的地铁沿线遭到冷遇。

为了描述这些差异，我们将咖啡店分为（互相存有竞争的）三类：

1.主流咖啡店（Blue in maps、Dunkin’Donuts、星巴克、7-11……）

2.精品咖啡店（Pink in maps、Stumptown、La Colombe、Blue Bottle……）

3.纽约当地特有的咖啡店（例如只有NYC才有的Green in maps）

利用Topos上相关的特征和指数加权（抓取每个地区的“心理”特征），我们能够对纽约每一个地区（N）的咖啡店（C）计算出其文化契合值。

因此我们进一步修改了功效函数，将文化契合也作为其中的一项参考因子。

和之前模拟过程相同，我们允许每一家咖啡店重新进行分布，直到总体近似达到综合各方面因素下的纳什平衡。

这一平衡的条件确保了区域内部不会因为特定的一类咖啡店而出现明显过于饱和的情况，即便在该区域中这一类咖啡店的文化契合度达到了最佳状态。

（图片说明：左图为咖啡店的实际分布图，右图为基于各种因素模拟出来的结果。）

如图可见，最终模拟的结果与2017年纽约的咖啡文化实际情况相近。曼哈顿中城被主流咖啡店占领；精品咖啡店攻陷了曼哈顿下城区、布鲁克林和皇后区东部，但很少在布朗克斯出现，在斯塔腾岛更是寥寥无几；本土咖啡店由于相互之间的异质性，并不会局限于任一特定地点。

当然，还存在很多的细节信息（手冲咖啡？京都冷萃咖啡？下一代咖啡汽水？……）能够让我们来细化目前的模型，不过在现阶段，我们更好奇该模型会对纽约城未来的咖啡店分布做出怎样的预测。

预测未来的200家咖啡店开在哪

最后到了揭晓我们模型的预测结果的时候了，纽约接下来可能会开的200家咖啡店会开在哪里呢？

根据目前纽约三大类咖啡店铺的数量比（主流：当地：精品），我们试图对纽约未来开张的200家咖啡店铺的最优布局利用模型进行模拟。

上图是模型预测的曼哈顿地区未来200家咖啡店的分布，图中绿色代表本土型咖啡店，蓝色代表主流咖啡店，粉色代表精品咖啡店。

令我们大出所料的是，曼哈顿新开咖啡店数目低于大家的预期；相比之下的布朗克斯区则如同一片机遇的沃土，在200个模拟点中占据了31%的最大份额。这也恰好与该区近年来人口数量的增长以及私人领域工作机遇的增加相对应。

为了获得更多有关文化特异性的信息，我们决定针对特定的咖啡店类型和品牌，绘制出它们未来10家店铺对应的选址地图。

未来的10家Dunkin’Donuts开在哪？

除去炮台公园这一例外，布朗克斯区4：皇后区4：曼哈顿区1的结果表明：Dunkin’Donuts在距离曼哈顿区较远的地方拥有更多的成功机遇。

（布朗克斯：4家；皇后区：4家；曼哈顿：1家；布鲁克林：1家）

未来的10家星巴克开在哪？

与Dunkin’Donuts的情况相反，星巴克在曼哈顿更有可能获得成功，毕竟在那里，它的高价格造成的影响将被削弱。另外我们还发现，超过半数的星巴克的位置都选址在外部的区域。

（曼哈顿：5家；皇后区：3家；布朗克斯：1家；布鲁克林：1家）

未来的10家精品咖啡店开在哪？

曼哈顿和布鲁克林仍然更青睐于精品咖啡店，为其保留了最多的机遇（意料之中）。值得一提的是，精品咖啡店在每一个地区都表现出选址上的特定趋势：在曼哈顿选址偏向上部，在布鲁克林偏向外部。店铺不再是简单地聚集在曼哈顿下城和布鲁克林的通勤区，我们发现其在曼哈顿区的位置正向着哈莱姆区上移，而其在布鲁克林的选址正逐步偏离通勤区，一直远到皇后区的瑞吉屋（坦白说这也许是皇后区最布鲁克林的地区了）。

（曼哈顿：5家；布鲁克林：4家；皇后区：1家）

结语：分析咖啡店选址的意义

无疑，比起现代城市生活这一更大的谜题，咖啡店分布不过是其中小小的一块；然而它们的重要性丝毫不容小觑。

从它们在启迪上的影响到它们始终作为“第三生活空间”的中心地位，咖啡店——以及它们置身参与、创造、设计的咖啡文化——在现代生活体验中扮演了一个重要的、也不无争议的角色。

因此，通过不同途径了解咖啡店，从自然语言处理到模拟预测未来的咖啡店选址等，都是一种微小而重要的途径。而我们还希望通过大数据和人工智能这一对利器来改变人们对城市的传统认知。

注：本文编译自Medium.com网站文章《The Next Wave: Predicting the future of coffee in New York City》，略有删节，文中图表均来自原文，关注DT数据侠点击“阅读原文”可查看原文。本文仅为作者观点，不代表DT财经立场。

编译 | 储奕宇胡世龙题图 | 美国街头星巴克

期待更多数据侠干货分享、话题讨论、福利发放？在公众号DT数据侠（ID：DTdatahero）后台回复“数据社群”，可申请加入DT数据社群。

数据侠门派

本文数据侠Mario Aksiyote，美国Topos公司数据和前后端工程师。Topos是一家位于纽约、致力于用人工智能来辅助城市认知的初创公司。

加入数据侠

“数据侠计划”是由第一财经旗下DT财经发起的数据社群，包含数据侠专栏、数据侠实验室系列活动和数据侠联盟，旨在聚集大数据领域精英，共同挖掘数据价值。了解数据侠计划详情请关注DT数据侠回复“数据侠计划”，投稿、合作请与我们联系。

举报/反馈

DT商业观察

10.1万获赞 8.8万粉丝

「 DT] 是第一财经旗下传播与研究机构，关汪互联网、消费、文娱、科技等领域，致力于通过洞察人群趋势和商业逻辑的内容和服务，帮助读者更洁晰地认识世界，助力品牌、企业更好地决策、沟通和连接。

鲲鹏计划获奖作者

关注