我做了个数据选品工具,帮你们搜寻护发神器

DT财经 2017-09-29 15:49 阅读:133
摘要:文/数据侠陈愉涵还在为用什么品牌的护发品烦恼吗?有了大数据,你需要做的也许只是动动指头。就读于纽约大学的一位数据侠,基于护发产品的用户评论等数据,开发了一款选品工具,本文分享了她的数据分析方法,看看对

文/数据侠 陈愉涵

还在为用什么品牌的护发品烦恼吗?有了大数据,你需要做的也许只是动动指头。就读于纽约大学的一位数据侠,基于护发产品的用户评论等数据,开发了一款选品工具,本文分享了她的数据分析方法,看看对你有何启发?

如何找到最适合自己的护发品

你喜欢尝试新产品吗?你对现在最流行哪种护发品感到好奇吗?又或者你想让你的头发有光泽,并且一直渴望有一款合适的洗发水、护发素或者发油产品?

不妨试试我制作的这个选品工具,可以帮你迅速找到你需要的产品。(DT君注:后台回复“选品工具”可获取工具及代码链接)

这篇文章我将具体介绍我的研究方法和发现,以及我是怎么鼓捣出这个小工具的。

(图片说明:本文作者制作的选品工具页面截图,这个页面集中展示了不同的护发品牌的得分、网友评论关键词等,在这工具里搜索品牌名或者护发需求,还可查看对应品牌的平均得分、评论数、产品排名等。)

第一步:提出问题

一开始,需要先明确我想要通过这个研究来解决什么问题:


市场上,哪些护发品牌最为流行?


在Influenster.com这个网站上,用户行为又是怎样的?

(DT君注:Influenster是一个针对互联网购物产品的发现、评分和分享的搜索引擎,用于帮助购物者能找到最佳的产品,本文作者的选品工具就是基于抓取到的该网站数据。)


哪些因素可能对顾客满意度有着重要影响?


如果能建一个搜索引擎, 输入需求是否能直接获得最相关的那款产品呢?

第二步:数据收集

为了获取最新的护发产品信息,我决定抓取Influenster网站上的数据,这个网站上有超过1400万条评论和超过200万种产品供用户选择。

为了缩小调查范围,我主要关注三类产品:洗发水、护发素和发油。

我收集了每一类别中排名前54的产品。

对于产品相关的数据集,我抓取了品牌名、产品名、产品评分、排名以及评论等信息。另外,我抓取的评论数据集则包括了作者名、作者位置、内容、评分以及发型等。

第三步:数据分析

接下来,到了揭晓我的发现的时候了,先是热门品牌的排名:

需要指出的是,"其他"(others)这一类指的是单一品牌仅占有一项或两项热门商品的集合,因为小品牌一一列出过于琐碎,因此全部归类为“其他”。基于此,我们从上面这个饼图大致可以判断出:大多数的流行品牌都属于大品牌。

接着我们再来美国不同地区的人们给护发品给出的平均评分情况:

为了解答前面提出的Influenster这个网站上用户行为的问题,我画了上面这张地图,它反映了美国各地的用户的不同评分倾向。

我甚至还绘制了两张地图来验证是否有关于不同地理位置的有趣结果,不过,由于我抓取的是每一类产品中排名前54的产品,它们的最终评分在全国都很高,很难从中发现什么区域差异。

然而,当我在观察Influenster网站上来自不同地区用户对护发产品的评论数量时,我们看到加州、佛罗里达州、德克萨斯州以及纽约分别有高达4740、3898、3787以及2818条评论。

(图片说明:美国各州的护发产品用户评论数量)

我还分析了评论数量和评分之间的关系,其实两者之间呈负相关关系。

比如,在总分是5分的情况下,对比之下可以发现,Pureology这款产品得到了最高分数4.77分,但它只有514条评论;而另一方面,OGX的评分是4.4分, 尽管它有超过5167条评论。

(图片说明:用户评论数量与用户评分的关系)

除了具体的评分,我们还会对用户最关心的因素,以及哪些因素对产品满意度影响最大等问题感兴趣。

为此我专门去查了这7.7万条评论中最常提到的关键词。

开始时我试着基于洗发水、护发素和发油这三类产品的评论,加上总体的全部评论给出4张词云图,然而,我发现从这4张图之间并不能看出显著的区别。

为此,我专门制作了一个“比较词云”,来核对在评论中最常见的词。从中可以发现,顾客认为最重要的因素还是产品的功效和香味。

另外,“推荐” 一词在评论数据集中是经常出现的。所以,我认为口碑是值得品牌们关注的重要的市场策略。

(图片说明:左图是基于各品类全部评论得出的词云,右图是将洗发水、护发素和发油三类产品的评论关键词放在一起做对比的情况;相比之下,右图这种“比较词云”的形式更能体现品类差异。)

我的选品工具是怎么做出来的

前面也提到了我的选品工具,是基于抓取到的数据制作。

下面这个视频截图展示了其中的“搜索功能”,比如你输入smooth这个词,那么你可以获得那些在柔顺度方面表现最佳的产品排名:

为制作这个工具,我使用了“词频–反向文档频率”(TF-IDF)这种自然语言处理法,用来反映一个词在语料库中的某个文档中的重要性。

在我制作的搜索引擎中, 我利用了 “tm”包,并对词频采用了weightSMART“nnn”加权的方式。简单来说,weightSMART“nnn”是一种自然的加权计算,它统计了每一个单独的词语在数据集文档中出现的次数。

进行了“词频-反向文档频率”处理后,我还设法让每一次查询,都能根据“余弦相似度”的分数来推荐产品。

什么是余弦相似度呢?

它是在内积空间两个非零向量之间的一种相似度的度量,即计算他们之间角度的余弦值。

就信息检索如搜索引擎来说,两个文档的余弦相似度的值是在0到1之间的,因为词频(TF-IDF权重)不能为负。换言之,两个词频向量之间的夹角不能大于90度。此外,当余弦值接近1的时候,表示两个向量之间 (产品)有更高的相似性。

余弦相似度的计算公式如下所示:

我的几点结论


大多数护发品产品属于家居品牌。


在Influenster上,来自加州、佛罗里达州、德克萨斯州和纽约的用户更为活跃。


一款产品的评论数量和评分之间往往呈负相关。


对护发品来说,功效和香味是最为重要的因素。


尽管“推荐”是一个普遍被使用的词,但在本文的研究中,其实我们还是很难判断用户用这个词是正面的还是负面的反馈,也许下一步我还可以对用户的情感进行分析。


我开发的这个带有搜索引擎的选品工具,采用了“词频–反向文档频率”这种处理法并且引入了余弦相似度的概念,如果我能够再加入一些产品本身的描述,可能会运行地更棒。通过加上产品描述,用户有更高的概率不仅仅是匹配产品名称,还可以匹配产品描述来检索,这样他们能够检索到更相关的商品,并且探索更多产品的新特性。

注:本文编译自NYCdatascience.com网站博客文章,原题《Web Scraping Influenster: Find a Popular Hair Care Product for You》,关注DT数据侠点击“阅读原文”可查看,本文已经作者审阅授权。文中所提的选品工具及代码链接可后台回复“选品工具”获取。

期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。

数据侠门派

本文数据侠陈愉涵(Chen Yu-Han),纽约大学管理与系统项目专业硕士生,专注于企业风险管理研究。目前在纽约数据科学院(NYC Data Science Academy)担任数据分析师与课程助教。

加入数据侠

“数据侠计划”由第一财经数据新媒体DT财经发起的数据人社群平台,旗下有数据侠专栏、数据大咖及爱好者社群、线上线下“数据侠实验室”系列活动等项目。



版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。
阅读量: 133
0