八爪鱼,最好的网络爬虫工具

八爪鱼CEO刘宝强:如何通过NLP人工智能大规模分析评论文本洞察消费者心声(干货)

作者:keven 发布时间:2018/5/18 18:36:26 1213 人已阅读

摘要:作为市场负责人,你知道用户在想什么吗? 你的产品带给用户的使用体验是什么样的? 用户最关注产品的核心功能是什么?

作为市场负责人,你知道用户在想什么吗?

你的产品带给用户的使用体验是什么样的?

用户最关注产品的核心功能是什么?

当前日益激烈的竞争环境下,作为品牌企业,应该如何利用大数据和人工智能技术对消费者进行分析,从而帮助品牌企业聚焦用户心声,发现并改进产品和业务存在的问题,以此提升品牌价值,获得竞争优势呢?

本文以电商平台京东为例,选择不同品牌的两款家电产品,从不同角度进行深度分析,文章比较长,欢迎大家多多交流。

要分析消费者的想法,这里面有几个关键问题需要解决:

 

  1. 需要收集大量的消费者言论,现在互联网这么发达,消费者在各种电商平台,新闻媒体,论坛,社交平台等留下了大量的言论,由于本文的重点不是教大家如何从各个网站采集用户言论数据,所以这里就不重点展开,感兴趣的同学可以看看之前的几篇关于数据采集的文章。(相关数据采集文章

  2. 要深度分析非结构化数据,用户的言论通常不是简单的五星评价,或者5分满意度,而是有大量的文本内容,因为文本不是结构化的数据,对于非结构化的数据进行分析,传统的BI工具是不行的,如果数据量很大,唯一可行的选择是使用NLP自然语言处理技术,可能很多人一听到非机构化数据、NLP就头大,这些都是专业术语,非专业人士不需要深究,只要知道,类似文章和评论这种大量的文字内容如果需要进行大规模分析,机器能代替成千上万的人来阅读并理解这些内容,并进行深度分析,所使用的就是这种技术。

 

为了简化问题,本文不会使用太多数据,实际应用中则必须有几万条,甚至几百几千万条数据才能有效洞察消费者。

对于消费者在评价产品某一些具体功能时所表达的感情,我们也简化为正面和负面,实际应用中当然也可以区分不同程度的喜欢和不喜欢。虽有以管窥豹之嫌,但对于不太精通大数据和人工智能的同学来说,这样更容易理解和掌握原理。

另外,本文以纯学习交流为目的,消费者正负面评价的分析和对比也只是客观数据的一种可视化呈现,对具体品牌本文作者持中立意见。不涉及具体产品好坏的主观引导和推荐。


数据来源说明:

京东 SKU 为 4534356 的商品评论,共 1901 条; url:

【东菱KE-8008】东菱(Donlim)养生壶 玻璃 加厚 蒸汽喷淋式 智能控温冲泡 多功能全自动煮茶壶 煮茶器 KE-8008【行情 报价 价格 评测】-京东1item.jd.com

 

 

京东 SKU 为 3818500 的商品评论,共 2913 条,这部分仅作为竞品补充分析。 url:

【小熊YSH-A15W6】小熊(Bear)养生壶全自动玻璃加厚电热水壶花茶壶煮茶器黑茶煮茶壶多功能 YSH-A15W6 1.5L【行情 报价 价格 评测】-京东item.jd.com

 

 

数据收集时间:2018-04-09 T 16:30

 

 

                                         八爪鱼采集器操作界面

 

数据采集是通过八爪鱼采集器完成的,在此先略过,重点就以下几个方面进行分析:‍

一、数据概况  

   1、采集数据按时间统计     

   2、用户评论星级分布及评论等级占比

二、产品质量问题分析  

   1、产品问题概况   

   2、负面评论分析   

   3、正面评论分析   

三、用户画像与用户行为分析    

   1、用户群体概况   

   2、用户行为时间分析       

   3、评论影响及认同度分析   

四、客服&售后绩效分析 

   1、客服应答时间分析       

   2、客服应答质量分析       

五、竞品分析  

   1、概况比较

   2、产品质量问题比较

 

一、数据概况

1、采集数据按时间统计

 

 

 

图 1 评论数据时间分布

 

上图可见,本次采集的商品评论中,近90%的评论行为发生在近4个月(即2017年12月至今),参考价值明显。

2、用户评论星级分布及评论等级占比

 

 

由上表,95.79%的评论显示为好评,且98.63%的好评为五星级好评,中评和差评各占2.10%。然而,追评中的正面评价仅占到91.47%,比评论中好评率低了4.3个百分点。

 

 

                                  图 2 评论等级及追评性质占比比较

 

二、产品质量问题分析

对文本这种非结构化数据的深入分析,不像做数值类型的图表那么简单,我们需要从大段的文字中提取出消费者所描述的是产品还是服务,是具体哪个产品功能点,还是某一个零件或者外观,这就需要建立一套分析的指标体系,也就是说,我们建立一套成体系的分析指标体系,然后利用NLP自然语言处理的技术去让机器理解这套体系,并且由机器来大量的阅读理解评价内容,最终形成指标体系的打分和可视化分析结果。‍

1、产品问题概况

 

                         图 3 一类问题数量&占比

如上图所示,用户关注的产品问题中,功能设计占比36.19%稳居第一,紧随其后的是煮茶效果及产品工艺,占比分别为19.83%和18.09%。外观设计的占比为13.00%,也是用户关注的第四大类问题。相应的对于配件及说明书用户给的关注则很少。

 

                                                                                                                                 图 4 二类问题点数量分布

 

 

 

    图 5 二类问题点分布占比

 

上面2个图可以直观看出用户关注的具体二类问题点。关注最高的四个二类问题分别为操作性,做工质量,外观,煮茶效果。从所属一级类别来看,用户对产品功能的关注中,主要关注操作是否便捷,好不好用,占58.73%,其次是功能设计,保温效果,煮茶时间,档位/按键设计,各占10%左右;煮茶效果这一大类下,用户关注点较全面,各类问题占比相对均衡;在产品工艺这一部分,66.20%关注产品的做工/质量,21.69%关注材质问题,其余九个二类问题仅占12.11%,但其中的顶盖,生锈/斑点等问题虽然评论涉及不多,但是负面评论占比很高,值得后续关注;外观设计方‍面,81.96%的客户直接给出直观感受,评价外观是否好看等。

 

 

2、负面评论分析

 

 

                                     

                       图 6 负面评论数量(部分)


2.1材质问题&生锈/斑点

材质问题和生锈/斑点问题负面评价占比高达40.3%和87.5%,且负面评论数量多至40+,表达了用户在这两方面很强的不满意情绪。从评论内容看,材质问题主要反映在两方面的负面评价,一是玻璃很薄,或是不锈钢材质很薄,二是底部容易起茶垢且很难清洗掉。部分评论明确提到生锈或是锈渍则属于生锈的问题。以下为这两方面截取的部分评论内容:

 

 

                              表格 3 材质&生锈/斑点负面评论内容节选

2.2 功能设计

功能设计方面,负面评价占比为25.0%,用户对产品功能设计提到了更多的要求和期待,如:增加洗茶功能,更改壶盖和滤网设计,自动断电等。为了突出重点,对具体的评论内容不再举例展示。原理跟上一节相同。

 

2.3价格

价格的负面评论占比高达49.3%,而性价比的负面评论占比只有8.3%,即:90%以上的用户认为产品是值这个价位的。从价格的负面评价内容可以发现,约有40%的用户给出负面评价是因为价格变动过大,买完降价太快等原因,其余约一半的用户则是直接表达“价格小贵”“希望更多优惠”等因素。为了突出重点,对具体的评论内容不再举例展示。原理同上。

 

2.4噪音问题&其他问题

10条评论认为噪音过大,其余21条评论提及该问题则认为“噪音不大”“声音可接受”,负面评论占比32.3%,产品优化空间明显。

17条评论提及“下单时有赠品,收到货没有”“没有杯子赠品”“欺骗消费者”等负面评论,且这17条评论中6条是差评,2条中评,1条为追评评论。差评和中评均只提到赠品问题,即:这6条差评均是由于赠品导致的,占总差评数量的15%。

‍其余问题的如“电源线太短”“手柄晃动”等问题,都在评论中有所提及。

 

 

3、正面评论分析

 

 

 

 

                                    图 7 一类问题正面评论占比(部分)

 

如上图所示,用户对这款产品的煮茶效果的外观设计认可度最高,分别达97.43%和94.90%,对产品工艺的认可度则只有76.62%。用户对功能设计的认可度为94.65%,提及功能设计这一类别的672条正面评价中,416条给了“操作性”,用户认为产品“使用方便”“好用”。

 

三、用户画像与用户行为分析

1、用户群体概况

1.1 用户客户端使用分布情况

 

                                                                                                                              图 8 用户客户端使用分布

 

 

 

                                      图 9 用户客户端使用及评论星级分布

 

如上图所示,51.60%使用京东Android客户端下单评论,38.87%使用京东iPhone客户端下单评论,其余9.53%则选择了微信或是网站等入口。Android客户端好评数为942条,占比96.02%,与iPhone客户端95.53%的好评率基本持平,并未体现差异。但是,Android客户端与iPhone客户端的差评数量分别为16条和19条(差评率分别为1.63%和2.57%),体现了一个百分点的区别。

 

1.2 用户会员等级分布情况

 

                                                                                                                                    图10 会员等级分布情况

 

 

     图 11 会员等级及评论星级分布图

 

 

 

   图 12 不同会员等级的评论等级占比

 

如图所示53.55%用户为PULS会员,钻石会员与金牌会员共占27.83%,其余会员等级占18.62%。其中PLUS会员好评率最高,为96.76%,高于整体水平1个百分点,而钻石会员和金牌会员好评率则相对较低。

 

2、用户行为时间分析

                             

                                                                                                                              图 13 用户行为发生时间分布

 

可以看出,下单时间的三个高峰分别为上午10:00,下午15:00-16:00,晚上22:00,这些时间段内可以增加售前客服的人员部署;用户评论时间整体分布较为均匀,在上午9:00-10:00,中午12:00,14:00,晚上20:00出现小高峰。追评时间分布呈现锯齿状,但明显可以看出,追评行为主要集中在早上8:00-10:00,及下午17:00以后。

 

3、评论影响及认同度分析

 

            图 14 评论认同投票数量

 

在京东的评论板块中,对于评论有“举报”“赞”“回复”三种操作,用户在查看评论的同时,可以对评论内容进行操作反馈,这些反馈动作很具参考意义。如上图所示,用户对于 “差评”“贴图评论”“追评”点赞的次数最多,而这类评论展示了更大量更具体的信息。具体评论内容不再列出。

 

四、客服&售后绩效分析

1、客服应答时间分析

 

 

     图10、客服应答时间分析

如图10所示,在去除响应时间48小时以上的4个异常值外,响应时间差集中在30小时内。从客服回复时间来看,每日早上9:00,下午15:00,晚上20:00是回复高峰期,与中差评出现的高峰期大致吻合(本次数据所有的客服回复均是针对中差评做出回复)。

 

 

 

 

 ‍             图 16 客服应答时间分布 

2、客服应答质量分析

本次采集到客服回复共80条,出现频次在6次以上的回复如下:

 

 

                                                                                                                              表格 7 客服应答内容(部分)

 

 

由客服应答内容可见,所有回复均是使用模板,且对具体涉及较少,存在较大提升空间。

 

五、竞品分析

本次分析的竞品为小熊YSH-A15W6养生壶,主要从概况(包括评价星级/评论等级占比、用户客户端使用分布、用户会员等级分布),产品质量问题两方面简要比较。

1、概况比较

  1.1评价星级分布及等级占比‍

 

 

 

表格 8 评论星级分布及等级占比比较

 

                                                                                                                                     图 17 评论类型占比比较

 

如上图所示,两者好评率差异较大,小熊养生壶好评率为75.97%,追评正面评价为79.54%,高于评论3.5个百分点;而东菱养生壶好评率95.79%,比小熊好评率高了约20个百分点,差异非常明显。

1.2 用户客户端使用分布

 

 

图 18 用户客户端使用占比比较

 

小熊养生壶的Android客户端用户占比低于东菱约5个百分点,iPhone客户端用户高于东菱约2个百分点,总体数据分布差异不大。从各客户端的好评率来看,小熊Android客户端用户好评率高于iPhone客户端用户约5个百分点,比东菱的差异体现的更为明显。

1.3 用户会员等级分布

 

 

                                                                                                                               图 19 用户会员等级占比比较

 

小熊用户的PULS会员占比仅34.96%,低于东菱18.6个百分点,金牌会员占比相对的高于东菱8个百分点。小熊用户PLUS会员的好评率为83.5%,高于整体水平7.5个百分点,同样属于各会员等级中好评率最高的等级。从各会员等级的好评率来看,小熊的PLUS会员好评率高于金牌会员13个百分点,差异明显。

 

2、产品质量问题比较

2.1 产品问题概况‍

 

                                                                                                                           图 20 一类问题概况比较

 

从用户关注角度来看,小熊用户最为关注产品的四个一类问题为功能设计、产品工艺、价格&性价比、外观设计。相比于东菱养生壶,小熊养生壶用户并不关注煮茶效果,反而价格&性价比关注程度跃居第三,这主要与小熊养生壶的功能设计有关(小熊养生壶设计了20个功能,用于煮茶的仅占4个)。且直观来看,小熊养生壶在功能设计和产品工艺方面的负面评价数量非常大,分别达到了273条和677条。

 

 

 

                  图 21 二类问题点概况比较

 

如上图所示,可以直观的看出,小熊养生壶在产品工艺方面的各个二级分类都有较高的负面评论。且小熊用户和东菱用户关注的问题点既体现了相似性(如:做工/质量,材质,生锈/斑点,操作性,功能设计,档位/按键设计,保温等),又体现了差异性(如:小熊养生壶关注顶盖,电源线,异味,加热功能;而东菱养生壶用户则较多提及煮茶时间,煮茶效果等问题)。

 

 

             表格 9 小熊养生壶负面评论数量&占比一览表

 

2.2负面评论比较

如上图,负面评论数量大于10条且负面评论占比在20%以上的二类问题共计25个,负面评论数量大于等于15条且负面评论占比在20%以上的二类问题共计有17个,现仅对这17个问题作出分析。

 

 

                  图 22 小熊养生壶负面评论数量(部分)

 

2.2.1产品工艺类

产品工艺一类有9个二类问题负面评论数量大于等于15条且负面评论占比在20%以上。

材质&生锈/斑点&烧焦

用户对于材质主要的负面评价高达126条,负面占比79.7%,高于东菱养生壶40.3%,约40个百分点。另外,70条评论提到了生锈问题;32条评论提到了烧焦问题。材质的负面评论主要体现在三个方面:

玻璃太薄,不锈钢质量太差;壶底出现水垢或是发白发黄;但如有涉及生锈的字眼,则直接归于生锈/斑点这一类问题中,如涉及发黑/烧焦则直接归于烧焦这一类问题中。这三类问题具有一定相关性,用户在描述的过程中常一起提及。

用户认为胶圈加热产生有害物质,产品不能使用。这是小熊相比东菱养生壶多的一个问题点。具体评论内容不再展示。

做工/质量

在做工/质量方面,用户产生的负面评价高达124条,负面占比33.5%,东菱养生壶此项负面评论占比仅为8.5%。大部分用户直接给出评价“做工一般般”“做工粗糙”“质量不好”等字眼。

顶盖&电源线&手柄

在产品细节方面,如顶盖,电源线,手柄,负面评论占比均高达95%左右,即:几乎用户提到的具体细节,都是问题所在。如:顶盖太松,顶盖盖不严,太薄;电源线太短;手柄松动,手柄容易掉等。这些问题点在东菱养生壶上并未体现。

异味

异味问题负面占比76.8%,负面评论数量43条。其中,21条评论明确表示是“塑料味”“胶味”,其余评论则多提及“味很重”或是“不锈钢的”味道。

 晃动

晃动问题也是东菱养生壶未提及的点,主要因为底座质量问题或是底座走线设计问题,29条提及该问题的评论均为负面评论,负面评论占比100%。

2.2.2功能设计类

加热

加热的负面评论占比接近50%,主要体现在两个方面,加热不均匀(即:一半加热一半不加热);加热太慢。相对应东菱养生壶用户主要用于煮茶的场景,东菱养生壶的煮茶时间负面评论只有2.9%,即97.1%的用户认为东菱养生壶煮茶较快。

档位/按键设计

档位/按键设计是小熊养生壶的特色之一,然而对此设计,仅45.5%的用户表示了满意,其余用户均对按键设计表达了负面情绪,主要包括“触屏按键经常不灵敏”“旋转按钮不好用”“按钮做工不好等”。相应的东菱养生壶,可调节多个档位的按钮收获了91.7%的好评。

2.2.3 价格&性价比类

小熊养生壶的价格的负面评论占比为57.4%,东菱养生壶的价格负面评论占比49.3%,二者用户均体现了对价格的敏感性。

2.2.4 其他问题&外观

小熊养生壶用户提及较多的两个其他类问题:分别是“溢出”和“安全性”,16条评论提及小熊养生壶煮某些特定食材会发生溢出,8条评论提及未拔插座的情况下底座漏电,存在安全隐患。关于茶壶大小的负面评论则主要是针对不同使用环境产生(如办公室使用,家庭环境下使用)不同的需求。‍

 

 

 

如果想和我们CEO交流联系的可以关注他的知乎账号哦,对数据采集和分析感兴趣的同学,也可以在下方留言交流。

点击前往关注刘宝强的知乎

 


分享到: 更多