采集场景

京东商品详情页中的评价,有多个分类:【全部评价】、【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】。其中【全部评价】默认展现,其他需点击后展现。本文以按【差评】筛选采集为例讲解。实例网址:https://item.jd.com/100005185609.html;https://item.jd.com/100006607505.html;https://item.jd.com/100004770263.html。

 

采集字段

用户名、评价正文、产品属性、评论时间、评论回复。

 

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

 

 

 

教程说明

本篇更新时间:2023/11/29    八爪鱼版本:v8.6.7.112311

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一:打开网页

步骤二、设置滚动

步骤三、按差评筛选评论

步骤四、创建【循环列表】,采集所有评价数据

步骤五、创建循环翻页,以采集多页数据

步骤六、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

 

在首页选择【自定义任务】,输入一批京东商品详情页网址,点击【开始采集】,八爪鱼自动打开第1个网址。网址打开后会弹出登录界面,我们右上角切换成浏览模式,完成登录即可

目标网址:https://item.jd.com/100005185609.html
              https://item.jd.com/100006607505.html
              https://item.jd.com/100004770263.html

 

 

 

特别说明:

a. 打开网页后,如果开始开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表,滚动和翻页,识别成功后直接启动采集并获取数据。如果【自动识别】的结果不是我们需要的,可点击【取消】关闭智能识别,自行配置采集流程。详情点击查看【自动识别】

b. 以上操作会自动生成一个【循环网址】,启动采集后,八爪鱼会自动打开每个网址,采集每个网址中的数据。 

c. 示例中输入了3个商品详情页网址,可根据需求更换。支持批量导入,详情见 从本地文件导入网址教程

 

步骤二、设置滚动

 

【商品评价】按钮需向下滚动页面才会真正加载出来,在八爪鱼中也需设置滚动。

选中【打开网页】步骤,点击高级设置页面,勾选【页面滚动】,设置滚动模式为【全局】,滚动方式为【向下滚动一屏】,【每次间隔】2秒,【滚动次数】为6次,取消勾选【无内容更新时结束滚动】,并保存。

 

特别说明:

a. 设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看 处理滚动加载数据的网页教程

 

步骤三、按差评筛选评论

 

1、筛选【差评】

向下滚动页面至评论区域,选中【商品评价】,在操作提示框中点击【点击该元素】,页面默认展示【全部评价】,点击高级设置页面,设置【执行前等待】4s,【Ajax加载】10s,点击应用保存。

本示例筛选【差评】进行采集。选中【差评】,在操作提示框中点击【点击该链接】,展开差评。

 

 

 

特别说明:

a.【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】的筛选方法也是一样的,需要筛选哪个分类,在八爪鱼中做一个点击哪个分类的步骤。

 

2、设置【Ajax】加载

此网页的【差评】按钮,使用了Ajax加载,因此不能勾选新标签。

进入【点击元素1】高级设置页面,取消勾选【在新标签中打开】,设置【执行前等待】4s,并勾上【Ajax加载】,【Ajax加载】时间选择10s,然后点击应用保存。

 

 

 

特别说明:

a. 使用了Ajax技术的网页,一般不勾选【在新标签中打开】。【Ajax加载】请根据采集需求和网页加载情况进行设置,并非是一成不变的,详情点击查看 Ajax教程

 

步骤四、创建【循环列表】,采集所有评价数据

 

1、建立【循环列表】

通过以下连续3步,建立【循环列表】,

① 选中页面上1个评价列表

② 继续选中页面上第2个评价列表

③ 在操作提示框中,点击【文本内容】

此时将整个评价列表作为整个字段提取下来。后面步骤再手动将列表中的字段一一提取出来

 

 

特别说明:

a. 经过以上连续3步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有评价列表。此时是将整个评价列表作为整个字段提取下来,如手动将列表中的字段一一提取出来。

b. 为何通过以上3步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 

 

2、修改【循环列表】XPath

为了精准采集到所有差评,需修改【循环列表】XPath。

进入【循环列表】设置页面,修改XPath为//div[@id='comment-6']/div[position()<11]并保存。

 

 

 

特别说明:

 

a. 默认生成的【循环列表】会定位到其他类别的评价中,无法精准采集差评,所以我们需要手动修改XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。

b. 除默认的【全部评价】外,采集其他的分类都需相应修改XPath。

【视频晒单】://div[@id='comment-2']/div[position()<11] 

【追评】://div[@id='comment-3']/div[position()<11] 

【好评】://div[@id='comment-4']/div[position()<11] 

【中评】://div[@id='comment-5']/div[position()<11] 

 

3、提取字段

在网页中,找到当前评价列表(蓝色框框起来)

选中目标字段,然后在操作提示框中,点击【文本内容】,文本类的字段都可如此提取,示例中我们提取了评价人、评价正文、评商品属性、评价时间、回复评论等字段。

*提取数据的执行前等待时间可以设置成1-3s

其中有的字段需要手动修改xpath进行精确定位

评价时间://div[@class="order-info"]/span[59]

产品属性1://div[@class="order-info"]/span[1]

产品属性2://div[@class="order-info"]/span[2]

回复评论://dl[@class="recomment"]

 

 

 

 

特别说明:

a. 一定要在当前评价列表中选择要采集的字段,做字段的提取,否则提取到的字段与【循环】中的评价列表无法产生联动,会一直重复采集某一个评价列表中的字段信息。

b. 如何找到当前评价列表?点击【循环列表】,在识别到的循环项查看当前项(蓝色背景),然后点击【提取列表数据】,网页中被蓝色框框起来的评价列表,就是当前评价列表。

 

 

 

4、编辑字段

在【当前页面数据预览】界面,可进行删除字段、修改字段名等操作。

 

 

 

步骤五、创建循环翻页,以采集多页数据

 

1、建立【循环翻页】

如果只是采集一页数据,可跳过此步骤。

如果需要翻页以采集多页数据:选择页面中的【下一页】按钮,在操作提示上单击【循环点击下一页】,创建【循环翻页】。

 

 

 

特别说明:

a. 创建【循环翻页】后,八爪鱼会自动点击【下一页】按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看  翻页以采集多页数据教程

 

2、修改【循环翻页】的XPath

默认的【循环翻页】XPath 无法精准定位到差评的翻页,需修改【循环翻页】XPath。

进入【循环翻页】设置页面,修改XPath为://div[@id='comment-6']//div[@class="ui-page"]//a[@class="ui-pager-next"] ,然后保存。

同时,调整【点击翻页】的【Ajax超时】时间为5秒。

 

 

 

特别说明:

a. 默认生成的【循环翻页】会定位到其他类别的翻页按钮,无法精准采集差评,所以我们需要手动修改XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。

b. 除默认的【全部评价】外,采集其他的分类都需相应修改XPath。

【视频晒单】://div[@id='comment-2']//div[@class="ui-page"]//a[@class="ui-pager-next"]

【追评】://div[@id='comment-3']//div[@class="ui-page"]//a[@class="ui-pager-next"]

【好评】://div[@id='comment-4']//div[@class="ui-page"]//a[@class="ui-pager-next"]

【中评】://div[@id='comment-5']//div[@class="ui-page"]//a[@class="ui-pager-next"]

c. 对于使用了Ajax技术的网页,八爪鱼会自动判断并设置【Ajax超时】。如果系统自动设置的时间过短,可根据采集需求和网页加载情况进行相应延长,详情点击查看 Ajax教程 。

 

步骤六、启动采集

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。开始采集之后,网页会跳到京东的登录页面,我们需要点击暂停按钮,扫码进行登录之后点击开始按钮再继续采集

 

 

 

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式来导出数据。支持导出为Excel,CSV,HTML,数据库等。这里导出为Excel。

 

 

 

示例数据:

 

 

 

作者:妙卡