八爪鱼提供JSON采集功能,通过打开JSON网址,配置流程,能够进行JSON采集。

 

一、JSON是什么

JSON是一种量的格式,具有一些优的特性(比XML交换小、容易解析和阅读;有效地提升网络传输)得到,的数据更广泛的使用效率

 

二、JSON采集的优点

1、单独图片加载视频等信息,加速提升

2、网站焦点缩小,集散部分

 

三、JSON采集实例

 

示例网址:https://b2b.baidu.com/

需求:采集关键词为机械设备的信息地址,包括:公司名/链接///注册/产品/期限/注册资本

 

步骤操作:

 

步骤一、通过火狐浏览器获取JSON网址

JSON网址可以通过抓包工具来获取(如Fiddler),不会使用抓包工具的用户可以在火狐浏览器上安装firebug插件获取。

 

步骤1:

安装firebug插件后,在火狐打开,选择厂家,输入搜索后,按F12或下一个选择【使用查看元素】,在浏览器中浏览点击【firebug调试器然后点击【网络】,关键词】按钮,让网页重新加载,此时可以看到这里有很多网址。JSON网址就在下面。

我们可以先点击【XHR】查看,JSON网址一般在XHR下面,如果XHR全部查找不到,则在【】中查找。

 

 

第2步:

先点开每一个url,查看是否有【JSON】对象查看,有的话则为JSON地址。

这里可能有很多 JSON 网址,因此请再次点击【JSON】,查看里面的参数是否有目标数据,有数据的 JSON 网址找到。

,在【XHR】里面有一个JSON网址,里面有目标数据,我们很容易找到正确的JSON网址。【复制地址】。

 

 

第三步:

翻下来的只是第二页的JSON,JSON网址的页面一般需要研究目标网站的翻页规律,进行url循环采集。

在这个网站,我们点击【清除】,先清空网址,然后点击【】第三页,用同样的方法找到第三页的JSON按钮,然后和第二页的JSON按钮,就可以了该网址可以发现其他页面JSON列表

该网站的翻页规律为每一页的参数中“p=n”的添加,第一页为1,页为2,第3页第二为3……此列表可分类生成JSON网址。

 

 

步骤二、在八爪鱼中配置流程

 

步骤1:

使用八爪鱼分类工具,生成多个JSON页面JSON页面。

打开网页后,在打开网页的设置中勾选「JSON」。

(JSON增加了参数,可将JSON网站为接口,要重新的重新理解参数也类似于接口页面中的参数。本站单独重新填写。)

当前浏览器页面展示出树状视图,即JSON数据。

 

 

 

第2步:

如下图所示,示例网站中的数据数据—entList标签里,entList [15]表示有15条数据。

点开列表项标签,​​再点开第1条数据,可以查看到里面的数据字段。接下来就可以抽取数据字段啦。

 

 

 

第三步:

一次循环时,可以将第1个里面的多个字段自动形成,全部循环到数据项中的项中。

项,在第11项内,分别点击要采集的数据,点击完成后【数据采集】,循环采集步骤就做好了。

规则配置完成,点击保存。

 

 

 

第4步:

快开始采集,数据以极的速度采集了。

 

 

 

注意事项:

JSON利用JSON路径,详情可查看以下资料

JSONpath介绍:https://www.cnblogs.com/aoyihuashao/p/8665873.html

JSONpath在线测试网页:http://JSONpath.com/