八爪鱼提供JSON采集功能,通过打开JSON网址,配置流程,即可进行JSON数据采集。

 

一、JSON是什么

JSON是一种轻量的数据交换格式,具有一些更些优秀的特性(比XML 更小、更快;更易解析和阅读;有效地提升网络传输效率),得到广泛使用。

 

二、JSON采集的优点

1、无需加载图片视频等信息,采集速度更快

2、部分网站防采集限制减少,采集更加顺畅

 

三、JSON采集实例演示

 

示例网址:https://b2b.baidu.com/

需求:采集关键词为机械的厂家信息,字段包括:公司名/详情链接/来源/注册地址/主营产品/营业期限/注册资本

 

操作步骤:

 

步骤一、通过火狐浏览器获取JSON网址

JSON网址可通过抓包工具来获取(如Fiddler),不会使用抓包工具的用户可以在火狐浏览器上安装firebug插件获取。

 

Step1:

安装firebug插件后,在火狐浏览器打开网址,选择厂家,输入关键词搜索后,按F12或右键选择【使用firebug查看元素】,弹出firebug调试器。点击【网络】,然后在页面点击【下一页】按钮,让网页重新加载,此时可以看到网络下有很多url。JSON网址就在这里面。

我们可以先点击【XHR】查看,JSON网址一般在XHR下面,但如果XHR查找不到,则在【全部】中查找。

 

 

Step2:

先点开每个url,查看是否有【JSON】对象视图,有的话则为JSON网址。

在这里可能有很多JSON网址, 因此还要再点击【JSON】,查看里面的参数内是否有目标数据,找到有目标数据的JSON网址。

如图,在【XHR】中有一个JSON网址,里面含有目标数据,我们很轻松的找到了正确的JSON网址。右键【复制地址】。

 

 

Step3:

复制下来的只是第二页的JSON网址,JSON网址的翻页一般需要研究目标网站的翻页规律,进行url循环采集。

例如在该网站,我们先点击【清除】,清空url,然后点击【下一页】按钮加载第三页,用相同方法找到第三页的JSON网址,然后和第二页JSON网址进行对比,就会发现该网站JSON网址的翻页规律。依照该规律可以批量生成其他页码的JSON网址。

如图,该网站的翻页规律为每一页的参数中都有“p=n”的变量,第一页为1,第二页为2,第3页为3...... 以此规律可批量生成JSON网址。

 

 

步骤二、在八爪鱼中配置流程

 

Step1:

使用八爪鱼内置工具,批量生成多页JSON网址。

网页打开后,在打开网页的设置中勾选「JSON」。

(JSON页面增加了请求参数项,可将JSON网站理解为api接口,要填写的参数也类似于接口中的参数。多数网站无需填写。)

此时浏览器页面展示出树状视图,即JSON数据。

 

 

Step2:

如下图所示,示例网站中的数据在data—entList标签里,entList [15]表示有15条数据。

点开entList标签,再点开第1条数据项,可查看到里面的数据字段。接下来就可以提取数据字段啦。

 

 

Step3:

做JSON循环提取时,只需提取第1个数据项里面的多个字段,就可以自动形成循环,提取到全部数据项里的字段。

如图,在第1个数据项内,分别点击要采集的字段,点击完成后选择【采集数据】,循环采集步骤就做好了。

规则配置完成,点击保存。

 

 

Step4:

开始本地采集,数据以极快的速度采集下来了。

 

 

注意事项:

JSON采集定位要用JSONpath,详情可查看以下资料

JSONpath介绍:https://www.cnblogs.com/aoyihuashao/p/8665873.html

JSONpath在线测试网页:http://JSONpath.com/