安装注册
模板采集
自定义入门
循环
ajax与新标签
XPath
特殊翻页
提取数据
数据导出
云采集
其他功能点
Json采集
2020-03-27
8401
八爪鱼提供JSON采集功能,通过打开JSON网址,配置流程,即可进行JSON数据采集。
一、JSON是什么
JSON是一种轻量的数据交换格式,具有一些更些优秀的特性(比XML 更小、更快;更易解析和阅读;有效地提升网络传输效率),得到广泛使用。
二、JSON采集的优点
1、无需加载图片视频等信息,采集速度更快
2、部分网站防采集限制减少,采集更加顺畅
三、JSON采集实例演示
示例网址:https://b2b.baidu.com/
需求:采集关键词为机械的厂家信息,字段包括:公司名/详情链接/来源/注册地址/主营产品/营业期限/注册资本
操作步骤:
步骤一、通过火狐浏览器获取JSON网址
JSON网址可通过抓包工具来获取(如Fiddler),不会使用抓包工具的用户可以在火狐浏览器上安装firebug插件获取。
Step1:
安装firebug插件后,在火狐浏览器打开网址,选择厂家,输入关键词搜索后,按F12或右键选择【使用firebug查看元素】,弹出firebug调试器。点击【网络】,然后在页面点击【下一页】按钮,让网页重新加载,此时可以看到网络下有很多url。JSON网址就在这里面。
我们可以先点击【XHR】查看,JSON网址一般在XHR下面,但如果XHR查找不到,则在【全部】中查找。
Step2:
先点开每个url,查看是否有【JSON】对象视图,有的话则为JSON网址。
在这里可能有很多JSON网址, 因此还要再点击【JSON】,查看里面的参数内是否有目标数据,找到有目标数据的JSON网址。
如图,在【XHR】中有一个JSON网址,里面含有目标数据,我们很轻松的找到了正确的JSON网址。右键【复制地址】。
Step3:
复制下来的只是第二页的JSON网址,JSON网址的翻页一般需要研究目标网站的翻页规律,进行url循环采集。
例如在该网站,我们先点击【清除】,清空url,然后点击【下一页】按钮加载第三页,用相同方法找到第三页的JSON网址,然后和第二页JSON网址进行对比,就会发现该网站JSON网址的翻页规律。依照该规律可以批量生成其他页码的JSON网址。
如图,该网站的翻页规律为每一页的参数中都有“p=n”的变量,第一页为1,第二页为2,第3页为3...... 以此规律可批量生成JSON网址。
步骤二、在八爪鱼中配置流程
Step1:
使用八爪鱼内置工具,批量生成多页JSON网址。
网页打开后,在打开网页的设置中勾选「JSON」。
(JSON页面增加了请求参数项,可将JSON网站理解为api接口,要填写的参数也类似于接口中的参数。多数网站无需填写。)
此时浏览器页面展示出树状视图,即JSON数据。
Step2:
如下图所示,示例网站中的数据在data—entList标签里,entList [15]表示有15条数据。
点开entList标签,再点开第1条数据项,可查看到里面的数据字段。接下来就可以提取数据字段啦。
Step3:
做JSON循环提取时,只需提取第1个数据项里面的多个字段,就可以自动形成循环,提取到全部数据项里的字段。
如图,在第1个数据项内,分别点击要采集的字段,点击完成后选择【采集数据】,循环采集步骤就做好了。
规则配置完成,点击保存。
Step4:
开始本地采集,数据以极快的速度采集下来了。
注意事项:
JSON采集定位要用JSONpath,详情可查看以下资料
JSONpath介绍:https://www.cnblogs.com/aoyihuashao/p/8665873.html
JSONpath在线测试网页:http://JSONpath.com/