有很多网站,需要输入关键词查询,然后采集查询后得到的结果数据。
例如:在京东首页搜索框中输入商品名称搜索,采集搜索后得到的商品信息;在新闻网站的搜索框中,输入热门关键词,采集搜索后得到的最新资讯。
在八爪鱼中该如何操作呢?来看一下具体的操作步骤。
一、输入1个关键词查询
示例网址:https://www.jd.com
采集需求:在京东首页,输入关键词【手机】,采集出现的手机商品数据。
Step1. 输入网址打开网页。需先登录,请先点击切换到浏览器模式,然后像在正常浏览器里面操作一样,点击滑块手动拖动过去。拖动完成后再继续往下操作。
选中网页中的文本输入框,在提示框中选择【输入文字】,输入关键词【手机】,按【确定】保存。可以看到,左侧流程区出现了【输入文字】步骤。接下来是点击搜索。选中页面上的【搜索】按钮,在提示框选择【点击该按钮】。
Step2. 接下来按需提取数据即可。具体请看 新手入门课程 。
二、批量输入多个关键词(单文本输入)
示例网址:https://www.jd.com
采集需求:在京东首页,依次输入 关键词1、关键词2、关键词3、关键词4 (用户可将其更换成自己想要的关键词,单次最多支持输入2W个)并搜索,然后采集每个关键词的搜索结果数据。
Step1. 设置【文本循环】
输入网址后,自动打开网页。我们需要输入多个关键词,在八爪鱼中需要用到【文本循环】。将鼠标移动到流程中【打开网页】步骤后的 位置,会出现 按钮。点击 按钮,添加一个【循环】步骤。
然后将鼠标移动到【循环】上,点击 该循环框,进入步骤设置页面,点击高级设置,选择循环方式为【文本列表】,然后点击 按钮,将我们准备好的关键词输进去(可同时输入多个关键词,一行一个即可),输入完成后点击【应用】,再点击应用保存。
检查一下,现在,循环中就有了我们输入的关键词。
特别说明:
a. 可先准备一个含有多个关键词的excel文档,支持复制粘贴。一次最多输入2W个关键词。
Step2. 设置【输入文字】
准备好了关键词后,如何将其输入到网页中呢?选中页面中的文本框,在操作提示框中选择【输入文本】,流程中将自动生成一个【输入文本】步骤。
将【输入文本】步骤拖入【循环】中,然后点击 循环框,勾选【使用当前循环里的文本来填充输入框】。该操作是为了实现【循环输入文字】的效果。
来验证一下,在流程中选择关键词,点击【输入文本】,可以看到,可以成功的依次填充我们设置的关键词到网页上的文本框中。
Step3.点击搜索
选中网页上的输入框, 【输入关键词】的步骤已经完成,接下来是点击搜索。选中页面上的【搜索】按钮,在提示框选择【点击该按钮】。八爪鱼就执行了搜索操作,出现搜索后的数据。同时,左侧的流程中,出现一个【点击元素】步骤。
Step4. 按需提取数据。
在这里,我们选择提取第一个商品的标题和价格。选中商品标题,在提示框中选择【采集该元素的文本】。价格字段也进行同样操作。
Step5.开始采集数据
数据完成后,点击【采集】,选择【启动本地采集】。采集的数据如图展示:八爪鱼自动依次输入关键词,并采集相关数据。
注意:有的网页,在输入第1个关键词并点击搜索以后,文本输入框的位置(本质上)是网页源码会有变化,第1个关键词的数据采集完成以后,没办法输入第2个关键词。此时,需将【打开网页】步骤,拖至【循环】内,如下图所示:
三、批量输入多个关键词(双文本输入)
示例网址:https://kns.cnki.net/kns8/AdvSearch?dbcode=CFLS
采集需求:在【作者发文检索】的条件下,有俩个文本框需要一一对应输入,依次输入 组合关键词1;组合关键词1、组合关键词2;组合关键词2、组合关键词3;组合关键词3(一组关键词间用英文符号间隔开,用户可将其更换成自己想要的关键词,单次最多支持输入2W个)并搜索,然后采集每个关键词的搜索结果数据。
Step1. 输入网址,设置【点击元素】
输入网址后,自动打开网页。我们需要选择【作者发文检索】。将鼠标移动到【作者发文检索】,点击之后选择【点击该元素】,并设置Ajax超时时间为3s。
Step2. 选中文本输入框
我们需要输入多组关键词,在八爪鱼中需要用到【组合文本循环】。
将鼠标移动到第一个输入框,点击后选择【输入文本】,再点击第二个循环框,由于咱们会在后面输入多组关键词,因此操作框内不输入关键词,直接点击【确定】即可。
Step3. 创建文本循环
流程中【输入文本】步骤后的 位置,会出现 按钮。点击 按钮,添加一个【循环】步骤。
然后将鼠标移动到【循环】上,点击 该循环框,进入步骤设置页面,点击高级设置,选择循环方式为【文本列表】,然后点击 按钮,将我们准备好的多组关键词粘贴进去(可同时输入多组关键词一般是不超过2W个,一行一组即可),每组关键词之间用英文版分号;隔开,输入完成后点击【应用】,再点击应用保存。
检查一下,现在,循环中就有了我们输入的多组关键词。
关键词:
范嘉昊;北京科技大学冶金与生态工程学院
吴克辉;中国科学院物理研究所
程妍昕;西安电子科技大学
Step4. 设置【输入循环文本】
将【输入文本】步骤拖入【循环】中,然后点击【输入文本】,勾选【使用当前循环里的文本来填充输入框】。该操作是为了实现【循环输入文字】的效果。
来验证一下,选中【循环】,在流程中选择关键词,点击【输入循环文本】,可以看到,可以成功的依次填充我们设置的关键词到网页上的文本框中。
Step5.设置点击元素
点击页面的【检索】,选择【点击该按钮】,然后选择我们要的字段进行提取,【点击元素】设置Ajax超时时间位3s。
Step6.优化流程
优化调整下流程的高级设置,选中【循环】框,设置【执行前等待】2秒。
修改下字段名称,删除不必要的字段以及调整字段顺序后点击保存。
Step7:开始采集
点击采集,选择普通模式。
可以看到采集页面一一对应的输入咱们设置的三组关键词,并采集到对应的字段。