八爪鱼是基于网址进行数据采集的。支持从本地文件导入网址、根据规律批量生成网址、从已有任务导入网址

 

一、从本地文件导入网址

新建【自定义任务】,选择从【文件导入】,再选择已有的网址文件,就可以大批量导入。导入之后,可以预览前100条网址。

再点击【保存设置】,即可开始任务配置。

 

 

注意:

① 支持cxv、xls、xlsx、txt文件格式批量导入网址

② 支持100w以内网址 ,超过的自动删除

 

二、批量生成网址

网址中一般有很多参数,根据网址参数的变化规律,可批量生成网址。

 

1、网址参数中出现数字变化,常见于翻页

示例网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T

第1页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T

第2页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T

第3页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T

我们发现,第1页【start=】后面的值为0, 每递增一页,start=】后面的值递增20,根据这个规律,可批量生成网址。

 

如下图所示:选中【start=】后面的值,点击【添加参数】,选择参数类型为【数字变更】,【开始值】为0,【每次动作递增】20,共10项,共批量生成10条网址。

第1页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T

第2页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T

第3页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T

......

第9页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=160&type=T

第10页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=180&type=T

再点击【保存设置】,即可开始任务配置。

 

 

2、网址参数中出现字母变化,这个比较少见

 

 

3、网址参数中出现时间变化,这个也比较少见

 

 

4、网址参数中出现关键词变化,常见于需要输入关键词搜索的网站

示例网址:https://www.jd.com/

 

在首页输入关键词【手机】:https://search.jd.com/Search?keyword=手机&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=070d13546be04c9cb9d78ba6d3c67438

在首页输入关键词【电脑】:https://search.jd.com/Search?keyword=电脑&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=070d13546be04c9cb9d78ba6d3c67438

 

我们发现,【keyword=】后面的值决定了搜索的是什么关键词,根据这个规律,可批量生成网址。

 

如下图所示:选中【keyword=】后面的值,点击【添加参数】,选择参数类型为【自定义列表】,输入我们准备好的关键词。

批量生成了含有所有关键词的网址,再点击【保存设置】,即可开始任务配置:

 

 

注意:

① 支持100W以内网址批量生成,超过100W部分自动去掉

② 批量生成的网址,前100条存储在本地,显示在界面上;>100条的网址存储在云端,不显示在界面上,本地采集或云采集的时候,直接调用存储在云端的网址采集数据。

③ 如果复制此规则,复制后得到的规则仅包含前100条网址,仅采集前100条网址的数据。

 

三、从已有任务导入网址(适用于云采集)

云采集为旗舰版以上才有的功能。去升级旗舰版

 

常用场景:

A任务和B任务都在云上进行采集,A任务采集列表数据(含链接,可点击进入详情页),B任务调用A任务已采集到的链接,采集详情页数据。

B任务跟随A任务启动,A任务不断采集到新链接,B任务不断调用A任务中的链接,采集详情页数据。配合云采集拆分,多节点同时采集,极大提高采集效率。

 

A任务采集到网址:

 

 

B任务直接调用A任务中采集到的网址:

此时,我们称A任务为【源任务】,B任务为【跟随任务】。

 

 

调用完成后,点击【保存设置】,即可开始任务配置。本示例提取一下商品详情页的价格、标题字段。

配置完成后启动【采集】,选择【跟随启动设置】。

跟随任务无法单独启动【本地采集】或【云采集】,它只能通过源任务触发启动。触发条件有以下4个。

 

当源任务启动云采集后,跟随启动

当源任务云采集完成后,跟随启动

当源任务完成或者停止云采集后,跟随启动

手动启动(保证源任务云采集已有数据)

 

请注意:跟随任务是调用源任务的云采集采集到的网址进行采集的。只有源任务的云采集有一定数据后,跟随任务才能启动并采集到数据。

 

 

也可以在【我的任务】列表里,设置跟随启动。