【智联招聘】智联招聘职位数据采集

采集场景

在智联招聘地区招聘搜索页（https://sou.zhaopin.com/?jl=765），输入关键词搜索（示例中的搜索关键词为【爬虫工程师】），搜索后得到招聘信息列表页。点击职位链接，进入职位详情页，采集详情页数据。

采集字段

职位名称、职位薪资、职位描述、职位链接等。

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

采集步骤

步骤一：打开网页

步骤二、输入关键词并搜索

步骤三、建立【循环-点击元素】，进入每个职位的详情页

步骤四、提取职位详情页中的字段

步骤五、编辑字段

步骤六、创建【循环翻页】，采集多页数据

步骤七、启动采集

以下为具体步骤：

步骤一、打开网页

在首页【输入框】中输入目标网址 https://sou.zhaopin.com/?jl=765，点击【开始采集】，八爪鱼自动打开网页。

特别说明：

a. 打开网页后，如果开始开始【自动识别】，请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页，识别成功后直接启动采集即可获取数据。详情点击查看【自动识别】教程

c. 示例中输入的网址 https://sou.zhaopin.com/?jl=765 ，是深圳智联招聘的网址，可根据需求，更换目标城市，得到相关网址。

步骤二、输入关键词并搜索

1、输入关键词并搜索

选中搜索框，在操作提示框中点击【输入文本】，输入要搜索的职位或公司，如【爬虫工程师】、【python工程师】等。

选中【搜索】按钮，在操作提示框中点击【点击该元素】，出现搜索结果列表页。

2、设置滚动，以加载更多职位列表

搜索后，向下滚动页面加载出新的职位列表，在八爪鱼中也需设置滚动。

在【点击元素】下方的设置页面，点击【高级设置】，设置【页面加载后向下滚动】，滚动方式为【直接滚动到底部】，【滚动次数】为4次，【每次间隔】2秒，设置后保存。

特别说明：

a. 设置中的滚动次数和时间间隔，请根据采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

步骤三、建立【循环-点击元素】，进入每个职位的详情页

通过以下几步，实现循环点击每个职位链接，进入职位详情页

① 选中页面上第1个职位链接

② 在黄色操作提示框中，点击【选中全部】，以选中全部职位链接

③ 点击【循环点击每个元素】，进入第1个职位的详情页

特别说明：

a. 经过以上连续3步，【循环-点击元素】创建完成。【循环】中的项，对应着页面上所有职位链接。启动采集以后，八爪鱼就会按照循环中的顺序依次点击每个职位链接，进入情页，以采集每个职位的具体数据。

b. 为何通过以上3步，可建立【循环-点击元素】？详情点击查看采集点击多个链接后的详情页数据教程。

步骤四、提取详情页中的字段

进入详情页后，手动提取我们需要采集的字段。

不同类型的字段有不同的提取方式：

1、采集文本

选中页面中的文本，然后在操作提示框中点击【采集该元素文本】。

职位名称、职位薪资、职位描述等文本类型的字段，均可这样提取。

2、采集页面网址

进入【提取数据】设置页面，点击【+】按钮，选择【添加当前页面信息】-【页面网址】，然后保存

步骤五、创建【循环翻页】，采集多页数据

1、创建【循环翻页】

如果只是采集一页数据，可跳过此步骤。

如果需要翻页以采集多页数据：

点击规流程图里的【循环列表】，让页面返回到上一级页面。选择页面中的【下一页】按钮，在操作提示上单击【循环点击下一页】，创建【循环翻页】。

2、设置滚动

【点击翻页】后，也会向下滚动页面加载出新的职位列表，也需设置滚动。

在【点击翻页】步骤下方的高级设置页面，设置【页面加载后向下滚动】，滚动方式为【直接滚动到底部】，【滚动次数】为4次，【每次间隔】2秒，设置后保存。

3、修改【循环翻页】的XPath

默认的【循环翻页】XPath会在最后一页重复翻页，导致其他关键词无法输入并采集，需修改【循环翻页】XPath。

进入【循环翻页】设置页面，修改XPath为：//button[text()="下一页" and not(@disabled)] 。

特别说明：

a. 创建【循环翻页】后，八爪鱼会自动点击【下一页】按钮进行翻页，从第1页，第2页......直到最后1页。如果只需采集特定页的数据，可在八爪鱼中设置循环翻页的次数，详情点击查看翻页以采集多页数据教程。

b. 设置中的滚动次数和时间间隔，请根据采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

c. 什么是XPath？如何写一条正确的XPath？点击查看 XPath学习与实例教程。

步骤六、编辑字段

点击规流程图里的【提取数据】，让页面返回到职位详情页页面。

在【当前数据预览】页面，删除多余字段，修改字段名，移动字段顺序等。

步骤七、启动采集

1、点击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

2、采集完成后，选择合适的导出方式来导出数据。支持导出为Excel，CSV，HTML，数据库等。这里导出为Excel。

示例数据：

上一个

【携程】游记攻略采集

下一个

金融

最近修改: 2023-10-27