采集场景

点击房天下网站的【二手房】分类,采集【二手房】分类下的房屋数据。

采集时可选择目标城市,本示例以深圳二手房为例:https://sz.esf.fang.com 

 

采集字段

房源名称、房屋介绍、联系人、售价、所在小区、具体地址、单位价格等。

 

点击查看高清大图,下文其他图片同理  

 

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

 

 

教程说明

本篇制作时间:2020/9/28   八爪鱼版本:V8.1.22

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

 

采集步骤

步骤一:打开网页

步骤二、使用【智能识别】,采集所有房源列表中的数据

步骤三、建立【翻页循环】,以采集多页数据

步骤四、编辑字段

步骤五、启动采集

 

以下为具体步骤:

 

步骤一、打开网页

 

1、打开网页

在首页【输入框】中输入目标网址 ,点击【开始采集】,八爪鱼自动打开网页。

示例中输入的是深圳二手房的网址:http://esf.sz.fang.com。

 

 

特别说明:

a. 打开网页后,如果开始开始【自动识别】,请等待其自动识别完成,我们下一个步骤就是使用智能识别。

c. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

b. 示例中输入的深圳二手房网址,大家在实际操作过程中,可根据需求更换成其他城市,网址结构相同即可,例如:上海二手房:https://sh.esf.fang.com/;广州二手房:https://gz.esf.fang.com/。点击下图位置即可切换城市。

 

步骤二、使用【智能识别】,采集所有房源列表中的数据

 

打开网页后,点击右上角操作提示框中的【自动识别】,等待一会后发现,自动成功识别了页面的二手房列表数据。

同时,还识别到了【滚动加载数据】和【加载更多按钮】,由于本网页不是通过点击【加载更多按钮】翻页的,因此去掉其勾选。

然后点击【生成采集设置】,将自动识别出的列表数据和滚动,生成为采集流程,方便我们使用和修改。

 

 

特别说明:

a. 本网站没有【加载更多按钮】,故取消勾选此选项。智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。

 

步骤三、建立【翻页循环】,以采集多页数据

 

如果只采集一页数据,可跳过此步骤。如果需采集多页数据,请按以下步骤操作:

在页面中找到并选中【下一页】按钮,然后在黄色提示框中点击【循环点击下一页】,流程中会自动创建【循环翻页】步骤。

 

 

特别说明:

a. 【循环翻页】步骤创建完成,在启动采集后,八爪鱼就会自动点击翻页按钮进行翻页,从第1页,第2页......直到最后1页。如果只需采集特定页的数据,可在八爪鱼中设置循环翻页的次数,详情点击查看 翻页以采集多页数据教程 

 

步骤四、编辑字段

 

八爪鱼为我们自动识别了网页上的数据,我们可以进一步自定义编辑字段。

如图,在【当前页面数据预览】页面,修改字段名称、删除多余字段。

 

 

步骤五、启动采集

 

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

 

 

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解

 

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:

 

 

 

作者:Tom

编辑:Aisling