一、图片采集

在八爪鱼中,采集图片有以下2步

1、先采集网页图片的地址链接URL

2、通过八爪鱼提供的图片批量下载工具,将URL批量下载到本地。点击下载:八爪鱼图片批量下载工具

 

二、常见应用情景

1、非瀑布流网站纯图片采集

采集示例:豆瓣网图片采集教程 

 

2、瀑布流网站纯图片采集(向下滚动加载新图片)

采集示例:百度网图片采集教程 

 

3、文章图文采集

1)将原文顺序采集图文

采集示例:腾讯新闻图文采集

2)图片和文字分开采集

采集示例:UC头条图文采集

 

三、图片采集和下载到本地实例

 

1、采集图片地址

 

Step1:选中网页上的一张图片 → 选中全部 → 采集以下图片地址

 

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

 

Step2:启动采集看一下采集结果,图片URL被采集下来

 

 

2、将图片地址批量下载到本地

 

经过如上操作,我们已经得到了要采集的图片的URL。接下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。

 

Step1:下载八爪鱼图片批量下载工具:八爪鱼图片批量下载工具

下载完成后,双击文件中的MyDownloader.app.exe,打开软件 

 

 

Step2:点击【File】,选择从EXCEL导入(目前只支持EXCEL格式文件)

 

 

Step3:进行相关设置

选择EXCEL文件:导入需要下载图片地址的EXCEL文件

EXCEL表名:对应数据表的名称

文件URL列名:表内图片URL所在的列名称  

保存文件夹列名:EXCEL中需要单独一个列,列出图片想要保存到本地的路径(哪个文件夹)。

列名可自定义设置。

列中的数据有固定格式:【D:\图片保存文件夹名\】,其中存储盘和文件夹名可自定义设置,【D:\\】需在英文状态下输入,不可用中文输入。

配置完成后,点击【OK】保存。

 

以下为一个实例演示:

按照上面所述,配置EXCEL表名、文件URL列名和图片保存文件夹名

将图片url采集后导出为Excel。打开Excel,添加一列,列名为【图片保存文件夹】,列中的数据为【D:\百度图片采集\】,则批量下载的图片会保存在D盘的【百度图片采集】文件夹中。

注意:除用Excel添加【保存文件夹名】。也可以在八爪鱼中直接提取一个字段,作为【保存文件夹名】,具体请下拉查看本文第四部分。

 

 

配置完成以后,点击【开始下载】

 

 

打开D盘,找到【百度图片采集】文件夹,查看图片

 

 

四、图片采集及批量导出技巧

 

1、以文章标题/搜索关键词作为【图片保存文件夹】,实现文章和图片的对应

在八爪鱼中抓取字段时,预先添加一个字段(一般是文章标题/搜索关键词),作为图片文件夹名。

 

还是以百度图片采集的为例。我们想要将搜索的关键词作为图片保存文件夹名。

 

Step1:将关键词的文本采集下来。修改字段名称为【图片保存文件夹】。根据【图片保存文件夹】的字段格式要求:【D:\第一层文件夹名\第二层文件夹名\】,我们希望第一层文件夹名固定为【百度图片采集】,第二层文件夹名,跟随搜索关键词变化。

 

可以通过对采集到的关键词文本进行格式化处理,添加前缀【D:\百度图片采集\】,添加后缀【\】,达到格式要求。 

 

 

 

Step2:启动采集看一下采集结果,可以看到采到的数据中,已存在一个【图片保存文件夹】字段,无需手动设置

 

 

Step3: 经过图片导出操作后,打开D盘,找到【百度图片采集】文件夹,可以看到子文件夹以关键词命名。

 

 

2、对图片进行编号。

在【图片保存文件夹】后添加序号+图片格式,如:【D:\第一层文件夹名\第二层文件夹名\1.jpg 】 ,即可对下载的图片进行编号。

 

Step1: 利用excel自动编号

 

 

Step2:然后按之前讲的方法导出图片。导出完成后打开D盘,找到【百度图片采集】文件夹中的子文件夹,可以看到图片以1、2、3、4......自动命名。

 

 

五、注意事项

 

1、支持下载的格式

① 采集下来的图片URL,以.jpg、.gif、.png等图片格式结尾时,一般情况下能批量转换为图片

② 如果采集下来的URL不是以图片格式结尾,则有可能不进行转换,可能是网站对此图片链接进行加密仅支持在线查看

 

2、图片URL乱码如何处理

如果图片URL采集下来是乱码或都一样的,可能是图片需要一定的加载时间,我们需要在提取数据步骤前,设置执行前等待,让图片完全加载出来;对于需在当前屏幕展示一段时间,图片才能完全加载出来的情况,还需相应的设置ajax滚动,具体请参考 ajax滚动教程