安装注册
模板采集
自定义入门
循环
ajax与新标签
登录验证
XPath
特殊翻页
提取数据
数据导出
云采集
其他功能点
图片采集与下载
2022-01-21
81701
一、图片采集
在八爪鱼中,采集图片有以下2步
1、先采集网页图片的地址链接URL
2、通过八爪鱼提供的图片批量下载工具,将URL批量下载到本地。点击下载:八爪鱼图片批量下载工具
二、常见应用情景
1、非瀑布流网站纯图片采集
采集示例:豆瓣网图片采集教程
2、瀑布流网站纯图片采集(向下滚动加载新图片)
采集示例:百度网图片采集教程
3、文章图文采集
图片和文字分开采集
采集示例:UC头条图文采集
三、图片采集和下载到本地实例
1、采集图片地址
Step1:选中网页上的一张图片 → 选中全部 → 采集以下图片地址
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
Step2:启动采集看一下采集结果,图片URL被采集下来
2、将图片地址批量下载到本地
经过如上操作,我们已经得到了要采集的图片的URL。接下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。
Step1:下载八爪鱼图片批量下载工具:八爪鱼图片批量下载工具
下载完成后,双击文件中的MyDownloader.app.exe,打开软件
【注意:下载工具时出现报错,可参考该教程进行处理:图片下载工具使用报错】
Step2:点击【File】,选择从EXCEL导入(目前只支持EXCEL格式文件)
Step3:进行相关设置
选择EXCEL文件:导入需要下载图片地址的EXCEL文件
EXCEL表名:对应数据表的名称
文件URL列名:表内图片URL所在的列名称
保存文件夹列名:EXCEL中需要单独一个列,列出图片想要保存到本地的路径(哪个文件夹)。
列名可自定义设置。
列中的数据有固定格式:【D:\图片保存文件夹名\】,其中存储盘和文件夹名可自定义设置,【D:\\】需在英文状态下输入,不可用中文输入。
配置完成后,点击【OK】保存。
以下为一个实例演示:
按照上面所述,配置EXCEL表名、文件URL列名和图片保存文件夹名
将图片url采集后导出为Excel。打开Excel,添加一列,列名为【图片保存文件夹】,列中的数据为【D:\百度图片采集\】,则批量下载的图片会保存在D盘的【百度图片采集】文件夹中。
注意:除用Excel添加【保存文件夹名】。也可以在八爪鱼中直接提取一个字段,作为【保存文件夹名】,具体请下拉查看本文第四部分。
配置完成以后,点击【开始下载】
打开D盘,找到【百度图片采集】文件夹,查看图片
四、图片采集及批量导出技巧
1、以文章标题/搜索关键词作为【图片保存文件夹】,实现文章和图片的对应
在八爪鱼中抓取字段时,预先添加一个字段(一般是文章标题/搜索关键词),作为图片文件夹名。
还是以百度图片采集的为例。我们想要将搜索的关键词作为图片保存文件夹名。
Step1:将关键词的文本采集下来。修改字段名称为【图片保存文件夹】。根据【图片保存文件夹】的字段格式要求:【D:\第一层文件夹名\第二层文件夹名\】,我们希望第一层文件夹名固定为【百度图片采集】,第二层文件夹名,跟随搜索关键词变化。
可以通过对采集到的关键词文本进行格式化处理,添加前缀【D:\百度图片采集\】,添加后缀【\】,达到格式要求。
Step2:启动采集看一下采集结果,可以看到采到的数据中,已存在一个【图片保存文件夹】字段,无需手动设置
Step3: 经过图片导出操作后,打开D盘,找到【百度图片采集】文件夹,可以看到子文件夹以关键词命名。
2、对图片进行编号。
在【图片保存文件夹】后添加序号+图片格式,如:【D:\第一层文件夹名\第二层文件夹名\1.jpg 】 ,即可对下载的图片进行编号。
Step1: 利用excel自动编号
Step2:然后按之前讲的方法导出图片。导出完成后打开D盘,找到【百度图片采集】文件夹中的子文件夹,可以看到图片以1、2、3、4......自动命名。
五、注意事项
1、支持下载的格式
① 采集下来的图片URL,以.jpg、.gif、.png等图片格式结尾时,一般情况下能批量转换为图片
② 如果采集下来的URL不是以图片格式结尾,则有可能不进行转换,可能是网站对此图片链接进行加密仅支持在线查看
2、图片URL乱码如何处理
如果图片URL采集下来是乱码或都一样的,可能是图片需要一定的加载时间,我们需要在提取数据步骤前,设置执行前等待,让图片完全加载出来;对于需在当前屏幕展示一段时间,图片才能完全加载出来的情况,还需相应的设置ajax滚动,具体请参考 ajax滚动教程 。