摘要:本篇教程主要给大家介绍了使用八爪鱼采集器时的常见问题,新手入门遇到问题先参考本文进行排查,可以
快速找出并解决问题以及帮助您更好与客服沟通~
1、如果您是第一次使用,请务必先学习一下官网的入门教程。
👩🏻💻官方入门图文教程地址:https://www.bazhuayu.com/helpcenter/docs/qeAA9j
📺《八爪鱼小白必学》视频教程:https://www.bilibili.com/video/BV1PQ4y1p78x/?spm_id_from=333.999.0.0&vd_source=6b16d22a1592720c6f3246834fc8cdb3
在入门教程我们将介绍网页数据采集的基础知识,学完这几节课,能够帮助您最快速的轻松采集到90%的网页数据
2、能采集什么数据/能采集XX网站吗/能采集XX行业数据吗?
八爪鱼是一款通用的网页数据采集器, 通过内置浏览器访问网页并采集数据,满足以下2个条件的数据均可采集:
① 网页上公开显示的数据(包含文字的采集,图片,文件类的下载),包含通过账号密码登录后可以查看到的数据。
② 可以用鼠标复制粘贴下来的数据、网页上没显示但是网页HTML源码中有的数据。
3、可以采集APP上的数据吗?
八爪鱼采集器主要是采集pc网页端的数据。手机APP里面的数据如果有网址,可以在电脑的浏览器里面打开,一般就可以在八爪鱼中采集。如果数据只能在APP里面查看,由于八爪鱼是基于网址去采集,所以这种无法通过软件采集的。对于APP的数据,由于难度比较高,这边一般是提供数据定服务。如果您是公司、单位的采集需求,可到企业微信群群联系管理员提采集需求,以便进行评估定制。
4、如何既采集列表,又采集详情中的数据?
既要采集列表数据,又要采集详情数据,是非常常见的采集需求,我们有教程详细讲解,详情请查看教程第4点:采集列表和详情数据
5、规则配置好之后无法采集数据?
规则已经配置好了,预览数据也有数据,但启动采集后无法采集到数据。这时我们首先启动采集后点击右上角的【显示页面】后观察网页是否正常打开的,然后可结合任务教程进行初步的排查排错检查。
6、网站需要登录用户名和密码的,能采集么?
针对需要登录的网站,如果你要的信息是登录后才能看到的,就必须先登录后再进行采集,不然采集不了
采集需要登录账号的网页,采集任务中应设置相应的登录流程,详细步骤请参考以下链接中教程https://www.bazhuayu.com/helpcenter/docs/amPLH3
7、提取到的数据有重复数据?
A、少量的重复数据,首先可在循环列表或提取数据的高级选项那里设置执行前等待,降低采集速度,看是否有改善。其次,排查网页本身是不是就有重复数据。最后,手动执行规则,看翻页是否有问题,能不能正常翻到后面。
B、大量的重复数据一般是翻页或xpath定位问题。
(1) 翻页循环重复和单页面重复,可参考如下特殊翻页教程。
(2) 全部字段重复,字段抓取时定位定死了,可以采用手写Xpath、相对xpath的方法进行精准定位。
8、翻页采集数据不全怎么办?
如果是翻页采集的数据,点击设置取消勾选【自动跳过无效的循环点击】。
9、采集过程中漏数据怎么办?
首先请先查看网页是否存在该数据,如果网页有数据则参考以下情况:
A、数据没有加载出来,就进行了采集。原因:网页加载慢,数据未加载完全就采集完成。
解决方法:在循环列表或提取数据(每次提取数据前等待,会降低采集速度)的高级选项里设置执行前等待时间,或设置等待元素出现再进行采集,填入采集数据的xpath。点击查看执行前等待教程。
B、循环列表未将所有数据涵盖进来,请手动执行下规则核对数据是否全部加载进入列表循环。原因:网页需要设置滚动下拉页面来使数据加载完全。
解决方法:在打开网页和点击翻页的高级选项里设置滚动。点击查看滚动加载数据采集教程。
C、没有配置翻页或者翻页配置错误,请参考翻页相关教程配置正确的翻页步骤来实现翻页采集数据。
D、有的页面该数据可以获取到,有的页面不能。原因:网页格式不一样,导致XPATH定位不准确。
解决方法:使用备选位置或手写XPATH进行精准定位,请参考以下教程,耐心学习下XPATH的知识,该知识有一定难度,但学会后就掌握了八爪鱼的核心,可以随意采集。点击查看 XPath学习教程(图文),XPath学习教程(视频)。
10、网站防采集,采集过程中出现验证码怎么办?
1.手动验证。
当网页出现验证时,可以手动去通过验证,如是在采集配置页面,右上角切换到浏览模式,手动通过验证;如是在运行界面,左上角选择【暂停】按钮,手动通过验证后,点击继续按钮,任务即可继续采集。
2.自动验证
针对于部分验证码类型,八爪鱼已经对接第三方资源,持自动识别验证码
支持的验证码类型以及配置操作参考教程:https://www.bazhuayu.com/helpcenter/docs/zi-dong-da-ma
11、网页在八爪鱼中打不开怎么办?
如果网页在八爪鱼中打不开请按以下办法操作:
1、检查网页在浏览器中是否可以正常打开,如果在浏览器中也无法打开,则是网页本身问题。
2、在浏览器中可以打开,在八爪鱼中打不开,则可以尝试通过以下操作解决:
① 在任务设置里切换浏览器版本(UA)。
② 在任务设置里使用智能防封:定时切换代理IP+定时切换浏览器版本(UA)+定时清除Cookie。
③ 等待一段时间后再打开网页。
④ 使用云采集。云采集有大量云节点,每次运行任务分配的IP一般都是不同的,通过不同IP打开网页。
以上无法解决可以联系人工客服排查
12、可以采集图片/附件吗?
八爪鱼可以采集图片及附件,目前是通过抓取图片/附件的URL(链接地址),然后再用文件下载功能将图片批量下载到本地电脑,具体采集方法请参考教程:图片采集与下载
请仔细阅读,并严格按照教程一步一步操作,从而实现边采集边下载。
13、导出到数据库不成功怎么办?
导出时不要勾选忽略错误,看报什么错。根据其报错进行相应的修改。
A.Packets larger than max_allowed_packet are not allowed.
这类一般是数据库中某个数据字段不够大导致超限,应修改字段大小。
B.导出到数据库时出现“ Incorrect string value: '\xF0\x9F\x98\x84\xF0\x9F”。
采集的数据有emoji等表情符,有的数据库不支持表情符,应先将其去除后再入库。
详情请点击查看导出到数据库常见问题教程。
14、导出数据是否有上限?超过上限怎么办?
在八爪鱼的新套餐版本中(免费版、个人版、团队版、企业版),免费版有导出数据上限,每月5万条,个人版、团队版、企业版均没有数据导出上限。
免费版超过数据导出上限需要升级套餐,具体套餐介绍请查看:八爪鱼价格。
15、国外的网站可以采集吗
国外网站的数据,只要数据可以在网页上看到,鼠标可以复制,那么就是可以采集的,八爪鱼是一款通用的采集器,不限制什么网站的。
如果国外网站需要翻墙,那么就需要自己先在本地电脑进行翻墙,然后在用八爪鱼本地进行采集。
八爪鱼云采集默认是国内的服务器,是无法翻墙的,如果需要用云采集爬取翻墙的国外网站数据,请联系人工客服,单独购买海外的服务器进行采集。
此外也可以使用八爪鱼的国际版进行采集,八爪鱼的国际版官网可以点击访问:https://www.octoparse.com/
16、模板不满足需求怎么办?
17、我不懂得配置规则,官网可以提供规则定制的服务吗
官方有规则定制的服务,定制规则为付费服务,收费标准为2000元/人/天的实施费,具体工作量需要您这边填写需求文档,我们评估后会给您报价。 点击此链接提交申请,提交后我们将在1个工作日内联系您,根据需求为您报价,请保持电话畅通。
18、还有其他未解决的问题怎么办
当碰到其他未解决的问题,请您不用担心,首先您可以访问我们的帮助中心,那里汇集了大量常见问题的解答,并且我们提供了AI智能搜索的功能,您可以在帮助中心输入想要咨询的问题关键词,找到相关的解决方案(帮助中心点击可以访问:https://www.bazhuayu.com/helpcenter)
另外您也可以在线咨询技术客服或扫描以下二维码添加我们的【官方交流群】和群内的好友交流咨询哦!
①在线咨询入口:浏览器访问八爪鱼采集器的官网(https://www.bazhuayu.com/),在首页右侧点击如下按钮
②【官方交流群】二维码: