免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
微信订阅号:八爪鱼采集器Live
扫一扫,关注我们
教程 | 功能点 | 实战案例
官方论坛解答
点击提问
免费版QQ群
1群:470619317 点击加入
2群:148686415 点击加入
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 限专业版用户
1群:475423041 限专业版用户
旗舰版QQ群
3群:196097783 限旗舰版用户
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

屏蔽广告功能说明(7.0版本)

标签: v7.0 2017/7/14 14:48:40

 

      在采集网页内容过程中,有些网页中会很多广告,甚至会弹出广告框。一是影响规则的制作,二是影响采集速度。为了改善这些情况,八爪鱼中会有一个功能点:屏蔽网页广告。

主要目的:

1、为了加快页面加载(广告会拖慢页面加载速度)

2、为了减少资源请求(节省带宽资源)

界面位置:

001

 

基本操作:

002广告屏蔽

      示例:http://news.youth.cn/gn/

      相同的任务开启不开启广告屏蔽和广告屏蔽,可以看到如下图采集速度有明显的不同。没有屏蔽广告的相同时间内只采集了12,而屏蔽广告的相同时间内采集了100

屏蔽广告示例

003 

不屏蔽广告示例

003

      开启广告屏蔽可能存在的不利影响:

  部分页面可能会因为屏蔽广告,导致页面结构发生变化,八爪鱼的任务中原本生成的xpath需要调整。这时候最简单的做法就是在做规则之前就需要考虑清楚是否要勾屏蔽广告,然后再做规则。确保规则的准确性。

      例如:现在采集这个网站http://news.youth.cn/gn/

  如果之前不勾选屏蔽广告,可以看到循环列表的xpath是这样的,而且循环列表也是正常的。如下图:

005 

     这时候返回勾选屏蔽广告,再看循环列表,可以看到勾上之后循环列表为空了。这样规则找不到循环列表就不会正常采集。

006

     这就是部分页面因为屏蔽了广告,页面结构发生了变化。所以需要先确定是否勾屏蔽广告再做规则了。

  同时,还存在部分网站,屏蔽广告后,网页一直在加载的情况,采集无法进行。这时返回“编辑规则”,将“屏蔽广告功能”的勾选去掉就可以了。请谨慎使用该功能。

 



分享到: 更多
人工服务

立即下载,体验更高效简单的数据收集吧! 免费下载

粤公网安备 44030502000701号