免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
微信订阅号:八爪鱼采集器Live
扫一扫,关注我们
教程 | 功能点 | 实战案例
官方论坛解答
点击提问
免费版QQ群
1群:470619317 点击加入
2群:148686415 点击加入
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 限专业版用户
1群:475423041 限专业版用户
旗舰版QQ群
3群:196097783 限旗舰版用户
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

提取数据-自定义抓取方式

标签: v7.0 2017/6/28 10:39:52

 

自定义抓取方式包含从页面中提取数据’、‘从浏览器提取数据’和‘生成数据’三部分。

 

1、 从页面中提取数据

自定义抓取方式1

1)抓取元素的指定属性值:首先要先选中InnerHtml和OuterHtml查看要提取的属性值是否存在,再选中抓取元素的指定属性值, 例如源码<a id="hot-comments-tab" class="on" href="comments">热门</a> 中,id、class、href就是A标签的属性,在下拉选项中选取要提取的属性名称,即可提取到该属性的属性值,演示如下:(1) 

2)抓取文本:提取网页中展示的内容,可见的文字信息。

3)抓取地址:一般用于抓取图片地址或Iframe地址,首先字段的Xpath定位到的是IMG标签或者Iframe标签,提取其中的src属性值。

4)抓取选中项的文本:配合循环下拉框试用,提取当前选中项的文本

5)抓取这个元素的OuterHtml,InnerHtml:提取网页源码

6)抓取值:一般用于抓取输入框的文字,首先字段的Xpath定位到的是input标签,提取其中的value值,演示如下:

(6) 

7)抓取超链接:首先字段的Xpath定位到的是A标签,从A标签中提取href的属性值。演示如下:

(7) 

 

2、 从浏览器提取数据自定义抓取方式2 

1)页面网址:同添加其他特殊字段中的抓取当前页面的网址效果

2)页面标题:同添加其他特殊字段中的抓取当前页面的标题效果

3)从页面源码里抓取:可直接用正则表达式提取网页源码里匹配到的数据

 

3、 生成数据

自定义抓取方式3

1)生成固定的值:同添加其他特殊字段中的生成固定值效果,常用于发布到网站时设置发布的用户名,发布到的版块等固定字段

2)使用当前时间:同添加其他特殊字段中的使用当前时间效果,用于记录采集时间,此设置有可能会导致八爪鱼采集器去重功能检测失效



分享到: 更多
人工服务

立即下载,体验更高效简单的数据收集吧! 免费下载

粤公网安备 44030502000701号