免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
微信订阅号:八爪鱼采集器Live
扫一扫,关注我们
教程 | 功能点 | 实战案例
官方论坛解答
点击提问
免费版QQ群
1群:470619317 点击加入
2群:148686415 点击加入
专业版QQ群
2群:135071723 限专业版用户
1群:385161018 限专业版用户
旗舰版QQ群
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

新浪新闻采集

标签: 实战教程,新浪,新闻,v7.0 2018/1/11 16:08:49

本文介绍使用八爪鱼采集新浪新闻的方法

 

采集网站:

http://news.sina.com.cn/china/

 

 

采集的内容包括:新闻标题,新闻正文

 

使用功能点:

l 列表及详细信息采集

/tutorialdetail-1/fylbxq7.html

l Ajax点击加载

l Xpath修改

l 自定义数据字段

 

步骤1:创建新浪新闻采集任务

1)进入主界面,选择自定义采集

 

 

新浪新闻采集步骤1

 

2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址

 

新浪新闻采集步骤2

 

步骤2:创建列表循环

1)打开网页之后,鼠标选中第一个新闻列表的标题,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部

 

新浪新闻采集步骤3

 

2)接着选择“采集以下链接文本

 

 

新浪新闻采集步骤4

 

然后选择点击该链接”。


 

新浪新闻采集步骤5

 

步骤3提取详细信息

1)进入列表详情页面,鼠标选中文章内容第一段,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”,

 

 

新浪新闻采集步骤6

 


 

 之后选择“采集以下元素文本

 

 

新浪新闻采集步骤7

 

 2)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。

 

新浪新闻采集步骤8

 

3)选中提取数据的步骤,鼠标点击“自定义数据字段

 

 

新浪新闻采集步骤9

 

之后选择自定义数据合并方式

 

 

新浪新闻采集步骤10

 

勾选第二个选项,同一字段合并为同一行

 

 

新浪新闻采集步骤11

 

步骤4:修改Xpath及高级选项设置

1)选中整个“循环步骤”,打开“高级选项”,可以看到,八爪鱼默认生成的元素列表的Xpath并不能定位到所有的文章,所以需要修改

 

新浪新闻采集步骤12

 

 

2)在火狐浏览器中打开要采集的网页并观察源码。观察网页源码,修改此条Xpath为:“//p”, 将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”。

 

 

 

新浪新闻采集步骤13

 

 由于网站涉及到Ajax

 

 

新浪新闻采集步骤14

 

步骤5新浪新闻数据采集及导出

1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”

 

 

新浪新闻采集步骤15

 

2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 一份完好的新浪新闻数据就导出来了,这里我们选择excel作为导出为格式,数据导出后如下图

 

 

新浪新闻采集步骤16

 

 



分享到: 更多
人工服务

立即下载,体验更高效简单的数据收集吧! 免费下载

粤公网安备 44030502000701号