采集表格数据
现在有一个新浪财经股票表格的网页: http://stock.finance.sina.com.cn/stock/go.php/vIR_RatingNewest/index.phtml 表格结构非常整齐,每条股票信息各占表格的一行,一行股票中包含多个字段信息:股票代码、股票名称、目标价、最新评级、评级机构等。

一、智能识别
表格型的网页,八爪鱼支持智能识别。使用智能识别,只需输入网址就能自动获取数据,并生成采集流程,如下图所示。
二、自行配置采集流程
如果想要自行配置采集流程不用自动智能识别,怎么办?以下为具体步骤:步骤一、输入网址
在首页【输入框】中输入目标网址,点击【开始采集】,八爪鱼自动打开网页。如果自动开始智能识别,可点击【不再自动识别】或【取消识别】。如果已关闭智能识别,可进行接下来的步骤。
步骤二、建立【循环-提取数据】
我们可以联想到上节课中讲过的知识点,将表格作为列表数据的特殊形式,将每一行股票作为列表中每一条数据的大区块范围来看, 创建【循环-提取数据】,让八爪鱼自动识别到全部股票,和每个股票数据的全部子元素。 先看一个包含所有具体步骤的操作: 再拆分每个步骤,进行详情说明: 1、先选中页面上第一个列表的第一个单元格,再点击提示框右下角的【tr】按钮扩选,选中至一整行。
选中后,提示框会提示发现了【子元素】,【子元素】即八爪鱼自动识别到的每一行的具体字段,想问你是否要定位这些子元素。

特别说明: a. 点击tr扩大范围按钮时,如果点击1次没有选中一行,可点击多次,直至选中一行。2、在提示框中,选择【选中全部子元素】。第1个股票中的具体字段就被选中了,这时八爪鱼又自动识别到页面中其他股票列表具有相同的【子元素】。




步骤三、编辑字段
八爪鱼自动为我们提取了列表中的所有字段,我们可以对这些字段进行删除、修改字段名称等操作。 鼠标双击到名称上,可修改字段名称。 鼠标移动到
步骤四、启动采集
1、点击【采集】,然后选择本地采集【普通模式】。八爪鱼跳出采集窗口,我们可以看见采集窗口中在进行自动采集。

编辑:FAN
