请输入
菜单

为什么要用xpath?

标签:教程

我们很多时候会遇到采集不到数据,或者是采集到的数据重复,自己怎么检查规则,都没有问题,但就是采不到数据,那这是因为什么呢,其实大部分是由于xpath的原因,往往因为xpath路径错误,导致采集不到数据或重复采集数据,所以学习xpath,使用xpath是采集数据十分重要的一环。

例如,我们先采集一下百度搜索的数据  百度搜索

我们先按照列表采集和翻页采集配置采集规则,列表采集翻页采集

观察到数据预览区域已经正常出现我们想要的数据,接下来我们执行采集指令看看有什么问题

可以观察到采集一直没有终止,我们再仔细观察发现,一直重复采集第一页第二页的数据,翻页并没有正常进行,这是为什么呢?

我们回去检查一下流程有没有配置错误,本地排错,根据排错顺序我们发现,流程执行到翻页的时候,第一次翻页没有问题,第二次翻页的时候和采集的时候一样回到了第一页,我们来观察一下网页,发现第一页有下一页按钮

跳转到第二页的时候,出现了"上一页“按钮

我们可以大致猜到,识别出下一页的属性值和百度在第二页新出现的“上一页”属性相同,系统会自动点击第一个按钮,也就是上一页按钮,跳转回到第一页,这也是为什么我们一直重复采集第一页和第二页的原因。

那么怎么去解决这个问题呢,这个问题出现在哪里呢,实际上这是由于xpath路径的错误,把本来下一页的按钮位置,错误的识别成包含上一页按钮的位置,导致一直重复采集前两页,解决这个问题就要认识xpath,学习xpath。

八爪鱼采集网页数据的可视化流程,几乎每个步骤都涉及XPath。 80%以上采集难题,都可以通过写「 一条正确的XPath」解决。我们日常面对的问题大多数是由于路径错误,xpath定位不准导致,因此学会修改xpath至关重要。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

在八爪鱼中,我们是怎么做采集流程的呢?

流程步骤如下:在八爪鱼内置浏览器中打开网页 → 在网页中选中目标对象 (使用XPath,在网页源码中定位目标对象) → 弹出操作提示框,选择所需指令 → 自动生成步骤 

这其中选中目标对象这一步就需要使用XPath定位目标对象,一旦目标对象错误,就会很容易导致提取失败,下一篇中我们将讲述什么是XPath以及html

 

编辑:Y

 

 

 

上一个
Xpath入门
下一个
什么是html和xpath?
最近修改: 2026-01-07