免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4.3
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:03月22日 (新版功能)
免费下载
官方论坛解答
点击提问
免费版QQ群
1群:470619317 点击加入
2群:148686415 点击加入
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 限专业版用户
1群:475423041 限专业版用户
旗舰版QQ群
3群:196097783 限旗舰版用户
2群:286777906 限旗舰版用户
1群:130849246 限旗舰版用户
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down
HTML

 

 HTML

1 )  HTML概念

HTML:超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。 

2 )  HTML结构

Xpath1 

     

      完整的HTML文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。

3) HTML标签、元素、节点

Xpath2

4) HTML常见标签

Xpath3

5) HTML常见属性

Xpath4

6) XML、XPATH、HTML关系和区别

      XML和HTML之间既有相似之处,又有很大区别。XML包含数据和对数据的描述,主要用来交换数据。HTML也包含了数据和对数据的描述,但只是针对描述网页这种用途,HTML结构看起来和XML类似,但并不严格遵循XML标准,可以看做不标准的XML。

      XPATH是专门针对XML设计的,在复杂结构化数据中查找信息的语言,而我们的网页实质上是HTML的文档,那如何对网页执行XPATH查询呢?八爪鱼采集器内部有一套针对HTML的XPATH引擎,使得直接用XPATH就能精准的查找定位网页里面的数据。

 

更多入门词汇介绍

立即下载,体验更高效简单的数据收集吧! 免费下载

粤公网安备 44030502000701号