免费下载

八爪鱼采集器 - 最好用的网页数据采集器,超过40万用户首选网页采集软件

  1. 软件版本:V6.4
  2. 支持系统:32/64位 XP / Vista / Win7 / Win8 / Win8.1 / Win10
  3. 更新日期:12月9日 (新版功能)
免费下载
官方论坛解答
(优先处理)
点击提问
八爪鱼采集器QQ群
6群:453842433 点击加入
21群:451754429 点击加入
13群:471815573 群已满
14群:123134988 群已满
24群:544166822 群已满
23群:534947023 群已满
26群:545719478 群已满
6群:453842433 群已满
25群:545320887 群已满
28群:106739425 群已满
27群:145803152 群已满
22群:519441479 群已满
21群:451754429 群已满
20群:437959025 群已满
19群:553777636 群已满
18群:290699979 群已满
17群:199766880 群已满
16群:254764602 群已满
15群:159956780 群已满
14群:123134988 群已满
13群:471815573 群已满
12群:148686415 群已满
11群:131796370 群已满
10群:333975079 群已满
9群:135632351 群已满
8群:431013573 群已满
7群:498193915 群已满
5群:470619317 群已满
4群:257583266 群已满
1群:61570666 群已满
专业版QQ群
3群:135071723 限专业版用户
2群:385161018 群已满
1群:475423041 限专业版用户
旗舰版QQ群
2群:286777906 限旗舰版用户
1群:130849246 群已满
站长采集交流群QQ群
2群:304456535 点击加入
1群:492396817点击加入
down

网页数据采集到底是什么?

作者:keven 发布时间:2013/11/4 22:34:32

摘要:上网去搜索网页数据采集这几个字,出来的网页不少,可是看来看去,还没有一篇完整全面的说明,其实,网页数据采集是一个古老而又常新的话题,如果要下个定义,可以这么说:网页数据采集就是从网页上获取数据,一般来说是指通过软件或者工具从大量的公开可见的网页上精准的获取某一类信息,并且整理成规整的数据。

什么是网页数据采集

上网去搜索网页数据采集这几个字,出来的网页不少,可是看来看去,还没有一篇完整全面的说明,其实,网页数据采集是一个古老而又常新的话题,如果要下个定义,可以这么说:网页数据采集就是从网页上获取数据,一般来说是指通过软件或者工具从大量的公开可见的网页上精准的获取某一类信息,并且整理成规整的数据。

从上面这个定义来看,有几个关键的点,如果这几个点没有搞明白,就会有很多误解和困惑,在列举关键点之前,我们先看看几种常见的错误的理解:

错误观点1:网页数据采集就是“偷别人网站后台数据”。

经常有人找我所谓“拿站”,说白了就是想把别人网站数据特别是后台数据库,包括账号等等全部“拿过来”,他们还能告诉我“要用点黑客手段”,这种是一种非常常见的错误理解。

错误观点2:网页数据采集就是“仿站”,或者“抄站”

还有人认为,采集就是用工具把一个网站全部“复制下来”,然后仿造一个类似的“山寨版”。

错误观点3:网页数据采集就是转载,复制新闻帖子

甚至有些已经做过很长时间网页采集工作的人,或根据自己的经验把网页数据采集等同为复制转载新闻资讯帖子等。

正确观点:

其实以上几个观点都不正确,第一个,网页数据采集的目标是公开的网页,别人网站后台是“私有数据”,凡是没有经过授权,以所谓任何“黑客手段”盗取的后台数据都属于违法行为,我跟专业律师聊过这一点。第二个,网页数据采集本身是数据获取的过程,指的是从公开网页中获取数据,并不涉及拿数据来做什么,“仿站”其实是一种违反互联网精神,不尊重知识产权的行为,并且在一定程度上违法,如果对此有兴趣,可以查阅相关法律文件,对此我也有过深入研究,这种行为可能违法,因为构成不正当竞争,感兴趣的同学可以去深入了解一下“京东禁止一淘”等著名案例,在美国,很多年前已经有一宗非常典型的此类案件宣判。第三个,网页数据采集确实可以实现自动化转载新闻帖子等,但是这只是网页数据采集非常非常小的一个应用,不能把他等同于网页数据采集,而且这种方式也不应该成为提倡的利用网页数据采集的主要用途,再加上很多人,转载复制不说,还采取去除版权信息,掐头去尾,关键词替换,等等所谓的“伪原创”措施,想要欺骗搜索引擎,制造重复垃圾内容,这不仅损害了被采集者的权益,还让想要搜索一些有用信息的人,淹没在成百上千条重复搜索结果中,我就经常非常烦恼,翻了10页,都是同样的一篇垃圾内容,各个网站都有。这最大的危害是破坏了互联网的良性发展氛围,大家都恶意复制垃圾内容制制造重复垃圾,最终坏了一锅汤,到头来被K站,自食苦果。

好了,说了这么多,正确的理解主要由以下几个关键点:

  1. 采集的目标和源头是公开的网页。
  2. 采集一般是通过工具来完成。
  3. 采集的结果是规整的数据。
  4. 采集应该在法律和互联网规范的约束下进行,应该尊重知识产权。
  5. 最后,这不仅是我的理解,更是我一直提倡的网页采集的和游戏规则:就是把采集作为获取原始素材的方式,当获取到大量的原始素材之后,应该对数据进行自己原创性的独立的处理,处理的结论或者输出应该是自有知识产权的原创性内容,并且在必要的时候保留对原始采集网页的版权引用,注明参考出处。

结论                                                            

讲了这么多,其实只是探讨了什么是网页数据采集这个简单的概念,希望大家能共同支持和倡导互联网原创内容,积极维护网页数据采集的良好氛围,共同创造一个更好的互联网家园。

这次讨论网页数据采集是打算写一系列的原创文章,对网页数据采集这一话题做全面深入的探讨,欢迎各位一起探讨,互相学习。

讨论请加群:网页数据采集,群号:254764602,加群暗号:网页数据采集

本文于2013年11月4日首发于“八爪鱼采集器”,转载请注明出处。

分享到: 更多
立即下载,体验更高效简单的数据收集吧! 免费下载
规则市场
联系 我们
官方联系方式 0755-86522010
商务合作QQ 1982043845
客服咨询QQ群 106739425
点击我加入