当前位置:首页 > 每日看点 > 正文内容

正常用网络爬虫可以爬那些数据不违法?

卡卷网6个月前 (04-28)每日看点121

网络爬虫作为自动化工具,它按照一定规则,自动地抓取万维网信息,其透过追踪超链接和分析网页内容,就能实现对互联网数据的自动搜集与整理。因其自动请求网页、解析网页内容以提取所需信息,还能将抓取到的数据进行处理、清洗并存储,过程无需人工实时干预,所以大大简化立数据采集过程。然而在获得便利的同时,法律风险也并存,不当使用爬虫容易轻则侵犯隐私、违反服务条款,重则构成不正当竞争甚至触犯刑法。

如果需有效避免网络爬虫爬取数据的法律风险,应如何合规呢?主要有:

一、尊重网站规则。

尊重网站规则包括遵守网站Robots文件及《服务协议》。 Robots.txt文件和《服务协议》是网站为了管理访问和使用其资源而设置的规则,但它们的目的和作用有所不同,两者都旨在保护网站资源,它们的关系具有互补性。

1、遵守Robots.txt文件。

Robots.txt 主要用于告诉搜索引擎爬虫哪些页面可以被爬取,哪些页面应该被忽略,是用于技术层面的访问控制。因此爬取数据前要检查目标网站的robots.txt,避免爬取禁止访问的目录。Robots文件(网络爬虫排除标准)中的内容通常包含以下几种约定:

(1)User - agent:指定哪种搜索引擎的机器人可以访问网站。若值为“*”,则该协议对所有爬虫都有效;也可指定特定搜索引擎机器人,如Googlebot、Baiduspider等。若文件中有多条User - agent记录,说明有多个机器人会受到该协议的限制。

(2)Disallow:指定不能被搜索引擎访问的文件或目录,其值可以是完整路径,也可以是相对路径。例如“Disallow:/private”,则以“/private”开头的页面都不允许机器人访问;“Disallow:/private/”,允许访问类似“/private01.html”的页面,但不能访问“/private/01.html”。

(3)Allow:用于覆盖Disallow指令,指定一个已被Disallow指定的目录中的特定文件可以被搜索引擎访问。比如“Disallow:/User”,“Allow:/User/007”,表示禁止访问后缀紧接着“/User”的页面,但允许爬取“/User/007”链接地址。

(4)Sitemap:指定站点图的URL,便于搜索引擎更好地读取和索引站点内容,提高站点的可见性和排名,通常在各个搜索引擎站长工具上使用。

2、遵守《服务协议》

《服务协议》是网站与用户之间的一种法律协议,规定了用户使用网站服务时应当遵守的规则和条件。《服务协议》是从法律角度规范用户行为。一般网站《服务协议》会包含以下常见约定:

(1)使用范围:明确规定数据可以在哪些场景、哪些用途下被使用,例如是否仅可用于个人非商业用途等。

(2)数据获取方式:规定是否允许使用自动化程序(如爬虫)来获取数据,以及使用爬虫时的具体规则,如访问频率限制等。

(3)数据保护:要求使用者对获取的数据进行保密,不得泄露给第三方,同时要采取必要的安全措施保护数据。

(4)知识产权归属:强调网页上的数据、内容的知识产权归属,使用者不得侵犯相关的版权、商标权等。

(5)禁止行为:列举一些禁止的行为,如不得对数据进行篡改、不得利用数据进行违法活动等。

二、避免爬取受保护的数据。

依法受保护的数据主要包括:

1、个人信息。《民法典》规定自然人的个人信息受法律保护。个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。未经同意不得非法收集、使用、加工、传输他人个人信息。《个人信息保护法》规定收集个人信息需取得个人同意,或符合履行合同、法定义务等合法情形。《网络安全法》规定任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。例如爬取用户数据(如电商评论、社交资料),需明示用途并获用户同意。

2、商业秘密。《反不正当竞争法》规定商业秘密,是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。符合上述条件的技术信息和经营信息等数据,可以作为商业秘密保护。因此通常是企业不公开的数据。依据规定任何自然人、法人和非法人组织均不得违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密。

3、爬取涉及国家安全、公共安全的数据。数据处理活动应符合国家数据分类分级保护制度。《数据安全法》规定国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据,实行更加严格的管理制度。各地区、各部门应当按照数据分类分级保护制度,确定本地区、本部门以及相关行业、领域的重要数据具体目录,对列入目录的数据进行重点保护。任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。

4、受版权保护的内容。

《著作权法》规定未经许可复制、传播他人作品可能构成侵权。除学校课堂教学或者科学研究、不以盈利为目的等法律、行政法规规定可以避开的情形外,未经权利人许可,任何组织或者个人不得故意避开或者破坏用于防止、限制未经权利人许可浏览、欣赏作品、表演、录音录像制品或者通过信息网络向公众提供作品、表演、录音录像制品的有效技术、装置或者部件。因此爬取未经许可受版权保护的数据,如付费文章、影视资源、图片等并商用的,可能构成侵权。

三、技术上不得干扰网站正常运行。

1、不绕过反爬机制。

《反不正当竞争法》规定禁止利用技术手段妨碍、破坏他人合法提供的网络服务。例如伪造User-Agent、IP轮换、验证码破解等绕过反爬措施,应使用API,而非直接爬取网页。

2、高频请求导致服务器瘫痪(DDoS攻击)

分布式拒绝服务攻击(DDoS,Distributed Denial of Service),是一种网络攻击手段。攻击者利用多台被控制的计算机(通常是被植入恶意软件的“僵尸网络”)向目标服务器或网络服务发送大量的请求,使目标系统的资源被耗尽或网络带宽被阻塞,从而导致正常用户无法访问该服务器或服务,造成服务中断。应设置合理的爬取间隔,不突破技术防护:避免触犯《刑法》。

《网络安全法》规定任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。

《刑法》规定侵入计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,构成非法侵入计算机信息系统罪;对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成破坏计算机信息系统罪。

四、爬取到的数据需合规使用。

《个人信息保护法》规定个人信息处理者应当对其个人信息处理活动负责,并采取必要措施保障所处理的个人信息的安全。《网络安全法》规定任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。《刑法》规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成侵犯公民个人信息罪。《数据安全法》规定任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。法律、行政法规对收集、使用数据的目的、范围有规定的,应当在法律、行政法规规定的目的和范围内收集、使用数据。因此爬取到的数据不得非法转售、不得滥用,并明确使用用途。

总之合规爬取 = 合法数据源 + 合理技术手段 + 正当商业用途
违法爬取 = 民事责任 + 行政责任 + 刑事责任

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/04/12749.html

分享给朋友:

相关文章

电脑c盘哪些文件可以删除?

电脑c盘哪些文件可以删除?

电脑上的文件夹都是英文,很多朋友都不敢乱删,下面这几个文件夹里的文件,你可以放心删除。一、可删除的文件1、Backup这是一个备份文件夹,很多装机软件经常会把需要备份的东西,放在这个文件夹中。而当我们需要的软件正常保存之后,这些东西也就没有...

为什么扫码支付在中国流行,在发达国家被排斥?

因为这是一种落后的技术。卖菜的大爷花5毛钱就可以打印出一张二维码来接受付款。你觉着这种先进么?跟先进完全不沾边的。正是因为不先进,所以才能流行。卖菜大爷用不起一台先进的、具有NFC感应功能的、还能刷各种银行卡的收款机。这就是现实。发达国家,...

2024,java开发,已经炸了吗?

炸的透透的了,坐标南京。一月底,一个好哥们,双休朝九晚六不加班18K,被裁。入职不到两年,算是工资和年终奖才赔了6.5W左右。上周五新公司入职,周六开始加班。现在每周134加班到晚上八点,好像薪资还不如以前高。三月上旬,另一个好哥们,薪资好...

大家都是怎么把自己的粉丝增加到1000的呢?

大家都是怎么把自己的粉丝增加到1000的呢?

截至2024年10月30日,关注者总数1137人,用时80天,增速约14人/天。2024年10月30日数据2024年8月10日开始创作,连续一周,1个关注者都没有。创作第7天,得到第一个关注,7天时间,写了8篇回答。当天得到关注,激动的心情...

为什么神经网络可以解偏微分方程,是什么原理?

为什么神经网络可以解偏微分方程,是什么原理?

题主一直比较关心神经网络在其他科学领域的应用,比如数学、物理学还有生物学,比如AlphaFold。本次带来的这篇文章傅里叶神经网络算子解偏微分方程就是一个很有意思的方向,其实我自己去年在给美国一个客户做兼职预测数字货币期权价格的时候就用到过...

什么样的网站能快速捕获你的心?

什么样的网站能快速捕获你的心?

大家好,我是程序员鱼皮。大家如果平时使用网站或产品时出现了问题,一般都会去寻找 “联系客服” 的位置,从而获得人工的帮助。我们团队的面试刷题产品 - 面试鸭最近就遇到了这样一个难题:明明我们网站右下角就有联系客服按钮、而且我们每道面试题目下...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。