当前位置:首页 > 每日看点 > 正文内容

正常用网络爬虫可以爬那些数据不违法?

卡卷网5个月前 (04-28)每日看点93

网络爬虫作为自动化工具,它按照一定规则,自动地抓取万维网信息,其透过追踪超链接和分析网页内容,就能实现对互联网数据的自动搜集与整理。因其自动请求网页、解析网页内容以提取所需信息,还能将抓取到的数据进行处理、清洗并存储,过程无需人工实时干预,所以大大简化立数据采集过程。然而在获得便利的同时,法律风险也并存,不当使用爬虫容易轻则侵犯隐私、违反服务条款,重则构成不正当竞争甚至触犯刑法。

如果需有效避免网络爬虫爬取数据的法律风险,应如何合规呢?主要有:

一、尊重网站规则。

尊重网站规则包括遵守网站Robots文件及《服务协议》。 Robots.txt文件和《服务协议》是网站为了管理访问和使用其资源而设置的规则,但它们的目的和作用有所不同,两者都旨在保护网站资源,它们的关系具有互补性。

1、遵守Robots.txt文件。

Robots.txt 主要用于告诉搜索引擎爬虫哪些页面可以被爬取,哪些页面应该被忽略,是用于技术层面的访问控制。因此爬取数据前要检查目标网站的robots.txt,避免爬取禁止访问的目录。Robots文件(网络爬虫排除标准)中的内容通常包含以下几种约定:

(1)User - agent:指定哪种搜索引擎的机器人可以访问网站。若值为“*”,则该协议对所有爬虫都有效;也可指定特定搜索引擎机器人,如Googlebot、Baiduspider等。若文件中有多条User - agent记录,说明有多个机器人会受到该协议的限制。

(2)Disallow:指定不能被搜索引擎访问的文件或目录,其值可以是完整路径,也可以是相对路径。例如“Disallow:/private”,则以“/private”开头的页面都不允许机器人访问;“Disallow:/private/”,允许访问类似“/private01.html”的页面,但不能访问“/private/01.html”。

(3)Allow:用于覆盖Disallow指令,指定一个已被Disallow指定的目录中的特定文件可以被搜索引擎访问。比如“Disallow:/User”,“Allow:/User/007”,表示禁止访问后缀紧接着“/User”的页面,但允许爬取“/User/007”链接地址。

(4)Sitemap:指定站点图的URL,便于搜索引擎更好地读取和索引站点内容,提高站点的可见性和排名,通常在各个搜索引擎站长工具上使用。

2、遵守《服务协议》

《服务协议》是网站与用户之间的一种法律协议,规定了用户使用网站服务时应当遵守的规则和条件。《服务协议》是从法律角度规范用户行为。一般网站《服务协议》会包含以下常见约定:

(1)使用范围:明确规定数据可以在哪些场景、哪些用途下被使用,例如是否仅可用于个人非商业用途等。

(2)数据获取方式:规定是否允许使用自动化程序(如爬虫)来获取数据,以及使用爬虫时的具体规则,如访问频率限制等。

(3)数据保护:要求使用者对获取的数据进行保密,不得泄露给第三方,同时要采取必要的安全措施保护数据。

(4)知识产权归属:强调网页上的数据、内容的知识产权归属,使用者不得侵犯相关的版权、商标权等。

(5)禁止行为:列举一些禁止的行为,如不得对数据进行篡改、不得利用数据进行违法活动等。

二、避免爬取受保护的数据。

依法受保护的数据主要包括:

1、个人信息。《民法典》规定自然人的个人信息受法律保护。个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。未经同意不得非法收集、使用、加工、传输他人个人信息。《个人信息保护法》规定收集个人信息需取得个人同意,或符合履行合同、法定义务等合法情形。《网络安全法》规定任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。例如爬取用户数据(如电商评论、社交资料),需明示用途并获用户同意。

2、商业秘密。《反不正当竞争法》规定商业秘密,是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。符合上述条件的技术信息和经营信息等数据,可以作为商业秘密保护。因此通常是企业不公开的数据。依据规定任何自然人、法人和非法人组织均不得违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密。

3、爬取涉及国家安全、公共安全的数据。数据处理活动应符合国家数据分类分级保护制度。《数据安全法》规定国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据,实行更加严格的管理制度。各地区、各部门应当按照数据分类分级保护制度,确定本地区、本部门以及相关行业、领域的重要数据具体目录,对列入目录的数据进行重点保护。任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。

4、受版权保护的内容。

《著作权法》规定未经许可复制、传播他人作品可能构成侵权。除学校课堂教学或者科学研究、不以盈利为目的等法律、行政法规规定可以避开的情形外,未经权利人许可,任何组织或者个人不得故意避开或者破坏用于防止、限制未经权利人许可浏览、欣赏作品、表演、录音录像制品或者通过信息网络向公众提供作品、表演、录音录像制品的有效技术、装置或者部件。因此爬取未经许可受版权保护的数据,如付费文章、影视资源、图片等并商用的,可能构成侵权。

三、技术上不得干扰网站正常运行。

1、不绕过反爬机制。

《反不正当竞争法》规定禁止利用技术手段妨碍、破坏他人合法提供的网络服务。例如伪造User-Agent、IP轮换、验证码破解等绕过反爬措施,应使用API,而非直接爬取网页。

2、高频请求导致服务器瘫痪(DDoS攻击)

分布式拒绝服务攻击(DDoS,Distributed Denial of Service),是一种网络攻击手段。攻击者利用多台被控制的计算机(通常是被植入恶意软件的“僵尸网络”)向目标服务器或网络服务发送大量的请求,使目标系统的资源被耗尽或网络带宽被阻塞,从而导致正常用户无法访问该服务器或服务,造成服务中断。应设置合理的爬取间隔,不突破技术防护:避免触犯《刑法》。

《网络安全法》规定任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。

《刑法》规定侵入计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,构成非法侵入计算机信息系统罪;对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成破坏计算机信息系统罪。

四、爬取到的数据需合规使用。

《个人信息保护法》规定个人信息处理者应当对其个人信息处理活动负责,并采取必要措施保障所处理的个人信息的安全。《网络安全法》规定任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。《刑法》规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成侵犯公民个人信息罪。《数据安全法》规定任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。法律、行政法规对收集、使用数据的目的、范围有规定的,应当在法律、行政法规规定的目的和范围内收集、使用数据。因此爬取到的数据不得非法转售、不得滥用,并明确使用用途。

总之合规爬取 = 合法数据源 + 合理技术手段 + 正当商业用途
违法爬取 = 民事责任 + 行政责任 + 刑事责任

扫描二维码推送至手机访问。

版权声明:本文由卡卷网发布,如需转载请注明出处。

本文链接:https://www.kajuan.net/ttnews/2025/04/12749.html

分享给朋友:

相关文章

一条音频千万播放!喜马拉雅如何成为亿万女性用户的情感树洞?

一条音频千万播放!喜马拉雅如何成为亿万女性用户的情感树洞?

哪个时刻你觉得自己很孤独,是母胎单身20余年渴望被陪伴,是因为身材焦虑渴望被接受,是走在创业独木桥上渴望被支持,还是困在产后抑郁中渴望被理解? 女性的情感倾诉需求越来越被...

Redmi 为什么可以把性价比做得那么高?

一位修手机的老大哥曾经跟我说过,红米1那个手机,除了处理器还凑活,其余零部件,就是市面上山寨机那种。其实红米性价比并不算极致,而且一直都有竞争者,从原来的群魔乱舞,到后来的荣耀,魅蓝,一加,再到现在的IQOO和realme。红米的方法也很简...

报名的网课分期付款怎么退?

你在你分期付款的订单下面有客服电话,直接打电话描述一下你的问题,你可以告诉他你是被恶意绑定的,在不了解有退学条件这一说的情况下报的课程,可能遇到消费者诈骗了,不承认有退学金,说是霸王条款,诈骗消费者,你若分期了先把自动续费关了,别让自己个人...

领导微信发“辛苦了”,作为员工应该怎么回答?

千万别说“没事,不辛苦”你这样回答抹掉了自己的辛苦付出还让领导没法接话也不要说“领导,您更辛苦”因为领导辛不辛苦不是由你来评判的是由他的上级来评判的那到底该如何高情商的回应呢?分情况讨论1、情景:领导让你帮了一个小忙,跟你说辛苦啦含义:那只...

如何建一个安全的个人nas?

如何建一个安全的个人nas?

群晖被入侵了晚上一进群晖,好家伙,这么多IP想用admin登录我的群晖。我群晖是直接连在互联网上的,虽然我的密码是强密码,大小写字母加数字还有特殊字符,想要攻破有点儿难,但天天看着这些警告也是挺烦人的,而且说不定群晖里面安装的软件一多,可能...

AI会取代搜索引擎吗?

AI会取代搜索引擎吗?

不会是取代,升级、优化、演变更合理。因为核心思路没有被颠覆。1⃣️ 底层逻辑搜索引擎和AI都是从网络上获取数据(有些厂商也在从线下搬运)然后加工,进而提供给用户服务。基本示例如:最关键的区别在于Search core index和Pre-T...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。