卡卷网
当前位置:卡卷网 / 每日看点 / 正文

12306 网站的根目录下为什么连 robots.txt 文件(反爬虫协议)都没有?

作者:卡卷网发布时间:2025-01-17 00:49浏览数量:98次评论数量:0次

我看好多人说 12306 会线下物理打击,的确,有可能会的。

但是我猜可能还有另一个原因,仅仅是我的猜测哈,robots.txt 是给世界上最大的爬虫--搜索引擎看的,它还有一个目的是防止搜索引擎爬取它的内容,因为任何个人都是无法和搜索引擎的爬取能力相比。

12306 网站的根目录下为什么连 robots.txt 文件(反爬虫协议)都没有?  第1张

搜索引擎可是能给一个网站爬挂的,例如前阵子沸沸扬扬的百度爬 xx网站。

来看下小 x 书的robots.txt,禁止了几乎所有的爬虫,就是不想让他们爬,这样才能保护好自己的内容,而不是拿自己的内容给别人用,现在好多平台都在这么做了已经。

12306 网站的根目录下为什么连 robots.txt 文件(反爬虫协议)都没有?  第2张

说回 12306,为什么它没有 robots.txt文件,我觉得可能是因为它只有一些单页面,所有的车票数据都是通过 ajax 请求动态获取的,搜索引擎爬 12306 没啥用,也拿不到有用的数据,大家基本上也不会去搜搜引擎搜车票对吧。

所以这个时候,它提供不提供 robots.txt 其实都无所谓了,因为搜索引擎也爬不到有用的数据,也就不会费力不讨好的尝试了,这个时候 robots.txt 有没有其实无所谓了,刚试了一下,访问 robots.txt 会报错哈哈

12306 网站的根目录下为什么连 robots.txt 文件(反爬虫协议)都没有?  第3张

再来说个人爬取,目前好像没有听说过有谁抓 12306 出事吧,可能官方有这个实力,家里有粮心中不慌,随便抓,实力够用。

END

免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。

卡卷网

卡卷网 主页 联系他吧

请记住:卡卷网 Www.Kajuan.Net

欢迎 发表评论:

请填写验证码