12306 网站的根目录下为什么连 robots.txt 文件(反爬虫协议)都没有?
作者:卡卷网发布时间:2025-01-17 00:49浏览数量:98次评论数量:0次
我看好多人说 12306 会线下物理打击,的确,有可能会的。
但是我猜可能还有另一个原因,仅仅是我的猜测哈,robots.txt 是给世界上最大的爬虫--搜索引擎看的,它还有一个目的是防止搜索引擎爬取它的内容,因为任何个人都是无法和搜索引擎的爬取能力相比。
搜索引擎可是能给一个网站爬挂的,例如前阵子沸沸扬扬的百度爬 xx网站。
来看下小 x 书的robots.txt,禁止了几乎所有的爬虫,就是不想让他们爬,这样才能保护好自己的内容,而不是拿自己的内容给别人用,现在好多平台都在这么做了已经。
说回 12306,为什么它没有 robots.txt文件,我觉得可能是因为它只有一些单页面,所有的车票数据都是通过 ajax 请求动态获取的,搜索引擎爬 12306 没啥用,也拿不到有用的数据,大家基本上也不会去搜搜引擎搜车票对吧。
所以这个时候,它提供不提供 robots.txt 其实都无所谓了,因为搜索引擎也爬不到有用的数据,也就不会费力不讨好的尝试了,这个时候 robots.txt 有没有其实无所谓了,刚试了一下,访问 robots.txt 会报错哈哈
再来说个人爬取,目前好像没有听说过有谁抓 12306 出事吧,可能官方有这个实力,家里有粮心中不慌,随便抓,实力够用。
END
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
- 上一篇:苹果到底给了微信什么特权?
- 下一篇:为什么B站不能像抖音和小红书那样走向海外?
相关推荐
最新文章
随机文章
广告位

你 发表评论:
欢迎