12306 网站的根目录下为什么连 robots.txt 文件(反爬虫协议)都没有?
我看好多人说 12306 会线下物理打击,的确,有可能会的。
但是我猜可能还有另一个原因,仅仅是我的猜测哈,robots.txt 是给世界上最大的爬虫--搜索引擎看的,它还有一个目的是防止搜索引擎爬取它的内容,因为任何个人都是无法和搜索引擎的爬取能力相比。
搜索引擎可是能给一个网站爬挂的,例如前阵子沸沸扬扬的百度爬 xx网站。
来看下小 x 书的robots.txt,禁止了几乎所有的爬虫,就是不想让他们爬,这样才能保护好自己的内容,而不是拿自己的内容给别人用,现在好多平台都在这么做了已经。
说回 12306,为什么它没有 robots.txt文件,我觉得可能是因为它只有一些单页面,所有的车票数据都是通过 ajax 请求动态获取的,搜索引擎爬 12306 没啥用,也拿不到有用的数据,大家基本上也不会去搜搜引擎搜车票对吧。
所以这个时候,它提供不提供 robots.txt 其实都无所谓了,因为搜索引擎也爬不到有用的数据,也就不会费力不讨好的尝试了,这个时候 robots.txt 有没有其实无所谓了,刚试了一下,访问 robots.txt 会报错哈哈
再来说个人爬取,目前好像没有听说过有谁抓 12306 出事吧,可能官方有这个实力,家里有粮心中不慌,随便抓,实力够用。