卡卷网
当前位置:卡卷网 / 每日看点 / 正文

如何让自己hexo框架的博客不被搜索引擎收录?

作者:卡卷网发布时间:2024-12-02 18:50浏览数量:94次评论数量:0次

如何让自己hexo框架的博客不被搜索引擎收录?  第1张

一般情况下挂一个robots.txt设置一般能够防住的,不过想防广义的爬虫后面还有其他办法。

robots.txt文件如下:

User-agent: * Disallow: /

感觉上面不保险,就再套一个meta头。

<meta name="robots" content="noindex, nofollow">

其实上面方面方法只能防君子,不能防小人

如何让自己hexo框架的博客不被搜索引擎收录?  第2张

现在一般都流行用反爬虫机器人(Anti-Bot)

Anti-Bot 技术是一种用于识别和阻止自动化程序(如爬虫或机器人的)访问的技术。其目的是保护网站的内容、资源和数据免受未经授权的抓取、滥用或攻击。

挂一个Anti-Bot基本搞定一堆。一般比较知名品牌的有Cloudflare Bot Management,DataDome,PerimeterX,Akamai Bot Manager,Distil Networks (Imperva)

如何让自己hexo框架的博客不被搜索引擎收录?  第3张

下面以DataDome为例,详细说一下,其实调用很简单。

在node.js上安装SDK

npm install @datadome/datadome

代码例子

const express = require('express'); const DataDome = require('@datadome/datadome'); const app = express(); const datadome = new DataDome({ apiKey: 'YOUR_API_KEY', }); app.use(datadome.middleware); app.get('/', (req, res) => { res.send('Hello, human!'); }); app.listen(3000, () => { console.log('Server running on port 3000'); });


基本上能抗住大多数恶意爬虫。

END

免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。

卡卷网

卡卷网 主页 联系他吧

请记住:卡卷网 Www.Kajuan.Net

欢迎 发表评论:

请填写验证码