的roots.txt文件对提高曝光率有帮助吗?
作者:卡卷网发布时间:2025-01-07 17:00浏览数量:84次评论数量:0次
如题
<>第一部分:>
User-agent:
Disallow:/wp-/
Disallow:/readme.html
Disallow:/wp-login.php
Disallow:/wp-register.php
Disallow:/trackack/
Allow:/wp-/-ajax.php
Allow:*.js
Allow:*.S
Disallow:/wp-content/cache/Disallow:*/feed/
Disallow:/*?s=
Disallow:/search/
Disallow:*?ver=*
<>解释:>
User-agent:-这行后面应该有一个值,但这里是空的。通常,它指定了适用的搜索引擎爬虫。空值意味着以下规则适用于所有爬虫。
Disallow:/wp-/-禁止爬虫访问/wp-/目录及其子目录。
Disallow:/readme.html-禁止爬虫访问readme.html文件。
Disallow:/wp-login.php-禁止爬虫访问WordPress登录页面。
Disallow:/wp-register.php-禁止爬虫访问WordPress注册页面。
Disallow:/trackack/-禁止爬虫访问trackack功能相关页面。
Allow:/wp-/-ajax.php-允许爬虫访问-ajax.php文件。
Allow:*.js-允许爬虫访问所有JaScript文件。
Allow:*.S-允许爬虫访问所有S文件。
Disallow:/wp-content/cache/-禁止爬虫访问缓存目录。
Disallow:*/feed/-禁止爬虫访问所有feed页面(GSC报告中的feed索引是啥)。
Disallow:/*?s=-禁止爬虫访问搜索结果页面。
Disallow:/search/-禁止爬虫访问搜索页面。
Disallow:*?ver=*-禁止爬虫访问包含版本参数的L。
这些设置主要是为了保护的敏感区域,如后台、登录页面等,同时允许爬虫访问一些必要的资源文件(如JS和S)。
<>第二部分:>
<>解释:>
<>这些屏蔽规则专门针对特定的AI爬虫或机器人:>
CCot:用于CommonCrawl项目的爬虫。
ChatGPT-User:可能是ChatGPT用户的爬虫。
GPTot:OpenAI的GPT模型爬虫。
Google-Extended:Google的扩展爬虫。
Appleot-Extended:Apple的扩展爬虫。
anthropic-ai:Anthropic公司的AI爬虫。
Claudeot:可能是Anthropic的ClaudeAI模型爬虫。
Omgiliot和Omgili:Omgili搜索引擎的爬虫。
Faceookot:Faceook的爬虫。
Diffot:用于网页内容提取的爬虫。
ytespider:字节跳动(TikTok母公司)的爬虫。
Imagesiftot:图像搜索爬虫。
Perplexityot:PerplexityAI的爬虫。
cohere-ai:CohereAI公司的爬虫。
上面这些就是常见的AI内容生成工具,它们会抓取我们的内容来做训练素材,或者直接在内容生产的时候调用我们的数据或进行总结,有时候不想被"偷"内容,可以直接屏蔽它们的爬虫.
简单总结,That'sit.
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
- 上一篇:如何评价英特尔580显卡?
- 下一篇:你正在用的听歌软件是什么?
相关推荐

你 发表评论:
欢迎