Robots介绍

Robots 是放网站根目录的一个txt文件
作用是给搜索引擎抓取权限配置。
创建 robots.txt 是优化收录的。

robots文件写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 禁止爬admin目录下面的目录
Disallow: /require/ 禁止爬require目录下面的目录
Disallow: /ABC/ 禁止爬ABC目录下面的目录
Disallow: /cc/*.htm 禁止访问/cc/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/cc/index.html 禁止爬取cc文件夹下面的index.html文件。
Allow: /ca/ 允许爬ca目录下面的目录
Allow: /tmp 允许爬tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图地址

目前博客的robots设置为

User-agent: *

Disallow:/install/
Disallow:/learm/
Disallow: /admin/
Disallow: /search/
Disallow: /attachment/
Disallow: /usr/themes/Violet/img/
Disallow: /bin/
##防止采集以上目录

Allow: /
##允许其他内容

sitemap:https://blog.learm.cn/sitemap.xml
sitemap:https://blog.learm.cn/sitemap_1.xml
##设置站点地图