在网站上线之前,我们必须做一些操作,其中一个非常重要,那就是robots.txt事实上,文件的设置,robots写文件也是一种seo技术,具有一定的技术含量。下面顺时seo博客会教你的robots.txt写作,让你的网站收录快速稳定的提升。
什么是robots
robots是Robots Exclusion Protocol缩写,意思是“网络爬虫排除标准”,一般来说,爬虫协议或机器人协议通常被称为robots.txt写这个协议的文件,它旨在告诉搜索引擎网站上哪些页面可以抓取,哪些页面不能抓取。搜索引擎在访问网站时会先查看robots.txt遵守我们设置的文件和文件robots协议捕获页面,但一些搜索引擎可能不遵守robots我们随意捕捉我们网站的内容,我们称之为流氓。搜索引擎在访问网站时会先查看robots.txt遵守我们设置的文件和文件robots协议捕获页面,但一些搜索引擎可能不遵守robots协议随意捕捉我们网站的内容,我们称之为流氓。robots.txt网站根目录中必须放置文件。
robots常见属性含义
User-agent:用户代理,用来写搜索引擎蜘蛛的名字,*代表所有搜索引擎的写法是:User-agent: /*,注意冒号后面要有空间,如果是搜索引擎,那么,在冒号后面写上搜索引擎蜘蛛的名字,比如百度蜘蛛,则是:User-agent: Baiduspider。
Disallow:告诉搜索引擎无法捕获的页面。
Disallow:告诉搜索引擎无法捕获的页面。
Allow:告诉搜索引擎可以抓取的页面。
robots.txt常见的写作示例
1.所有搜索引擎都可以访问网站的所有页面:
robots写法:User-agent: *
Allow: /
不允许访问任何页面Allow换成Disallow
2.搜索引擎可以访问网站的所有页面:(以百度为例)
robots写法:User-agent: Baiduspider
Allow: /
不允许访问任何页面Allow换成Disallow
3.限制目录不被任何搜索引擎抓取,以目录a为例:
robots写法:User-agent: *
Disallow: /a/
4.限制不被任何搜索引擎抓取的路径,以路径123.html举例:
robots写法:User-agent: *
Disallow: /123.html
5.允许目录a中的1.html被抓取,目录a其他页面不被捕获:(允许在某些目录中捕获页面)
robots写法:User-agent: *
Disallow: /a/
Allow: /a/1.html
6.禁止访问.html后缀路径:
robots写法:User-agent: *
Disallow: /*.html(*表示任意字符)
7.禁止抓取动态页面:
robots写法:User-agent: *
Disallow: /*?*
8.禁止捕获所有图片:
robots写法:User-agent: *
Disallow: /*.jpg$($表示结尾字符)
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /*.bmp$
Disallow: /*.swf$
Disallow: /*.psd$
注:屏蔽所有图片格式
robots协议写作要点
1.一个User-agent:代表协议,可以有多个协议,但是User-agent: *只有一个;
2.所有冒号后面一定有空间
3.隐私文件必须获隐私文件,如网站背景、一些博客插件、模板和其他文件。