robots基本上是每个网站都有的文件,它其实是一种搜索引擎协议,这个协议的作用就是让我们可以选择屏蔽一些页面,不然搜索引擎抓取这些页面,甚至可以屏蔽某个搜索引擎来抓取你的网站。
一般情况下,当搜索引擎来到我们网站的时候,会先扫描一下这个文件再进行下一步的抓取,如果没有这个文件存在,则搜索引擎默认你的网站没有任何约束,当然我们制定了协议之后,搜索引擎是否会遵守我们是无法干预的,但是搜索引擎一般会不会违反协议。
robots语法
基本语法
User-agent定义协议的搜索引擎。
Disallow不允许抓取
Allow允许抓取
通配符,代表所有
结束符
详情讲解
User-agent:* 所有的搜索引擎都要遵守 User-agent:Baiduspider 针对百度的协议 Disallow:/ 屏蔽全站 Disallow:/can/ 屏蔽can文件下的所有文件 Allow:/can/123 屏蔽can文件下的所有文件,但是允许收录123 Disallow:/.jpg 屏蔽所有的图片文件 Sitemap:zuijiakeji.com/sitemap.xml 网站地图文件
注意事项
英文的首字母一定要大写
问号一定是英文状态下的
问号之后一定要有一个空格
使用通配符,一定要有结束符。不然可能导致正常的路径被屏蔽。
robots怎么使用
统一路径
在我们的网站中,指向页面的路径一定是有且只有一个。一旦多途径指向一个页面,会导致百度不知道收录那个页面。所以我们只要屏蔽了一个,让百度收录我们想让收录的。
搜索路径
我们网站的搜索功能都是靠后端php或者是java等等方式实现的,如果直接将这些文件暴露出来对于我们网站是十分危险的,可能第二天就被攻击了,所以我们需要屏蔽掉搜索路径来增加网站的安全性。
系统文件
我们一个功能齐全的网站自然是不可能只有html页面的,js、php等技术是必不可少的,何况现在都是使用cms来进行网站的管理,如果这些文件被百度抓取并暴露出来,我们的网站也就没有任何秘密可言了。
标签路径
有的小伙伴网站上可能有些标签页面,如果是用一些比较有年代感的系统的话,这些页面的链接可能出现中文,而中文链接对于搜索引擎来说总是不那么友好的,所以要屏蔽掉。
robots该屏蔽那些文件
其实网上对于robots的写法已经很完善了,不过既然说到这里了就简单讲一下吧。
系统文件
我们cms系统文件都是要列入屏蔽名单的,不能放出来。
模板文件
模板文件里面会有一些我们后台独有的标签,如果放出来之后可能就会被别人迅速破解掉后台。
图库
如果不是做图片网站的话,还是非常建议将图库文件给屏蔽掉的。
会员文件
有的小伙伴可能网站会有会员功能,我们也可以将会员系统给屏蔽掉。
统计报告
同上,有的小伙伴也可以屏蔽掉哦。
css/js
我们的样式表和js文件在网站资源少的情况下可以屏蔽掉,当然也可以留着给搜索引擎让其能够更好的了解我们的网站结构。
以上就是今天robots是什么,怎么写?的全部内容了,希望能够对你有所帮助。要注意的是小伙伴们不要将整站屏蔽,百度抓取不到网页,可能会掉收录。