扫描关注网站建设微信公众账号

微信二维码

当前位置:济南网站优化 > 技术洞察 > SEO > SEO基础之占据robots文件做好优化排名

SEO基础之占据robots文件做好优化排名

时间:2020-06-08•16:18:57文章来源:网站优化排名文章作者:robots文件的作用
1、robots文件是什么
robots.txt是放在网站根目录之下的一个文件。搜索引擎在爬取网站时,通过robots文件可以明确自己的访问权限,即指导引擎更好地抓取网站内容。robots文件并不是一个像W3C那样指定网络规范协议,而是众多搜索引擎约定俗成的标准。
2、文件写法
SEO排名robots.txt可通过百度搜索robots生成,点击站长工具生成,如下图
robots优化
robots文件写法参考
Disallow,还可配合Allow、$通配符,*通配符使用 ,写法如下:
User-agent: *
Disallow: /ab/ 蜘蛛不抓取ab目录下其他文件
Allow: /ab/cd 只抓取其中cd下的文件
Allow: .htm$允许蜘蛛访问以.htm为后缀的URL
Disallow: /*.htm 禁止蜘蛛抓取所有htm文件
除此之外,robots.txt中也要包含Sitemaps文件信息格式示例:
Sitemap: http://domain.com/sitemap.xml
 
3)robots.txt在SEO优化中的作用
因为robots文件是针对搜索引擎的,所以运用好能够增加搜索引擎爬取网站的体验度从而增加网站收录量
① 屏蔽网站的空、死链接
通常我们会对网站定期检查空链和死链,将这些链接提取出来,写入robots文件之中,防止搜索引擎爬取该链接,间接提升搜索引擎的体验。一旦修改了已经收录的内容,搜索引擎会重新爬取修改过的页面,再次判断是否进行收录,没有继续收录了,那么就得不偿失了。
② 防止蜘蛛爬取网站重复内容
因为网站很多的动态页面搜索引擎时无法收录的,所以很多时候我们需要对于这些动态页面进行制定一个静态的页面以助于搜索引擎收录。这时候就让搜索引擎不要爬取某一些重复的内容,可以减少站内的页面关键词权重竞争。
③ 防止蜘蛛爬取无意义内容,浪费服务器资源
网站上无意义的内容,例如网站的各种脚本代码、css文件和php文件等等,这些文件对于网站优化都是无意义的,爬取这些网站不仅不会收录,而且还会浪费服务器的资源。上图中很多禁止访问的内容都是这类无意义的文件目录。
④ 保护网站隐私内容
网站有很多的页面都是有着一定隐私的,例如一个用户接受的推送又或者是购物车等等,这些链接虽然在一个页面之中有,但是显然是不希望搜索引擎爬取的内容。
⑤ 有利于网站调试
在网站初步上线前都会有着一定的错误,需要一段时间的调试再对搜索引擎开放爬取,在调试期间就可以将robots文件设置为对于所有的搜索引擎都处于拒绝爬取状态,等所有的错误都解决后再修改robots文件。
 
5)使用误区
① 无需设置robots.txt文件,不推荐。爬行器会认为它是一个死链接,并将其记录为网站日志中的死链接,这会严重影响爬行器的友好性,可能导致搜索引擎不收录网站。
② 所有文件设置为允许,不推荐。 非常浪费服务器资源。这种对网站的保护很差,对蜘蛛爬取的体验也不友好。
搜索引擎爬行掌握robots文件用法和写法是SEO的基本功。遇到页面不被收录或收录骤降,robots文件也是第一个要检查的。注意,每次修改robots文件之后都需要到搜索引擎站长平台去提交robots文件更新提醒,因为搜索引擎更新网站的状态都是需要一定的时间,只有人工提交才能够让更新后的robots文件及时生效。
 

上一篇:想快速登上首页?4个你该避免的SEO错误策略!

下一篇:在网站建设中如何设计筛选关键词?

文章关键词
robots
robots文件
SEO基础
robots生成