加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.52wenzhou.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

Robots.txt写法详谈

发布时间:2021-12-20 15:29:59 所属栏目:优化 来源:互联网
导读:Robots 协议是蜘蛛访问网站的开关,决定蜘蛛可以抓取哪些内容,不可以抓取哪些内容。卓趣科技quhr.cn从网站管理者的角度,我们通过 robots 的书写,可以决定让蜘蛛抓取哪些文件,而不抓取哪些文件,从而更有利于网站的优化。 目录: 1.robots协议分析、书写规
Robots 协议是蜘蛛访问网站的开关,决定蜘蛛可以抓取哪些内容,不可以抓取哪些内容。卓趣科技quhr.cn从网站管理者的角度,我们通过 robots 的书写,可以决定让蜘蛛抓取哪些文件,而不抓取哪些文件,从而更有利于网站的优化。
 
目录:
 
1.robots协议分析、书写规则和书写方法
 
2.robots协议是什么?它有什么用?
 
知识扩展:Nofollow 与 Disallow 的区别
 
1.robots协议分析、书写规则和书写方法
 
Robots 是指网站与搜索引擎之间的协议1.Robots 是存放在网站根目录
2、robots 形式及定义:User-agent: Baiduspider (定义所有的百度蜘蛛)Disallow: /User-agent: 定义所有的蜘蛛Baiduspider: 百度蜘蛛Googlebot: 谷歌机器人MSNBot: msn 机器Baiduspider-image:百度图片Disallow: 定义那些文件可以抓取,那些文件不可以抓取
 
比如说下面这个是 discuz 论坛的都是不允许蜘蛛抓取User-agent: *Disallow: /api/Disallow: /data/Disallow: /source/Disallow: /install/Disallow: /template/Disallow: /config/Disallow: /uc_client/Disallow: /uc_server/Disallow: /static/Disallow: /admin.phpDisallow: /search.phpDisallow: /member.phpDisallow: /api.phpDisallow: /misc.phpDisallow: /connect.phpDisallow: /forum.php?mod=redirect*Disallow: /forum.php?mod=post*Disallow: /home.php?mod=spacecp*Disallow: /userapp.php?mod=app&*Disallow: /*?mod=misc*Disallow: /*?mod=attachment*Disallow: /*mobile=yes*

2. robots协议是什么?它有什么用?
 
Robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。对于站长而言,出于对 SEO 的要求,通过需要通过书写 robots 协议来限制蜘蛛抓取某些不参与排名或不利于排名的文件。在某些情况下,如果不限制蜘蛛抓取特定的文件,有可能导致网站保密信息的泄漏。曾经有一个高校网站因为没有设置好 robots 协议,导致学生信息被蜘蛛抓取而公布到网上。如果是商业性网站,会员信息被公开被网站后果是非常严重的。因为我们站长在管理网站的过程中,要注意 robots 协议的书写。
 
3.知识扩展:Nofollow 与 Disallow 的区别
 
Robots 是站点与 spider 沟通的关口,蜘蛛在访问网站之前,首先要找到 robots.txt 协议,通过阅读 robots 决定抓取哪些内容,不抓取哪些内容。当然,这个协议需要搜索引擎各方遵守才行,否则写得再好的 robots.txt 也是白瞎。
 
disallow 完全禁止某个页面被抓取,也就是不会被收录和传递权重。而 nofollow 是某个链接的属性,一个页面如果有多个链接导入,只要有一个没有带 nofollow,那么它依然会被传递权重。不过一般我们所看到的 robots 里面都是 disallow,如果我们要禁止百度抓取,那么就 user-agent:baiduspider 这样,
 
如果禁止谷歌抓取,那么就 user-agent:googlebot。而如果要禁止所以搜索引擎抓取  User-agent:* Disallow:/当然,一般网站内容我们都希望抓取,这样可以通过文字标题的长尾关键词引入很多流量。而收录对于网站排名来讲,目前没有什么有力的证据说明这一点。比如淘宝,百度就只收录了一个主页,但是流量和排名大家可以自己看看。而如果你的网站内容是受到版权保护,某些产品介绍,或者是新闻类,但是在别的网站转载过来的,那么即使收录了,如果重复页面太多,对自己的站点依然不好,所以也可以禁止抓取。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读