WordPress网站的robots.txt文件该如何配置 利用robots.txt优化站点

WordPress网站的robots.txt文件该如何配置 利用robots.txt优化站点

robots.txt是网站很重要的一个组成部分,是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。它是搜索引擎和网站之间一个默许的协议,由搜索引擎自觉遵守,用文本文档来实现,放在robots.txt中。很多新手只知道服务器运维、建设wordpress网站内容、发外链、加友链,却不知道在网站建设初期及正常上线后最重要的robots.txt文件,所以对新手来说,是非常重要的,也包括我,每次换主题都会忘记添加robots.txt文件,下面我们来看一下具体的解释。

网站robots.txt文件写法

网站禁止抓取
User-agent: *
 Disallow: /
网站开放抓取
User-agent: *
 Allow:

当robotx.txt为空的时候,代表允许任何搜索引擎抓取,没有限制。如果你是新建网站,在安装完wordpress程序之后,应该立即使用上面的禁止抓取代码。等待网站安装、配置完毕,发布一定内容之后,这时确认网站形式、目录架构、核心方向、内容模式不会有删改之后,再开放抓取,这样能够让搜索引擎抓取到正确的内容。

网站的robots.txt在什么位置

网站根目录,用的wordpress建站的话,就用ftp软件上传到wp-admin、wp-content、wp-includes文件夹同一级目录即可。在浏览器访问你的网站/robots.txt就可以看到你的robots.txt文件,如果找不到就是路径不正确!

robots文件的官方写法,国内请参考百度搜索资源平台>站点管理>数据监控>Robots。下面有一些关于写法的一些解释,如果你的网站主要靠百度带来流量,就老老实实的依照建议写。

WordPress默认的robots.txt

下面的协议是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/
Sitemap: http://e1yu/sitemap_index.xml
分别解释一下各项的作用: Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/ 用于告诉搜索引擎不要抓取后台程序文件页面。 Disallow: /*/comment-page-*和Disallow: /*?replytocom=* 禁止搜索引擎抓取评论分页等相关链接。 Disallow: /category/*/page/和Disallow: /tag/*/page/ 禁止搜索引擎抓取收录分类和标签的分页。 Disallow: /*/trackback 禁止搜索引擎抓取收录trackback等垃圾信息 Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed 禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。 Disallow: /?s=*和Disallow: /*/?s=*\ 禁止搜索引擎抓取站内搜索结果 Disallow: /*?* 禁止搜索抓取动态页面 Disallow: /attachment/ 禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。 Sitemap 贵站的sitemap完整地址,这个是必须要有的

那么设置好robots后还可以通过百度搜索资源平台Robots工具来创建、校验、更新robots.txt文件,或查看网站robots.txt文件在百度生效的情况—Robots文件检测工具

分享到 :

发表评论

登录... 后才能评论