什么是robots协议?robots.txt文件怎么写?

作为一个SEO人员,你知道什么是robots协议?robots.txt文件怎么写吗?下面郑州SEO就来告诉大家什么是robots协议以及robots.txt文件的写法!

什么是robots协议?robots.txt文件怎么写?

一、什么是Robots协议?

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”,robots.txt是搜索引擎访问网站时第一个查看的文件,当我们网站有部分内容不希望收搜索引擎抓取时,就可以通过Robots协议来告诉搜索引擎哪些页面是不能抓取的,大多用来保护网站的隐私,以及一些死链、重复页面等等。

二、、Robots.txt文件怎么写?

基本语法

User-agent:指定对哪些爬虫生效!*号代表全部搜索引擎,百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)

Disallow:不允许抓取

Allow:允许抓取

#:注释

 全站屏蔽所有蜘蛛

新站上线前或网站改版之前,为了避免蜘蛛抓取错误或临时的链接,可以采用全站屏蔽蜘蛛的操作,在根目录建立robots.txt,添加如下内容:

User-agent:*

Disallow:/

屏蔽某个目录、文件

屏蔽所有蜘蛛抓取根目录下的seo文件夹及里面的所有内容,根目录下的seo1目录下的1.html文件,robots.txt文件添加如下内容:

User-agent:*

Disallow:/seo/

Disallow:/seo1/1.html

 屏蔽某个目录,但抓取目录下的文件或文件夹

屏蔽所有蜘蛛抓取网站根目录下的seo文件夹,但抓取里面后缀名为html的文件

User-agent:*

Disallow:/seo/

Allow:/seo/*.html

注意:上面的写法,seo带“/”代表根目录下的seo目录下的内容。并不会禁止比如根目录下seotest的文件夹及文件夹所有内容。

禁止抓取根目录下所有前面带“seo”字符的文件夹及文件

User-agent:*

Disallow:/seo

禁止了如:/seo/,/seo/12.html,/seotest/,/seoabc.html

 屏蔽动态URL

网站有些动态页面可能会和静态页面相同,造成重复收录,用robots屏蔽动态URL

User-agent:*

Disallow:/*?*

仅允许访问“.html”为后缀的URL

User-agent:*

Allow:.html$

Disallow:/

 屏蔽死链接

网站改版、删除文章后,原来的URL如果已经被搜索引擎索引,出现404错误。一般的做法如下:

①查看网站日志,找出这些死链,用百度提交死链工具提交,慢慢的会删除这些死链;

②如果这个链接已经更换,也可以用301跳转到新的链接,301跳转后原页面和新页面处理办法;

③robots禁止蜘蛛抓取死链,写法同上,最好带完整路径

User-agent:*

Disallow:http://www.hnanseo.com/1.html

屏蔽不参与排名的页面链接

比如会员中心、登陆界面、联系我们等。这些虽然有实际用途,蜘蛛一样会爬取这些页面链接,这些页面也会分权,因此为了集中权重,一些完全不参与排名的页面应该用robots屏蔽。也可以在该页面的</head>之前添加<meta>声明,指向该页面的链接加上nofollow标签。

<meta name=”robots” content=”noindex,nofollow”/>

<a rel=”nofollow” href=”/member/login”>登陆</a>

sitemap索引在robots.txt的位置

sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原则,再按照网站地图爬取。

Sitemap: http://www.hnanseo.com/sitemap.xml

Sitemap: http://www.hnanseo.com/sitemap

 

原创文章,作者:郑州seo,如若转载,请注明出处:http://www.hnanseo.com/579.html

(0)
上一篇 2017年9月24日
下一篇 2017年9月27日

相关推荐

  • 301重定向的作用有哪些?

    301重定向的作用有哪些??做SEO优化的朋友都知道,301重定向/404页面是网站优化的一个重要操作细节,404是为了用户体验更好,避免不必要流量的流失,那么301的作用有哪些呢…

    2017年7月15日
    1
  • 新手学习SEO应该从哪方面入手?

    很多朋友在刚接触SEO的时候感觉很难,不知道从哪方便开始学习,其实学习SEO并没有想象中那么难,现在网上学习SEO资源这么丰富,大量基础教程、视频教程!所以我们可以从网上找到一些S…

    2017年8月17日
    2
  • SEO要从哪些方面分析竞争对手网站?

    影响SEO难易的因素有很多,其中一个重要的因素就是竞争对手实力,很多新手SEO认为指数越大竞争越难,其实不然,一些指数高但是竞争力度小的词还是不少的,竞争对手多不多?竞争对手seo…

    2017年11月19日
    2
  • 如何让百度收录网站?怎么增加百度收录?

    如何让百度收录网站?怎么增加百度收录?最近百度估计一直在调整,新站收录变得慢了,相信很多SEO站长都发现的这一问题,不过让百度收录网站其实不是那么难,只要网站能正常抓取,网站内容可…

    2020年5月22日
    0
  • 什么是搜索引擎优化排名的关键?

    什么是搜索引擎优化排名的关键?目前搜索引擎中有很多网站和内容,搜索引擎优化排名专员通常在优化网站时就意识到这一点,想要在大量网站中找到自己的内容非常困难,所以搜索引擎会在一定程度上…

    2018年10月29日
    0
  • 新接手一个网站如何做优化?从哪些方面着手做SEO优化!

    新接手一个网站如何做优化?从哪些方面着手做SEO优化?作为一个SEO站长,不管是平时接网站优化单子赚外快,还是换个SEO工作的,都会接触到新的网站优化,当接手新网站时网站优化怎么做…

    2020年5月28日
    2
  • SEO新手必看:百度搜索引擎的排名原理

    百度是目前我国最大的搜索引擎了,也是我们每个站长或SEO获取流量的主要来源,所以百度搜索引擎的排名原理是每个新手在刚接触SEO的时候必须要了解的,下面是郑州SEO为大家整理的搜索引…

    2017年6月28日
    1
  • 百度抓取频次很低什么原因,怎么提高网站抓取频次

    百度抓取频次是百度蜘蛛每天对服务器的抓取次数,所以抓取频次很低的网站,意味着蜘蛛对网站抓取次数低,基本上收录都不是很好,找出网站抓取频次低的原因,有效提高网站抓取频次很是重要! 百…

    2022年4月29日
    0
  • 新手如何学习SEO网站优化

    SEO好学吗?新手学习SEO网站优化从哪方面着手?多久才能学会呢?这些都是新手在刚接触SEO这一行业时想要了解的一些东西,首先你要知道自己为什么学习SEO ,你想用这门技术干什么?…

    2017年7月6日
    1
  • 什么是外链?

    什么是外链?作为一个SEO,可以说是跟外链一直在打交道,外链是什么?应该了解的都很透彻了,但是就今天,一个SEO问我什么是外链?问友情链接算是外链吗?以为这些东西大家都应该理解,都…

    2017年9月17日
    0

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

评论列表(1条)

  • 郑州seo
    郑州seo 2018年5月20日 下午5:51

    robots.txt是一个协议文件。搜索引擎访问网站的时候,会首先访问robots.txt,了解哪些能抓取,哪些不能抓取。robots.txt可以告诉搜索引擎,哪些内容可以抓取,哪些不能抓取。当我们有信息不想让搜索引擎抓取到的时候,我们就可以用robots.txt禁止。