0371-86170333河南铁军公关公司

  1. 首页 > 公关案例

robots文件写作##

作者:admin 日期:2022-09-27 19:17:18 点击数:

robots.txt文件的写法

Robots协议(又称爬虫协议、机器人协议等)的全称是网络爬虫排除标准Robots该协议告诉搜索引擎哪些页面可以获,哪些页面不能捕获。robots.txt是协议,而不是命令。robots.txt是搜索引擎访问网站时要查看的第一个文件。robots.txt文件告诉蜘蛛程序可以在服务器上查看哪些文件。所以站长是对的robots了解多少?知道robots文件怎么写?大信将在下面的时代为您介绍。 robots协议原理 Robots协议是基于以下原则建立的国际互联网行业的道德规范: 1.搜索技术应服务于人类,尊重信息提供者的意愿,维护其隐私; 网站有义务保护用户的个人信息和隐私不受侵犯。 robots功能 Robots该协议用于告知搜索引擎哪些页面可以被捕获,哪些页面不能被捕获;屏蔽图片、音乐、视频等大型文件,节省服务器带宽;屏蔽网站的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便蜘蛛爬页。 文件写法 User-agent: * 这里的*代表的所有的搜索引擎种类,*是通配符。 Disallow: /admin/ 这里的定义是禁止爬寻admin目录下面的目录。 Disallow: /require/ 这里的定义是禁止爬寻require目录下面的目录。 Disallow: /ABC/ 这里的定义是禁止爬寻ABC目录下面的目录。 Disallow: /cgi-bin/* 禁止访问/cgi-bin/目录下的一切""为后缀的URL(包括子目录)。 Disallow: /*?* 禁止访问所有包含问号的网站 (?) 的网址。 Disallow: /.jpg$ 禁止抓取所有网页.jpg格式图片。 Disallow:/ab/adc 禁止爬取ab下面的文件夹adc文件。 Allow: /cgi-bin这里的定义是允许爬寻cgi-bin目录下面的目录。 Allow: /tmp 这里的定义是允许爬寻tmp整个目录。 Allow: $ 只允许访问""为后缀的URL。 Allow: .gif$ 允许抓取网页和gif格式图片。 Sitemap: 网站地图 告诉爬虫这个页面是网站地图。 对于robots.txt这里分享文件的写作方法。当搜索蜘蛛访问一个网站时,它会首先检查网站的根目录是否存在robots.txt,如果存在,搜索机器人将根据文件中的内容确定访问范围;如果文件不存在,所有搜索蜘蛛都可以访问网站上所有没有密码保护的页面。时代达信seo优化编辑提醒您,只有当您的网站包含不想被搜索引擎包含的内容时,您才需要使用它robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。


随便看看