robots.txt
Multi tool use
关于维基百科的robots.txt文件,请见MediaWiki上的robots.txt文件、中文维基百科上的robots.txt文件和MediaWiki:Robots.txt。
robots.txt (统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又稱元資料)。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符[1] [2] 。
其他的影响搜索引擎的行为的方法包括使用robots元数据:
< meta name = "robots" content = "noindex,nofollow" />
这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,有些则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。
目录
1 例子
2 非标准扩展协议
2.1 自动发现Sitemaps文件
2.2 Crawl-delay指令
2.3 Allow指令
3 替代
4 參考文獻
5 外部連結
例子
允许所有的机器人:
另一写法
仅允许特定的机器人:(name_spider用真实名字代替)
User-agent: name_spider
Allow:
拦截所有的机器人:
User-agent: *
Disallow: /
禁止所有机器人访问特定目录:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):
User-agent: BadBot
Disallow: /private/
禁止所有机器人访问特定文件类型[2] :
User-agent: *
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
非标准扩展协议
自动发现Sitemaps文件
Sitemap
指令被几大搜索引擎支持(包括Google、Yahoo、Bing和Ask),指定了网站Sitemaps文件的位置。Sitemaps文件包含了网站页面所在的URL的一个列表。Sitemap
指令并不受User-agent
指令的限制,所以它可以放在robots.txt文件中的任意位置。[3]
唯一要注意的就是要使用网站地图指令,<sitemap_location>,并将URL的"location"值换成网站地图的地址,例如,下面就是一个网站地图指令的例子:
Sitemap: <http://www.example.com/sitemap.xml>
如何编写Sitemaps文件,请参考sitemaps.org(英文) 上的说明。
Crawl-delay指令
几大抓取工具支持Crawl-delay
参数,设置为多少秒,以等待同服务器之间连续请求:[4] [5]
User-agent: *
Crawl-delay: 10
Allow指令
一些大的Crawlers支持一项Allow指令,可以抵消先前Disallow指令。比如Googlebot。[6]
替代
雖然robots.txt是最為廣泛接受的方法,但也可以與robots META標籤一起使用。robots META標籤主要是針對一個獨立的頁面設定,與其他的META標籤(如使用的語言、頁面的描述、關鍵詞等)一樣,robots META標籤也是放在頁面的HEAD標籤中,專門用來告訴搜索引擎robots如何抓取該頁的內容。註
< head >
< meta name = "robots" content = "noindex,nofollow" />
</ head >
參考文獻
^ 使用robots.txt文件阻止或删除网页 (HTML) . Google网站站长工具帮助. [2012-10-16 ] .
^ 2.0 2.1 完全指南:如何写好WordPress博客的robots.txt文件 (HTML) . The Observing Mind. [2013-02-14 ] .
^ Jerri L.Ledord著马煜译. 搜索引擎优化宝典. : 257.
^ How can I reduce the number of requests you make on my web site? (HTML) . Yahoo! Slurp. [2007-02-08 ] (英语) .
^ MSNBot is crawling a site too frequently. Troubleshoot issues with MSNBot and site crawling. [2007-02-08 ] . (原始内容 (HTML) 存档于2007-02-20) (英语) .
^ 如何拦截Googlebot(谷歌网站站长工具帮助)(简体中文)
外部連結
搜尋引擎最佳化
排除标准
robots.txt · Meta tags · nofollow
相关营销主题
网络营销 · 電子郵件行銷 · 顯示廣告營銷 · 網站分析
搜尋引擎行銷和相关主题
搜尋引擎行銷 · 社交媒體優化 · Online identity management · 付費收錄 · 每点击付费(PPC) · Google轟炸
搜索引擎垃圾
Spamdexing · Web scraping · Scraper site · Link farm · Free for all linking
链接
Methods of website linking · 友情链接 · 反向链接
其他
Geotargeting · Human search engine · 停用詞 · Poison words · 內容農場
JlGCSQXU7IL,pTj,6PbdnOi5EZOGbD 1Y 6
Popular posts from this blog
body.skin-minerva .mw-parser-output table.infobox caption{text-align:center} GameSpot 戰地風雲:惡名昭彰2在Gamespot的評論 网站类型 新聞 持有者 CBS 创始人 Pete Deemer Vince Broady Jon Epstein 网站 http://www.gamespot.com/ 注册 Optional (free and paid) 推出时间 1996年5月1日 [1] GameSpot (中国大陆:游戏基地),於1996年5月由Pete Deemer和Vince Broady創立,是一個提供新聞、評論、預告片、下載及其他的相關資訊的電子遊戲網站。GameSpot被一間後來被CNET收購的企業ZDNet所收購。根據Alexa,GameSpot.com是200個網路擁擠最嚴重的網站之一。 除了由GameSpot員工創作的內容,網站還允許用戶寫評論、網誌、之後在網路論壇分享。一些在CNET旗下的GameFAQs分享。 2004年, GameSpot被Spike TV的觀眾選上「電子遊戲賞節目」贏得「最傑出遊戲網站。 [2] 其他的遊戲網站還有IGN、1UP.com、GameSpy是它最大的競爭對手。2008年,根據Compete.com的統計,「gamespot.com」吸引了最少6000萬人的點擊率。 [3] GameSpot的主頁鏈結了到最近新聞、評論、預告、和一些有關遊戲機的入口:Wii、任天堂DS、電腦遊戲、Xbox 360、PSP、PlayStation 2、PlayStation 3。它還有一列「最受歡迎遊戲名單」,還有給用戶快速獲得遊戲資訊的搜尋器。GameSpot 還包括一些小範圍的遊戲機:任天堂64、GameCube、Game Boy Color、Game Boy Advance、Xbox、PlayStation、SEGA Saturn、Dreamcast、Neo Geo Pocket Color、N-Gage、手機遊戲。 目录 1 歷史 1.1 國際歷史 1.2 著名的員工 2 評論和分...
body.skin-minerva .mw-parser-output table.infobox caption{text-align:center} 日野市 日野市 日文轉寫 • 日文 日野市 • 平假名 ひのし • 罗马字 Hino-shi 金剛寺(關東三十六不動尊靈場第9號)的不動堂 市旗 徽章 日野市在東京都的位置 日野市 日野市在日本的位置 坐标: 35°40′17″N 139°23′42″E / 35.6714°N 139.395°E / 35.6714; 139.395 国家 日本 地方 關東地方 都道府縣 東京都 接鄰行政區 府中市、國立市、立川市、昭島市、八王子市、多摩市 政府 • 市長 大坪冬彦 面积 • 总计 27.53 平方公里(10.63 平方英里) 人口 (2014年12月1日) • 總計 183,323 • 密度 6,660/平方公里(17,200/平方英里) 象徵 • 市樹 樫 • 市花 菊花 • 市鳥 普通翠鳥 时区 日本標準時間 (UTC+9) 地方公共團體編號 13212-8 邮政编码 〒 191-8686 市役所地址 日野市神明一丁目12番1號 電話號碼 +81-42-585-1111 法人編號 1000020132128 網站 http://www.city.hino.lg.jp/ 人口:日野市官方網頁 日野市 (日语: 日野市 / ひのし Hino shi * / ? )為一位于東京都(不含島嶼部分)中央地帶的城市。從東京站乘坐中央線特別快速列車45分鐘即可到該市。面積27.53km²。1963年(昭和38年)11月3日,該市開始實行市制,為全日本第559個市。汽車企業日野自動車的總部位於這裡。 往東京都特別區部的通勤率為20.9%,往八王子市的通勤率為12.0%(平成22年國勢調査)。 目录 1 概要 ...
body.skin-minerva .mw-parser-output table.infobox caption{text-align:center} 图-95 Ту–95 北约代号:熊(Bear) 一架在安格斯空军基地的图-95MS 概觀 類型 战略轰炸机 代號 北约代号: Bear (熊) 乘員 7名 駕駛員2名,機尾炮手1名,其他人員4名 首飛 1952年11月12日 服役 1956年 設計 圖波列夫設計局 產量 超过500架 現況 现役 主要用戶 蘇聯 俄羅斯 衍生機型 图-114、图-119、Tu-95 技术数据 長度 49.50米(162呎5吋) 翼展 51.10米(167呎8吋) 高度 12.12米(39呎9吋) 翼面積 310平方米(3,330平方呎) 空重 90,000公斤(198,000磅) 最大起飛重量 188,000公斤(414,500磅) 發動機 4具库兹涅佐夫NK-12MV型渦輪螺旋槳發動機 功率 4×11,000千瓦(14,800馬力) 性能數據 最大速度 925公里/時(500節,575哩/時) 爬升率 10米/秒(2,000呎/分) 最大升限 12,000米(39,000呎) 最大航程 15,000公里(8,100海浬,9,400哩) 翼負荷 606公斤/平方米(124磅/平方呎) 推重比 235 W/公斤(0.143馬力/磅) 武器装备 機炮 1具/2具AM-23型23公釐雷達控制機砲(機尾) 飛彈 空对地导弹: Kh-20、Kh-22 Kh-26、Kh-55 炸彈 60枚FAB-250炸彈,或 30枚FAB-500炸彈。 其他 载弹量(包括飞弹):最多15,000公斤(33,000磅) Tu-95熊式MR型機 图-95 (俄语: Ту–95 , 英语: Tu-95 ),北約代號: Bear ( 熊 ),是蘇聯圖波列夫設計局所研製,是全世界唯一服役的大型四渦輪螺旋槳發動機...