很多網站優化人員都會遇到一個問題,在網站建好之后明明定期更新文章內容,然而就是不被搜索引擎收錄網站。遇到這樣的問題會讓很多優化人員無從下手,找不到正解。今天我們就帶著大家一起來找找網站優化網站不收錄的原因,這個答案你可能會在Robots協議里找到。
一、robots協議到底是什么?
先來說說什么是Robots協議,它也叫機器人協議或爬蟲協議,它并不是一個指令,而是一個文本,一般來說常見的文本編輯器都可以創建和編輯它,它具有非常強大的作用和功能。網站可以通過Robots協議告訴搜索引擎哪些網站頁面可以抓取,哪些網站頁面不能被抓取。
有的網站優化人員可能使用的建站系統自帶Robots.txt文件,有的壓根就沒有Robots.txt文件。這使得爬蟲無法對網站進行爬取索引。自然而然的不會收錄你的網站,所以大家在建站之后一定要記得查看是否存在在Robots.txt以及它的內容是否規范。
二、robots.txt文件設置要求
1、robots.txt文件必須放置在網站根目錄;
2、robots.txt文件名必須小寫。
根據上面兩點提示我們查看到絕大部分網站的robots.txt文件,如果出現無法訪問的現象,最大可能就是網站根目錄中沒有此文件。
三、常見語法的定義
User-agent:定義搜索引擎。如果想定義所有搜索引擎請用*;Disallow:禁止搜索引擎抓取,“/”表示根目錄,代表網站的所有目錄。Allow: 是允許的意思,這里只簡單的做一下描述,具體的操作寫法請參考百度文庫。
希望以上關于網站優化的robots協議的內容對大家有幫助,一般主流的搜索引擎都會遵守robots文件指令,Robots可以用來防止搜索引擎抓取那些我們不想被搜索引擎索引的內容。我們可以用它來保護一些隱私的內容,屏蔽死鏈接和無內容頁面和重復頁面。