首先我們得要知道robots文件時干什么的?存放的位置在哪里?
robots文件主要是告訴搜素引擎,網站哪些頁面可以抓取,哪些頁面拒絕抓取,下面我們看下幾個截圖!
京東牛B吧,拒絕了360,一淘網,
disallow的主要作用是拒絕某些指定的搜索引擎抓取我們不想讓他看見的頁面,作為企業站的我們肯定是希望搜索引擎來抓取我們那么這個disallow到底有什么具體應用呢,其實我們可以用disallow拒絕404錯誤的地址頁面或者重復的頁面!
User-agent: * (聲明禁止所有的搜索引擎抓取以下內容)
Disallow:/blog/(禁止網站blog欄目下所有的頁面。比如說:/blog/123.html)
Disallow:/api(比如說:/apifsdfds/123.html也會被屏蔽。)
Disallow:*?*(只要你的路徑里面帶有問號的路徑,那么這條路徑將會被屏蔽。比如說:http://xxxxx/?expert/default.html將會被屏蔽。)
Disallow:/*.php$(意思是以.php結尾的路徑全部屏蔽掉。)
Sitemap:http://xxx.com/sitemap.html 網站地圖 告訴爬蟲這個頁面是網站地圖
User-agent: * 允許訪問所有
Disallow: / 拒絕所有
Allow: /tmp 這里定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
讓您知道如何利用互聯網找到創新營銷模式、找到高質量的目標客戶、挖掘有獨特賣點的產品、讓你快速突破市場困局
對任何企業而言,電子商務的意義決不是僅僅建立一個網站來宣傳自己,也不是僅僅>
查看詳情目前許多企業建立了網站,但是或是因為沒有能力開展網絡營銷活動或是沒有>
查看詳情由于教育培訓業務流程比較特殊,不同于一般的產品銷售。因此普通的客戶管理系>
查看詳情結合食品企業行業的特點,我們認為,食品公司網站定位應該是以展示食品公司的企>
查看詳情數碼、電器行業網站建設的總體需求 數碼、電器行業網站建設大都以界面>
查看詳情對于金融行業來說,其客戶群是非常廣泛,不僅包括內部員工,同時也包括外部用戶和>
查看詳情