要知道在做SEO優化搜索引擎優化優化的過程傍邊,有時候是需要對搜索引擎蜘蛛進行屏蔽的,就是阻止對網站的某個當地進行抓取,那么我們應該如何屏蔽搜索引擎蜘蛛呢?下面我們一起來看一看具體的操作方法。
百度蜘蛛抓取我們的網站,希望我們的網頁能被包括在它的查找引擎中。將來,當用戶查找時,它會給我們帶來一定量的查找引擎優化流量。當然,我們不想讓查找引擎抓取一切東西。
因而,此時我們只希望可以抓取查找引擎查找到的內容。例如,用戶的隱私和背景信息不希望查找引擎被捕獲和包括。解決這些問題有兩種佳方法,如下所示:
robots協議文件屏蔽百度蜘蛛抓取
robots協議是放在網站根目錄下的協議文件,可以通過網址訪問,當百度蜘蛛抓取我們的網站時,它會先訪問這個文件。由于它告訴蜘蛛哪些能抓,哪些不能。
robots協議文件的設置比較簡單,可以通過User-Agent、Disallow、Allow這三個參數進行設置。
·User-Agent:對不同查找引擎的聲明;
·Disallow:不容許抓取的目錄或頁面;
·Allow:被容許抓取的目錄或頁面通常可以省掉或不寫,由于假設你不寫任何不能抓取的東西,它就可以被抓取。
下面我們來看一個示例,場景是我不希望百度抓取我網站一切的css文件,data目錄、搜索引擎優化-tag.html頁面
如上所述,user-agent聲明晰蜘蛛的名稱,這意味著它針對的是百度蜘蛛。以下內容無法獲取"/*。css",首要/指的是根目錄,這是您的域名。 *是代表任何內容的通配符。這意味著無法抓取以.css結束的一切文件。這是你自己的兩個經歷。邏輯是相同的。
假設要檢測前次設置的周游器文件,可以訪問本文《檢查robots是否正確的東西介紹》并獲取具體的東西來檢測您的設置。
通過403情況碼,束縛內容輸出,屏蔽蜘蛛抓取。
403情況代碼是http協議中的網頁回來情況代碼。當查找引擎遇到403情況代碼時,它知道這些頁面受權限束縛。我無法訪問它。例如,假設您需求登錄才能查看內容,查找引擎自身將無法登錄。假設您回來403,他也知道這是權限設置頁面,無法讀取內容。當然,它不會被包括在內。
回來403情況代碼時,應該有一個類似于404頁面的頁面。提示用戶或蜘蛛履行他們想要訪問的內容。兩者都是不可或缺的。您只需提示頁面,情況代碼回來200,這是百度蜘蛛的大量重復頁面。有403個情況代碼但回來不同的內容。這也不是很友好。
終究,關于機器人協議,我想補充一點:“現在,查找引擎將通過網頁的布局和布局來辨認網頁的用戶友好性。假設阻止css文件和js文件相關到布局,然后查找引擎我不知道你的網頁布局是好是壞。因而不主張阻止這些內容來自蜘蛛。
業務咨詢微信
今日已有165人獲取方案