屏蔽國外垃圾無用蜘蛛，防止大量抓取導致網站崩潰浪費帶寬

2024-12-13 09:34 技術文檔

最近發現(xian)一些(xie)國外垃(la)圾蜘蛛頻繁(fan)抓(zhua)我網站頁面，白(bai)浪費(fei)消(xiao)耗服務(wu)器性(xing)能。所(suo)以要屏蔽他們這些(xie)垃(la)圾蜘蛛抓(zhua)取(qu)，這里介紹兩種方法一同操作進行屏蔽：

第一種方法：直(zhi)接在根目錄下robots.txt文件(jian)里面屏蔽掉相(xiang)關垃圾蜘蛛：

User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: hubspot

Disallow: /

User-agent: leiki

Disallow: /

User-agent: webmeup

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: googlebot-image

Disallow: /

User-agent: googlebot-mobile

Disallow: /

User-agent: yahoo-mmcrawler

Disallow: /

User-agent: yahoo-blogs/v3.9

Disallow: /

User-agent: Slurp

Disallow: /

User-agent: twiceler

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: psbot

Disallow: /

User-agent: YandexBot

Disallow: /

第二種方法，寶塔(ta)面(mian)板網站(zhan)設(she)置(zhi)——配置(zhi)文件(jian)，將(jiang)需要屏(ping)蔽的蜘(zhi)蛛(zhu)寫進配置(zhi)文件(jian)代碼里：

#屏蔽垃圾蜘蛛

if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {

return 403;

}

第三種方法防火(huo)墻里加過濾規則再來抓就送(song)你吃403！

常見的搜索引擎爬蟲

1、Googlebot（屏蔽(bi)！沒毛用）

Googlebot是谷歌的網絡(luo)爬(pa)蟲(chong)(chong)，其(qi)UA標識為“(compatible;Googlebot/2.1;+//www.google.com/bot.html)”。對大部分網站，Googlebot應該是爬(pa)取最勤快的爬(pa)蟲(chong)(chong)，能給優質博(bo)客帶來(lai)大量(liang)流量(liang)。

除了爬(pa)取網(wang)頁的(de)Googlebot，常見的(de)還有圖片(pian)爬(pa)蟲(chong)(chong)Googlebot-Image、移動廣告爬(pa)蟲(chong)(chong)Mediapartners-Google等。

2、Baiduspider

Baiduspider是百度的網頁爬蟲，中文站很常(chang)見(jian)。其UA標識為“(compatible;Baiduspider/2.0;+//www.baidu.com/search/spider.html)”。

除了網頁(ye)爬蟲，手機百度(du)爬蟲Baiduboxapp、渲染抓取Baiduspider-render等。

3、bingbot

bingbot是微軟(ruan)bing搜索的爬蟲，其UA標識為“(compatible;bingbot/2.0;+//www.bing.com/bingbot.htm)”。

自微軟推廣bing搜索品牌后(hou)，微軟原來的爬蟲MSNBot越(yue)來越(yue)少見到了。

4、360Spider

360Spider是360搜索的(de)爬蟲，其UA標識(shi)為(wei)“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。

目前360搜(sou)索份額(e)較少，這個爬蟲不是(shi)很常見(jian)。

5、Sogou web spider

Sogou web spider是搜(sou)(sou)(sou)狗搜(sou)(sou)(sou)索(suo)的(de)網頁爬蟲，其UA標識為“Sogou web spider/4.0(+//www.sogou.com/docs/help/webmasters.htm#07)”。背靠騰訊，搜(sou)(sou)(sou)狗目前市場份額(e)在上升，因此其網絡(luo)爬蟲比較勤快，經常能看到。

訪(fang)問日志搜索Sogou，除了Sogou web spider，還常見SogouMSE、SogouMobileBrowser。這是搜狗手(shou)機瀏覽器的(de)UA標(biao)識，不是爬蟲。

6、YisouSpider

YisouSpider是(shi)(shi)神馬搜索的爬蟲，UA標識是(shi)(shi)“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。

神馬成立初期太(tai)瘋(feng)狂(kuang)抓取網頁導致一些小(xiao)網站崩(beng)潰而(er)惹(re)的(de)天怒(nu)人怨。隨著市(shi)場份額提升和數據完善，目前YisouSpider還算(suan)克(ke)制，不再瘋(feng)狂(kuang)抓取。

從(cong)名字上看，神(shen)馬(ma)搜(sou)(sou)(sou)索(suo)(suo)的(de)發音類似于宜搜(sou)(sou)(sou)，但和專注小說搜(sou)(sou)(sou)索(suo)(suo)的(de)“宜搜(sou)(sou)(sou)(//easou.com/)”不是(shi)同一(yi)家(jia)公(gong)司。神(shen)馬(ma)搜(sou)(sou)(sou)索(suo)(suo)是(shi)UC合(he)并(bing)到(dao)阿里后推出的(de)移(yi)動搜(sou)(sou)(sou)索(suo)(suo)引擎，而宜搜(sou)(sou)(sou)在2G wap時代就已經名聲在外。

7、YandexBot（屏蔽(bi)！沒毛用）

YandexBot是(shi)俄(e)羅斯最大搜(sou)索引擎(qing)和(he)互聯網巨頭Yandex的網頁爬蟲，其UA標識是(shi)“(compatible;YandexBot/3.0;+//yandex.com/bots)”。

Yandex提供(gong)中(zhong)文界面和中(zhong)文搜索，也(ye)是少(shao)數(shu)目前能直接打開(kai)的(de)國(guo)外搜索引擎。隨著越來越多中(zhong)國(guo)人(ren)知道Yandex，YandexBot在中(zhong)文網(wang)站日(ri)志里(li)越來越常(chang)見。

8、DuckDuckGo

DuckDuckGo是(shi)DuckDuckGo的網(wang)頁(ye)爬蟲，其UA標識是(shi)“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。

DuckDuckGo主打隱(yin)私、安全(quan)、不監控用戶記錄，界面簡潔(jie)，也(ye)提供中文搜索(suo)界面。

除了(le)上述搜索引(yin)擎爬蟲(chong)，WordPress等提供feed訂(ding)閱的(de)(de)網站還常見newblur和feedly的(de)(de)訪問記錄(lu)。這兩個不是爬蟲(chong)，而是訂(ding)閱軟件，也能(neng)給網站帶來流量。

常見的網絡惡意垃圾(ji)爬(pa)蟲(chong)蜘蛛

上面說的搜索引擎(qing)爬蟲(chong)能給網(wang)站(zhan)帶來流(liu)量，也有許多爬蟲(chong)除(chu)了增加(jia)服務器負擔，對網(wang)站(zhan)沒(mei)任(ren)何好處(chu)，應該屏蔽掉。

1、MJ12Bot

MJ12Bot是(shi)英國著名SEO公司Majestic的網絡爬蟲(chong)，其抓取網頁給需要做SEO的人用(yong)，不會給網站帶來流量(liang)。

2、AhrefsBot

AhrefsBot是知名SEO公(gong)司(si)Ahrefs的網(wang)(wang)(wang)頁(ye)爬蟲(chong)。其同樣抓取網(wang)(wang)(wang)頁(ye)給SEO專業(ye)人士用，不會給網(wang)(wang)(wang)站帶(dai)來流量。

3、SEMrushBot

SEMrushBot也是(shi)SEO、營銷(xiao)公司的(de)網絡(luo)爬蟲。

4、DotBot

DotBot是Moz.com的網頁爬(pa)蟲，抓取數據(ju)用(yong)來支持(chi)Moz tools等工具。

5、MauiBot

MauiBot不同于(yu)其他爬蟲(chong)，這個爬蟲(chong)連網站都沒(mei)有，UA只顯(xian)示一個郵(you)箱：”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是這個看起來(lai)是個人爬蟲(chong)，竟然遵(zun)循robots協議(yi)，算得(de)上垃(la)圾爬蟲(chong)的一股清(qing)流。

6、MegaIndex.ru

這是(shi)一個(ge)提(ti)供反(fan)向鏈接查詢(xun)的網站的蜘蛛，因此(ci)它爬(pa)網站主(zhu)要(yao)是(shi)分析鏈接，并沒有什(shen)么作用(yong)。遵循robots協議。

7、BLEXBot

這個是(shi)webmeup下(xia)面(mian)的蜘蛛，作用是(shi)收集(ji)網(wang)站(zhan)上面(mian)的鏈接，對我們來說并沒(mei)有用處。遵循(xun)robots協議。

SemrushBot，這(zhe)是(shi)semrush下面的一(yi)個蜘(zhi)蛛，是(shi)一(yi)家做搜(sou)索引擎(qing)優化的公司，因(yin)此(ci)它抓取網頁的目的就(jiu)很明顯了。這(zhe)種蜘(zhi)蛛對網站沒有任何(he)用(yong)處，好(hao)在它還遵循robots協議，因(yin)此(ci)可以直接(jie)在robots屏蔽。

DotBot,這是moz旗下的，作用是提(ti)供seo服務的蜘(zhi)蛛，但是對我(wo)們并沒有什么用處。好(hao)在遵循robots協(xie)議，可以使用robots屏蔽(bi)

AhrefsBot，這(zhe)是ahrefs旗下的蜘蛛，作用(yong)是提供seo服務，對我們沒有任何用(yong)處，遵循robots協議。

MJ12bot，這是(shi)英國的一個搜索引擎(qing)蜘蛛，但是(shi)對中(zhong)文(wen)站站點就(jiu)沒有用(yong)處(chu)了，遵循robots協議。

MauiBot，這個不太(tai)清楚是(shi)什么(me)，但是(shi)有時候很瘋狂，好在遵循robots協(xie)議。

MegaIndex.ru，這是一個提供反向鏈(lian)接查詢的網站(zhan)的蜘蛛(zhu)，因此它爬網站(zhan)主(zhu)要(yao)是分析鏈(lian)接，并沒有什么作用。遵循robots協議(yi)。

BLEXBot,這個(ge)是webmeup下面(mian)(mian)的蜘(zhi)蛛，作用是收集(ji)網站上面(mian)(mian)的鏈接，對我(wo)們(men)來說并沒(mei)有用處。遵循robots協(xie)議

等等……………

主要是將(jiang)從(cong)網站日志中發現(xian)的(de)一些(xie)異常(chang)抓取的(de)蜘蛛(zhu)(zhu)屏蔽(bi)掉，我上面列(lie)舉的(de)是一些(xie)常(chang)見(jian)的(de)對(dui)我們網站沒啥用處的(de)蜘蛛(zhu)(zhu)，將(jiang)這(zhe)些(xie)蜘蛛(zhu)(zhu)屏蔽(bi)掉就好了。

第二(er)種方法屏蔽的效(xiao)果：

谷歌(ge)一(yi)個ip來(lai)不(bu)了，沒毛(mao)用！一(yi)天來(lai)抓幾千次(ci)，浪費寬(kuan)帶。

久久精品视频18|18xxxx视频|欧美18xxxx|18xxxx中国|俄罗斯18xxxx|成人18禁|黄瓜视频18|污污污视频在线观看

幫助

屏蔽國外垃圾無用蜘蛛，防止大量抓取導致網站崩潰浪費帶寬

相關推薦

產品

服務

幫助

關于