最近發現(xian)一些(xie)國外垃(la)圾蜘蛛頻繁(fan)抓(zhua)我網站頁面,白(bai)浪費(fei)消(xiao)耗服務(wu)器性(xing)能。所(suo)以要屏蔽他們這些(xie)垃(la)圾蜘蛛抓(zhua)取(qu),這里介紹兩種方法一同操作進行屏蔽:
第一種方法:直(zhi)接在根目錄下robots.txt文件(jian)里面屏蔽掉相(xiang)關垃圾蜘蛛:
User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: hubspot
Disallow: /
User-agent: leiki
Disallow: /
User-agent: webmeup
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: twiceler
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: YandexBot
Disallow: /
第二種方法,寶塔(ta)面(mian)板網站(zhan)設(she)置(zhi)——配置(zhi)文件(jian),將(jiang)需要屏(ping)蔽的蜘(zhi)蛛(zhu)寫進配置(zhi)文件(jian)代碼里:
#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {
return 403;
}
第三種方法防火(huo)墻里加過濾規則 再來抓就送(song)你吃403!
常見的搜索引擎爬蟲
1、Googlebot(屏蔽(bi)!沒毛用)
Googlebot是谷歌的網絡(luo)爬(pa)蟲(chong)(chong),其(qi)UA標識為“(compatible;Googlebot/2.1;+//www.google.com/bot.html)”。對大部分網站,Googlebot應該是爬(pa)取最勤快的爬(pa)蟲(chong)(chong),能給優質博(bo)客帶來(lai)大量(liang)流量(liang)。
除了爬(pa)取網(wang)頁的(de)Googlebot,常見的(de)還有圖片(pian)爬(pa)蟲(chong)(chong)Googlebot-Image、移動廣告爬(pa)蟲(chong)(chong)Mediapartners-Google等。
2、Baiduspider
Baiduspider是百度的網頁爬蟲,中文站很常(chang)見(jian)。其UA標識為“(compatible;Baiduspider/2.0;+//www.baidu.com/search/spider.html)”。
除了網頁(ye)爬蟲,手機百度(du)爬蟲Baiduboxapp、渲染抓取Baiduspider-render等。
3、bingbot
bingbot是微軟(ruan)bing搜索的爬蟲,其UA標識為“(compatible;bingbot/2.0;+//www.bing.com/bingbot.htm)”。
自微軟推廣bing搜索品牌后(hou),微軟原來的爬蟲MSNBot越(yue)來越(yue)少見到了。
4、360Spider
360Spider是360搜索的(de)爬蟲,其UA標識(shi)為(wei)“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。
目前360搜(sou)索份額(e)較少,這個爬蟲不是(shi)很常見(jian)。
5、Sogou web spider
Sogou web spider是搜(sou)(sou)(sou)狗搜(sou)(sou)(sou)索(suo)的(de)網頁爬蟲,其UA標識為“Sogou web spider/4.0(+//www.sogou.com/docs/help/webmasters.htm#07)”。背靠騰訊,搜(sou)(sou)(sou)狗目前市場份額(e)在上升,因此其網絡(luo)爬蟲比較勤快,經常能看到。
訪(fang)問日志搜索Sogou,除了Sogou web spider,還常見SogouMSE、SogouMobileBrowser。這是搜狗手(shou)機瀏覽器的(de)UA標(biao)識,不是爬蟲。
6、YisouSpider
YisouSpider是(shi)(shi)神馬搜索的爬蟲,UA標識是(shi)(shi)“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。
神馬成立初期太(tai)瘋(feng)狂(kuang)抓取網頁導致一些小(xiao)網站崩(beng)潰而(er)惹(re)的(de)天怒(nu)人怨。隨著市(shi)場份額提升和數據完善,目前YisouSpider還算(suan)克(ke)制,不再瘋(feng)狂(kuang)抓取。
從(cong)名字上看,神(shen)馬(ma)搜(sou)(sou)(sou)索(suo)(suo)的(de)發音類似于宜搜(sou)(sou)(sou),但和專注小說搜(sou)(sou)(sou)索(suo)(suo)的(de)“宜搜(sou)(sou)(sou)(//easou.com/)”不是(shi)同一(yi)家(jia)公(gong)司。神(shen)馬(ma)搜(sou)(sou)(sou)索(suo)(suo)是(shi)UC合(he)并(bing)到(dao)阿里后推出的(de)移(yi)動搜(sou)(sou)(sou)索(suo)(suo)引擎,而宜搜(sou)(sou)(sou)在2G wap時代就已經名聲在外。
7、YandexBot(屏蔽(bi)!沒毛用)
YandexBot是(shi)俄(e)羅斯最大搜(sou)索引擎(qing)和(he)互聯網巨頭Yandex的網頁爬蟲,其UA標識是(shi)“(compatible;YandexBot/3.0;+//yandex.com/bots)”。
Yandex提供(gong)中(zhong)文界面和中(zhong)文搜索,也(ye)是少(shao)數(shu)目前能直接打開(kai)的(de)國(guo)外搜索引擎。隨著越來越多中(zhong)國(guo)人(ren)知道Yandex,YandexBot在中(zhong)文網(wang)站日(ri)志里(li)越來越常(chang)見。
8、DuckDuckGo
DuckDuckGo是(shi)DuckDuckGo的網(wang)頁(ye)爬蟲,其UA標識是(shi)“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。
DuckDuckGo主打隱(yin)私、安全(quan)、不監控用戶記錄,界面簡潔(jie),也(ye)提供中文搜索(suo)界面。
除了(le)上述搜索引(yin)擎爬蟲(chong),WordPress等提供feed訂(ding)閱的(de)(de)網站還常見newblur和feedly的(de)(de)訪問記錄(lu)。這兩個不是爬蟲(chong),而是訂(ding)閱軟件,也能(neng)給網站帶來流量。
常見的網絡惡意垃圾(ji)爬(pa)蟲(chong)蜘蛛
上面說的搜索引擎(qing)爬蟲(chong)能給網(wang)站(zhan)帶來流(liu)量,也有許多爬蟲(chong)除(chu)了增加(jia)服務器負擔,對網(wang)站(zhan)沒(mei)任(ren)何好處(chu),應該屏蔽掉。
1、MJ12Bot
MJ12Bot是(shi)英國著名SEO公司Majestic的網絡爬蟲(chong),其抓取網頁給需要做SEO的人用(yong),不會給網站帶來流量(liang)。
2、AhrefsBot
AhrefsBot是知名SEO公(gong)司(si)Ahrefs的網(wang)(wang)(wang)頁(ye)爬蟲(chong)。其同樣抓取網(wang)(wang)(wang)頁(ye)給SEO專業(ye)人士用,不會給網(wang)(wang)(wang)站帶(dai)來流量。
3、SEMrushBot
SEMrushBot也是(shi)SEO、營銷(xiao)公司的(de)網絡(luo)爬蟲。
4、DotBot
DotBot是Moz.com的網頁爬(pa)蟲,抓取數據(ju)用(yong)來支持(chi)Moz tools等工具。
5、MauiBot
MauiBot不同于(yu)其他爬蟲(chong),這個爬蟲(chong)連網站都沒(mei)有,UA只顯(xian)示一個郵(you)箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是這個看起來(lai)是個人爬蟲(chong),竟然遵(zun)循robots協議(yi),算得(de)上垃(la)圾爬蟲(chong)的一股清(qing)流。
6、MegaIndex.ru
這是(shi)一個(ge)提(ti)供反(fan)向鏈接查詢(xun)的網站的蜘蛛,因此(ci)它爬(pa)網站主(zhu)要(yao)是(shi)分析鏈接,并沒有什(shen)么作用(yong)。遵循robots協議。
7、BLEXBot
這個是(shi)webmeup下(xia)面(mian)的蜘蛛,作用是(shi)收集(ji)網(wang)站(zhan)上面(mian)的鏈接,對我們來說并沒(mei)有用處。遵循(xun)robots協議。
SemrushBot,這(zhe)是(shi)semrush下面的一(yi)個蜘(zhi)蛛,是(shi)一(yi)家做搜(sou)索引擎(qing)優化的公司,因(yin)此(ci)它抓取網頁的目的就(jiu)很明顯了。這(zhe)種蜘(zhi)蛛對網站沒有任何(he)用(yong)處,好(hao)在它還遵循robots協議,因(yin)此(ci)可以直接(jie)在robots屏蔽。
DotBot,這是moz旗下的,作用是提(ti)供seo服務的蜘(zhi)蛛,但是對我(wo)們并沒有什么用處。好(hao)在遵循robots協(xie)議,可以使用robots屏蔽(bi)
AhrefsBot,這(zhe)是ahrefs旗下的蜘蛛,作用(yong)是提供seo服務,對我們沒有任何用(yong)處,遵循robots協議。
MJ12bot,這是(shi)英國的一個搜索引擎(qing)蜘蛛,但是(shi)對中(zhong)文(wen)站站點就(jiu)沒有用(yong)處(chu)了,遵循robots協議。
MauiBot,這個不太(tai)清楚是(shi)什么(me),但是(shi)有時候很瘋狂,好在遵循robots協(xie)議。
MegaIndex.ru,這是一個提供反向鏈(lian)接查詢的網站(zhan)的蜘蛛(zhu),因此它爬網站(zhan)主(zhu)要(yao)是分析鏈(lian)接,并沒有什么作用。遵循robots協議(yi)。
BLEXBot,這個(ge)是webmeup下面(mian)(mian)的蜘(zhi)蛛,作用是收集(ji)網站上面(mian)(mian)的鏈接,對我(wo)們(men)來說并沒(mei)有用處。遵循robots協(xie)議
等等……………
主要是將(jiang)從(cong)網站日志中發現(xian)的(de)一些(xie)異常(chang)抓取的(de)蜘蛛(zhu)(zhu)屏蔽(bi)掉,我上面列(lie)舉的(de)是一些(xie)常(chang)見(jian)的(de)對(dui)我們網站沒啥用處的(de)蜘蛛(zhu)(zhu),將(jiang)這(zhe)些(xie)蜘蛛(zhu)(zhu)屏蔽(bi)掉就好了。
第二(er)種方法屏蔽的效(xiao)果:
谷歌(ge)一(yi)個ip來(lai)不(bu)了,沒毛(mao)用!一(yi)天來(lai)抓幾千次(ci),浪費寬(kuan)帶。