久久精品视频18|18xxxx视频|欧美18xxxx|18xxxx中国|俄罗斯18xxxx|成人18禁|黄瓜视频18|污污污视频在线观看

幫助

屏蔽國外垃圾無用蜘蛛,防止大量抓取導致網站崩潰浪費帶寬

2024-12-13 09:34 技術文檔

最近發現(xian)一些(xie)國外垃(la)圾蜘蛛頻繁(fan)抓(zhua)我網站頁面,白(bai)浪費(fei)消(xiao)耗服務(wu)器性(xing)能。所(suo)以要屏蔽他們這些(xie)垃(la)圾蜘蛛抓(zhua)取(qu),這里介紹兩種方法一同操作進行屏蔽:


第一種方法:直(zhi)接在根目錄下robots.txt文件(jian)里面屏蔽掉相(xiang)關垃圾蜘蛛:


User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: hubspot

Disallow: /

User-agent: leiki

Disallow: /

User-agent: webmeup

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: googlebot-image

Disallow: /

User-agent: googlebot-mobile

Disallow: /

User-agent: yahoo-mmcrawler

Disallow: /

User-agent: yahoo-blogs/v3.9

Disallow: /

User-agent: Slurp

Disallow: /

User-agent: twiceler

Disallow: /


User-agent: AhrefsBot

Disallow: /

User-agent: psbot

Disallow: /

User-agent: YandexBot

Disallow: /


第二種方法,寶塔(ta)面(mian)板網站(zhan)設(she)置(zhi)——配置(zhi)文件(jian),將(jiang)需要屏(ping)蔽的蜘(zhi)蛛(zhu)寫進配置(zhi)文件(jian)代碼里:


#屏蔽垃圾蜘蛛

if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {

return 403;

}


第三種方法防火(huo)墻里加過濾規則    再來抓就送(song)你吃403!


常見的搜索引擎爬蟲


1、Googlebot(屏蔽(bi)!沒毛用)


Googlebot是谷歌的網絡(luo)爬(pa)蟲(chong)(chong),其(qi)UA標識為“(compatible;Googlebot/2.1;+//www.google.com/bot.html)”。對大部分網站,Googlebot應該是爬(pa)取最勤快的爬(pa)蟲(chong)(chong),能給優質博(bo)客帶來(lai)大量(liang)流量(liang)。


除了爬(pa)取網(wang)頁的(de)Googlebot,常見的(de)還有圖片(pian)爬(pa)蟲(chong)(chong)Googlebot-Image、移動廣告爬(pa)蟲(chong)(chong)Mediapartners-Google等。


2、Baiduspider


Baiduspider是百度的網頁爬蟲,中文站很常(chang)見(jian)。其UA標識為“(compatible;Baiduspider/2.0;+//www.baidu.com/search/spider.html)”。


除了網頁(ye)爬蟲,手機百度(du)爬蟲Baiduboxapp、渲染抓取Baiduspider-render等。


3、bingbot


bingbot是微軟(ruan)bing搜索的爬蟲,其UA標識為“(compatible;bingbot/2.0;+//www.bing.com/bingbot.htm)”。


自微軟推廣bing搜索品牌后(hou),微軟原來的爬蟲MSNBot越(yue)來越(yue)少見到了。


4、360Spider


360Spider是360搜索的(de)爬蟲,其UA標識(shi)為(wei)“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。


目前360搜(sou)索份額(e)較少,這個爬蟲不是(shi)很常見(jian)。


5、Sogou web spider


Sogou web spider是搜(sou)(sou)(sou)狗搜(sou)(sou)(sou)索(suo)的(de)網頁爬蟲,其UA標識為“Sogou web spider/4.0(+//www.sogou.com/docs/help/webmasters.htm#07)”。背靠騰訊,搜(sou)(sou)(sou)狗目前市場份額(e)在上升,因此其網絡(luo)爬蟲比較勤快,經常能看到。


訪(fang)問日志搜索Sogou,除了Sogou web spider,還常見SogouMSE、SogouMobileBrowser。這是搜狗手(shou)機瀏覽器的(de)UA標(biao)識,不是爬蟲。


6、YisouSpider


YisouSpider是(shi)(shi)神馬搜索的爬蟲,UA標識是(shi)(shi)“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。


神馬成立初期太(tai)瘋(feng)狂(kuang)抓取網頁導致一些小(xiao)網站崩(beng)潰而(er)惹(re)的(de)天怒(nu)人怨。隨著市(shi)場份額提升和數據完善,目前YisouSpider還算(suan)克(ke)制,不再瘋(feng)狂(kuang)抓取。


從(cong)名字上看,神(shen)馬(ma)搜(sou)(sou)(sou)索(suo)(suo)的(de)發音類似于宜搜(sou)(sou)(sou),但和專注小說搜(sou)(sou)(sou)索(suo)(suo)的(de)“宜搜(sou)(sou)(sou)(//easou.com/)”不是(shi)同一(yi)家(jia)公(gong)司。神(shen)馬(ma)搜(sou)(sou)(sou)索(suo)(suo)是(shi)UC合(he)并(bing)到(dao)阿里后推出的(de)移(yi)動搜(sou)(sou)(sou)索(suo)(suo)引擎,而宜搜(sou)(sou)(sou)在2G wap時代就已經名聲在外。


7、YandexBot(屏蔽(bi)!沒毛用)


YandexBot是(shi)俄(e)羅斯最大搜(sou)索引擎(qing)和(he)互聯網巨頭Yandex的網頁爬蟲,其UA標識是(shi)“(compatible;YandexBot/3.0;+//yandex.com/bots)”。


Yandex提供(gong)中(zhong)文界面和中(zhong)文搜索,也(ye)是少(shao)數(shu)目前能直接打開(kai)的(de)國(guo)外搜索引擎。隨著越來越多中(zhong)國(guo)人(ren)知道Yandex,YandexBot在中(zhong)文網(wang)站日(ri)志里(li)越來越常(chang)見。


8、DuckDuckGo


DuckDuckGo是(shi)DuckDuckGo的網(wang)頁(ye)爬蟲,其UA標識是(shi)“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。


DuckDuckGo主打隱(yin)私、安全(quan)、不監控用戶記錄,界面簡潔(jie),也(ye)提供中文搜索(suo)界面。


除了(le)上述搜索引(yin)擎爬蟲(chong),WordPress等提供feed訂(ding)閱的(de)(de)網站還常見newblur和feedly的(de)(de)訪問記錄(lu)。這兩個不是爬蟲(chong),而是訂(ding)閱軟件,也能(neng)給網站帶來流量。


常見的網絡惡意垃圾(ji)爬(pa)蟲(chong)蜘蛛


上面說的搜索引擎(qing)爬蟲(chong)能給網(wang)站(zhan)帶來流(liu)量,也有許多爬蟲(chong)除(chu)了增加(jia)服務器負擔,對網(wang)站(zhan)沒(mei)任(ren)何好處(chu),應該屏蔽掉。


1、MJ12Bot


MJ12Bot是(shi)英國著名SEO公司Majestic的網絡爬蟲(chong),其抓取網頁給需要做SEO的人用(yong),不會給網站帶來流量(liang)。


2、AhrefsBot


AhrefsBot是知名SEO公(gong)司(si)Ahrefs的網(wang)(wang)(wang)頁(ye)爬蟲(chong)。其同樣抓取網(wang)(wang)(wang)頁(ye)給SEO專業(ye)人士用,不會給網(wang)(wang)(wang)站帶(dai)來流量。


3、SEMrushBot


SEMrushBot也是(shi)SEO、營銷(xiao)公司的(de)網絡(luo)爬蟲。


4、DotBot


DotBot是Moz.com的網頁爬(pa)蟲,抓取數據(ju)用(yong)來支持(chi)Moz tools等工具。


5、MauiBot


MauiBot不同于(yu)其他爬蟲(chong),這個爬蟲(chong)連網站都沒(mei)有,UA只顯(xian)示一個郵(you)箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是這個看起來(lai)是個人爬蟲(chong),竟然遵(zun)循robots協議(yi),算得(de)上垃(la)圾爬蟲(chong)的一股清(qing)流。


6、MegaIndex.ru


這是(shi)一個(ge)提(ti)供反(fan)向鏈接查詢(xun)的網站的蜘蛛,因此(ci)它爬(pa)網站主(zhu)要(yao)是(shi)分析鏈接,并沒有什(shen)么作用(yong)。遵循robots協議。


7、BLEXBot


這個是(shi)webmeup下(xia)面(mian)的蜘蛛,作用是(shi)收集(ji)網(wang)站(zhan)上面(mian)的鏈接,對我們來說并沒(mei)有用處。遵循(xun)robots協議。


SemrushBot,這(zhe)是(shi)semrush下面的一(yi)個蜘(zhi)蛛,是(shi)一(yi)家做搜(sou)索引擎(qing)優化的公司,因(yin)此(ci)它抓取網頁的目的就(jiu)很明顯了。這(zhe)種蜘(zhi)蛛對網站沒有任何(he)用(yong)處,好(hao)在它還遵循robots協議,因(yin)此(ci)可以直接(jie)在robots屏蔽。


DotBot,這是moz旗下的,作用是提(ti)供seo服務的蜘(zhi)蛛,但是對我(wo)們并沒有什么用處。好(hao)在遵循robots協(xie)議,可以使用robots屏蔽(bi)


AhrefsBot,這(zhe)是ahrefs旗下的蜘蛛,作用(yong)是提供seo服務,對我們沒有任何用(yong)處,遵循robots協議。


MJ12bot,這是(shi)英國的一個搜索引擎(qing)蜘蛛,但是(shi)對中(zhong)文(wen)站站點就(jiu)沒有用(yong)處(chu)了,遵循robots協議。


MauiBot,這個不太(tai)清楚是(shi)什么(me),但是(shi)有時候很瘋狂,好在遵循robots協(xie)議。


MegaIndex.ru,這是一個提供反向鏈(lian)接查詢的網站(zhan)的蜘蛛(zhu),因此它爬網站(zhan)主(zhu)要(yao)是分析鏈(lian)接,并沒有什么作用。遵循robots協議(yi)。


BLEXBot,這個(ge)是webmeup下面(mian)(mian)的蜘(zhi)蛛,作用是收集(ji)網站上面(mian)(mian)的鏈接,對我(wo)們(men)來說并沒(mei)有用處。遵循robots協(xie)議


等等……………


主要是將(jiang)從(cong)網站日志中發現(xian)的(de)一些(xie)異常(chang)抓取的(de)蜘蛛(zhu)(zhu)屏蔽(bi)掉,我上面列(lie)舉的(de)是一些(xie)常(chang)見(jian)的(de)對(dui)我們網站沒啥用處的(de)蜘蛛(zhu)(zhu),將(jiang)這(zhe)些(xie)蜘蛛(zhu)(zhu)屏蔽(bi)掉就好了。


第二(er)種方法屏蔽的效(xiao)果:


谷歌(ge)一(yi)個ip來(lai)不(bu)了,沒毛(mao)用!一(yi)天來(lai)抓幾千次(ci),浪費寬(kuan)帶。



相關推薦

工作日 8:30-12:00 14:30-18:00
周六(liu)及部(bu)分節假(jia)日提供值班服(fu)務

易(yi)小優
轉人(ren)工 ×