當百(bai)度(du)(du)蜘蛛(zhu)抓取(qu)某一個URL的(de)(de)時候,在HTTP頭中帶的(de)(de)Referer字段。請(qing)注意,這(zhe)個定義和百(bai)度(du)(du)最近聲(sheng)明去除(chu)Referer中關鍵詞數據沒有任何關系(xi)。這(zhe)次講的(de)(de)是(shi)spider發(fa)起(qi)的(de)(de)HTTP請(qing)求(qiu),百(bai)度(du)(du)而去除(chu)的(de)(de)是(shi)用戶發(fa)起(qi)的(de)(de)。如果百(bai)度(du)(du)蜘蛛(zhu)抓取(qu)百(bai)度(du)(du)首頁的(de)(de)logo,會發(fa)起(qi)這(zhe)樣的(de)(de)請(qing)求(qiu):
上面(mian)Referer字(zi)(zi)段很明確(que)的(de)表(biao)示了(le)他是從www.baidu.com這個頁面(mian)上發現并(bing)抓取(qu)了(le)www.baidu.com/img/bd_logo1.png。而大家在服(fu)務器訪問日志中也應該能看到相應的(de)記錄。目前(qian)發現只有當百度抓取(qu)一個網頁的(de)同時(shi),又抓取(qu)了(le)網頁中的(de):img、js和css才會帶上referer字(zi)(zi)段。這部分額外的(de)抓取(qu)量,應該不會占(zhan)用百度分配的(de)抓取(qu)配額,屬(shu)于“買1送(song)1”。
如果(guo)你(ni)(ni)發(fa)現(xian)有一批(pi)URL(僅限于img,js,css)報錯(4xx或者5xx),但(dan)是一直找不到入口在哪,也就是說你(ni)(ni)不明(ming)白百度蜘蛛是從哪里發(fa)現(xian)這(zhe)些錯誤(wu)URL的。這(zhe)個字段可(ke)以幫助你(ni)(ni)迅(xun)速定位(wei)。
比(bi)如我們的(de)(de)SEO日志分析(xi)系統(tong)中(zhong)可(ke)以(yi)看(kan)到(dao),符(fu)合下面這種URL Pattern的(de)(de)路徑(jing)每(mei)天(tian)有6萬到(dao)10萬的(de)(de)抓取而(er)且全部報404。
從發現問(wen)題(ti)至今過了(le)1個月,查遍整個網站我也沒(mei)找到入(ru)口。今天偶然仔(zi)細查了(le)一下日(ri)志,想起了(le)百度蜘蛛的(de)referer,馬上就(jiu)能定(ding)位問(wen)題(ti)了(le)。這些(xie)404的(de)URL來自于一套(tao)沒(mei)人(ren)維護也沒(mei)人(ren)關注的(de)頁面(往往是這樣)。收錄流量都(dou)不錯。由于最近公司圖片(pian)系統更新,圖片(pian)的(de)URL全(quan)部更改了(le),但這套(tao)頁面并沒(mei)有跟著(zhu)更新。
iis請在這里(li)勾選“cs(Referer)”:
apache請(qing)參考:
apache log配置“Combined Log Format”章節(jie)
apache log配置(zhi)的官方(fang)鏈接
Nginx請參(can)考(kao):
nginx log配置
nginx log配置的官方鏈接
· 很多SEO問題(ti)并不(bu)是立即致(zhi)命的,所以沒有及(ji)時(shi)解決。流(liu)量就像(xiang)螞蟻啃大象一(yi)樣一(yi)點(dian)一(yi)點(dian)啃掉(diao)了(le)。
· 系統性的知識積累還是會(hui)在關鍵時(shi)刻發揮作用的。
· 感(gan)謝飛鷹對本文的修正。