我們要學(xué)會(huì)如何分析網(wǎng)站日志,通過網(wǎng)站日志文件我們可以很清楚的看到有哪些搜索引擎蜘蛛光臨我們的網(wǎng)站,蜘蛛都爬取了哪些目錄以及通過日志我們還可以發(fā)現(xiàn)網(wǎng)站表面上看不到的問題,如404等,網(wǎng)站默認(rèn)是允許所有蜘蛛進(jìn)行抓取,大家可以通過根目錄下的robots.txt文件來控制蜘蛛的抓取目錄以及允許哪些蜘蛛過來,這里就robots.txt文件怎么寫就詳細(xì)說了,北京匯仁智杰網(wǎng)絡(luò)科技有限公司的權(quán)威講師就為大家簡(jiǎn)單介紹一下如何分析網(wǎng)站日志:
1、各搜索引擎抓取本站的情況:
每個(gè)搜索引擎都有自己的蜘蛛名稱(機(jī)器人),通過網(wǎng)站日志可以看到哪些搜索引擎來光臨自己的網(wǎng)站,爬取了哪些目錄,以及蜘蛛過來的時(shí)間等,如百度蜘蛛是Baiduspider,我么可以Ctrl+F查找一下,查看百度是什么時(shí)間過來,抓取了哪些頁(yè)面,通過查看蜘蛛爬取目錄或頁(yè)面的頻率我們還能知道哪個(gè)目錄或頁(yè)面最吸引蜘蛛。
2、網(wǎng)站目錄抓取和收錄情況
一般網(wǎng)站的結(jié)構(gòu)是樹形或扁平結(jié)構(gòu),蜘蛛按照網(wǎng)站結(jié)構(gòu)目錄一層一層的抓取是合理的,如果發(fā)現(xiàn)某個(gè)目錄爬取頻率比較高,但是收錄的內(nèi)容少,這時(shí)候就要注意這個(gè)目錄下頁(yè)面(內(nèi)容)的質(zhì)量了,就算寫不了原創(chuàng),也要注意深度偽原創(chuàng),千萬不要大量采集。
3、頁(yè)面的抓取時(shí)間
通過網(wǎng)站日志可以分析每個(gè)頁(yè)面的抓取次數(shù)和抓取時(shí)間,從而了解蜘蛛的喜好和抓取規(guī)律,包括哪個(gè)時(shí)間點(diǎn)來的比較頻繁,如果有新頁(yè)面想要搜索引擎盡快收錄,我們可以在搜索引擎蜘蛛爬取最頻繁的頁(yè)面上(如首頁(yè))加入新頁(yè)面的入口,而且最好在蜘蛛來的最頻繁的那個(gè)時(shí)間點(diǎn)之前添加好新的內(nèi)容。
4、頁(yè)面狀態(tài)碼
http狀態(tài)碼,SEO常見的有301,302和404,蜘蛛每爬取頁(yè)面都會(huì)返回一個(gè)狀態(tài)碼,如果是200代表正常,如果是301說明這個(gè)頁(yè)面是跳轉(zhuǎn)頁(yè)面,如果是302代表臨時(shí)跳轉(zhuǎn),最重要的是404錯(cuò)誤碼,如果發(fā)現(xiàn)某個(gè)抓取返回的是404,我們要趕快診斷一下說明原因返回404(誤刪還是移走了),網(wǎng)站最好都設(shè)置一個(gè)404的頁(yè)面,這樣才對(duì)蜘蛛顯得友好,遇到404的頁(yè)面鏈接,百度站長(zhǎng)工具有提交死鏈的工具,也去提交一下,讓百度知道并處理。
其實(shí)分析網(wǎng)站日志很簡(jiǎn)單,看一遍就知道規(guī)律了,ip+時(shí)間+蜘蛛名+返回碼+抓取目錄,一條記錄就這么多內(nèi)容,沒什么繁雜看不懂的。