- 相關推薦
提高網站在Google中的排名(二)
提高網站在Google中的排名(二)如何突出關鍵詞:面向主題(Theme)的關鍵詞匹配
Theme Engine正在逐步超過PR,成為結果排序中更主要的因素,可以比較一下以下現象:
為什么查“新聞”,“汽車”之類的文字,各種門戶網站的首頁不在第一位?要知道他們的頁面中都有相應頻道的鏈接文字的
一篇新聞頁面中,搜索引擎如何不通過模板匹配,自動將新聞的主體和頁面中的頁頭,欄目導航條,頁尾等部分的內容區分開的?
其實以上問題都可以歸結為網頁內容摘要的提取策略和關鍵詞在其中的命中:
首先將能夠描述一個頁面內容的分成以下幾種類型:
鏈入文字描述:inbound link text
http://www.searchenginedictionary.com/terms-inbound-link.shtml
HTML頁面標題:title 好標題一般會將頁面中最重要的關鍵詞放在最前面,比如:ABC-10型吸塵器 - XX家電城
HTML內容主體:content text
鏈出文字:outbound link text
如果按照以下規則:
一個頁面中關鍵詞命中權重:鏈入文字 > HTML標題文字 > HTML頁面主體內容 >> 出鏈文字,以上現象就比較好解釋了。
鏈入文字是頁面上看不見的,但鏈入文字對被鏈接頁面有巨大的作用:在現代搜索引擎在關鍵詞匹配的過程中,匹配的過程不只看當前頁面的內容摘要:很大程度上,不只看這個網頁自己說自己有什么內容,還要看別人如何鏈接時,如何描述你的網站別人怎么稱呼你,比你自己說自己更重要。。
比如查:“世界衛生組織”,返回結果中有http://www.who.int/ 而這個頁面中是沒有中文的,之所以能匹配上,是因為很多鏈接它的中文網站使用了:<a >世界衛生組織</a>,所以,這個頁面中不存在的中文關鍵詞也成為了頁面摘要的一部分。這樣一想,就可以知道鏈出鏈接的文字其實是為被鏈接的子頻道首頁或者內容詳情頁服務的。對自身頁面的關鍵詞密度只有負面的影響,這也是Google建議一個頁面中鏈接不要超過100個的原因:他根本不索引100個鏈接以后的內容。按照以上規則,搜索引擎將一篇新聞詳情頁中的新聞內容提取出來就是把頁面上所有帶HTTP鏈接的文字都去掉,就是新聞的內容部分了,更精確一些可以通過取最長文本段落等策略實現;而很多網站首頁或頻道首頁中幾乎全部都是鏈接,經過搜索引擎分析的結果就是:什么內容也沒有,能夠被命中的關鍵詞僅僅是別人鏈接你用的“網站首頁”和頻道標題Title中的站點名稱等的幾個關鍵詞,而頁面中其他的文字則遠遠不如相應子頻道和具體內容頁面的匹配度高,而搜索引擎能夠通過以上規則,讓用戶更快的直接定位到有具體內容的內容詳情頁面。因此希望通過一個首頁,盡可能多的命中所有希望推廣的關鍵詞是不可能的。讓網頁盡可能多的進入搜索引擎的索引,然后把握好整個網站的主題風格是非常重要的,讓網站的主題關鍵詞能夠比較均勻的按照金字塔模式分布到網站中可以參考:網站的主題金字塔設計 網站名稱(用戶通過1-2個抽象關鍵詞)
/ \
子頻道1 子頻道2 (用戶通過2-3個關鍵詞命中)
/ \ / \
產品1 產品2 文章1 文章2 (用戶通過3-4個關鍵詞命中:這種用戶最有價值)
不要空著標題:空著<title></title>無異于浪費了最有價值的一塊陣地;
傳統的頁面中,HTML頁面中會有類似以下的隱含信息,用于說明當前網頁的主要內容關鍵字:
<header>
<meta name="keyword" content="mp3 download music...">
</header>
后來由于這種人工添加關鍵詞的方式被濫用,大量網頁中為了提高被搜索引擎命中的概率,經常添加一些和實際網頁內容無關的熱門關鍵比如:“music mp3 download”等,所以新一代的搜索引擎已經不再關心頁面頭文件中的人工meta keyword聲明,而頁面標題在搜索引擎的關鍵詞的命中命中過程中往往有著更高的比重,如果一個關鍵詞在標題中命中會比在頁面中命中有更高的得分,從而在相應的搜索結果排名中更靠前。
標題長度和內容:不要過長,一般在40個字符以內,并充分突出關鍵詞的比重;
如果更長的標題搜索引擎一般會忽略掉,所以要盡可能將主要關鍵詞放在標題靠前的位置。省略掉不必要的形容詞吧,畢竟用戶主要通過名詞來找到需要的內容。標題內容:盡量用一些別人可以通過關鍵詞找到的字眼(也別太過頭,如果標題中的字眼超過1半內容中都沒有,有可能被搜索引擎排除出索引),因此基于web日志中來自其他搜索引擎的關鍵詞查詢統計非常必要。
如果網頁很多的話,盡量使用不同的網頁標題,爭取讓自己網站的內容更多的進入搜索引擎索引范圍;
因為搜索引擎會根據頁面內容的相似度把一些內容當成重復頁面排除出索引范圍;
http://www.chedong.com/phpMan.php是我的網站上的一個小應用:一個web界面的unix命令手冊(man page),在以前的設計中所有動態頁面使用的都是同樣的標題:"phpMan: man page /perldoc /info page web interface" ,Google索引了大約3000多個頁面,后來我將頁面標題改成了"phpMan: [命令名]"這樣的格式,比如:"phpMan: ls",這樣大部分動態頁面的標題就都不一樣了,一個月后Google從這個頁面入口索引了大約6000個頁面。因此,如果網站中很多網頁都使用相同的標題,比如:“新聞頻道”,“論壇”,這些頁面中很大一部分就會被排重機制忽略掉。
除了<title></title>外,還可以用<h1></h1>標題行突出內容主題,加強標題的效果;
在我的網站設計中:我會把用<h1>[標題]</h1>這樣的模板把標題突出顯示,而不是通過改變字體的方式突出標題。
其他網站設計提示
靜態鏈接:Blog網站另外一個優勢在于其網頁是靜態鏈接:動態網頁占到整個互聯網內容的90%以上。各個搜索引擎其實能夠表現的都只不過是互聯網的冰山一角(3-5%),不同的只是誰讓優質網頁排名靠前的策略更優秀而已:大部分搜索引擎都認為靜態鏈接的網頁是優質網頁,Google在優先抓取索引的網頁中70%以上是不帶參數鏈接的靜態網頁。而且即使同樣的內容,靜態網頁也會比動態網頁權重高:很容易理解:query?a=1&b=2這樣的鏈接由于參數順序顛倒的query?b=2&a=1完全相同。盡量使用靜態網頁:目前能夠動態網頁進行全面的索引還比較難,而即使是Google也更不會索引所有的內容,因此很少會對參數超過2個的動態網頁進行進一步的抓取和分析。以下是一個phpBB論壇頁面返回的HTTP頭信息:
HTTP/1.1 200 OK Date: Wed, 28 Jan 2004 12:58:54 GMT Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4 X-Powered-By: PHP/4.3.4 Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/; Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/; Content-Encoding: gzip Cache-Control: private, pre-check=0, post-check=0, max-age=0 Expires: 0 Pragma: no-cache Connection: close Content-Type: text/html
為了避免隱私問題:Googlebot可以通過對頁面http header中的session id和session cookie進行一些甄別,這樣很多需要認證信息的論壇內容就無法進入索引了。
總體上說Google喜歡新的,靜態的內容。因此無論從效率上講還是方便搜索引擎收錄:使用內容發布系統將網站內容發布成靜態網頁都是非常必要的,從某種程度上說google friendly = anonymous cache friendly。
比如http://www.chedong.com/phpMan.php/man/intro/3
http://www.chedong.com/phpMan.php?mode=man&;parameter=intro§ion=3這樣的鏈接更容易進入搜索引擎的索引。而且在URL中的命中也能突出關鍵詞。
能夠進入Google索引的頁面數量越多越好。用類似以下的腳本可以統計自己的網站被搜索引擎索引的情況。
#!/bin/sh YESTERDAY=`date -d yesterday +%Y%m%d` # for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d` LOG_FILE='/home/apache/logs/access_log' grep -i Googlebot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.googlebot.txt grep -i baiduspider $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.baiduspider.txt grep -i msnbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.msnbot.txt grep -i inktomi $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.inktomi.txt grep -i openbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort |uniq -c | sort -rn > spider/$YESTERDAY.openbot.txt
網站目錄結構要扁平,因為每深一級目錄,PAGERANK降低1-2個檔次。假設首頁是3,其子可能目錄就是1了,更深可能就無法列入評級范圍了。
表現和內容的分離:“綠色”網頁
網頁中的javascript和css盡可能和網頁分離,一方面提高代碼重用度(也方便頁面緩存),另外一方面,由于有效內容占網頁長度的百分比高,也能提高相關關鍵詞在頁面中的比重也增加了?傊瑧摴膭钭裱瓀3c的規范,使用更規范的XHTML和XML作為顯示格式便于內容更長時間的保存。
讓所有的頁面都有能夠快速入口:站點地圖,方便網頁爬蟲(spider)快速遍歷網站所有需要發布的內容。如果首頁就是用Flash或圖片進入的話,無異于將搜索引擎拒之門外,除了UI設計的用戶友好外,spider friendly也是非常重要的。
保持網站自身的健康:經常利用壞鏈檢查工具檢查網站中是否有死鏈。
保持網頁內容/鏈接的穩定性和持久性:在搜索引擎索引中網頁存在的歷史也是一個比較重要的因素,而且歷史比較久的網頁被鏈接的幾率越高。為了保證自己網頁能夠被比較持久的被其他網站的頁面引用,如果自己網頁中有鏈接更新時,最好能保留舊的頁面并做好鏈接轉向,以保持內容的連續性。要知道,把一個網站和內容在搜索引擎中的排名“培養”的很高是一件非常不容易的事情,誰都不希望好不容易自己的內容被別人找到了,點擊卻是“404 頁面不存在”吧,因此站點管理員對自身站點error.log的分析也是非常必要的。
文件類型因素:Google有對PDF, Word(Power Point, Excel), PS文檔的索引能力,由于這種文檔的內容比一般的HTML經過了更多的整理,學術價值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。因此,對于比較重要的文檔:技術白皮書,FAQ,安裝文檔等建議使用PDF PS等高級格式存取,這樣在搜索結果中也能獲得比較靠前的位置。
常常能發現門戶站點的一條新聞往往比其他站點的首頁排名還要靠前。因此一個站點總體PageRank提高了以后,往往自身一些并不重要的內容也會被同那些高PageRank的內容一起帶入被搜索引擎優先查詢的列表中。這樣經常造成很多大的開發站點的郵件列表歸檔往往比其他站點的首頁PageRank還要高。
【提高網站在Google中的排名二)】相關文章:
淺析Google Earth在旅游景點展示中的應用11-20
直放站在UMTS網絡規劃中的建模03-07
移動智能網中的呼叫前轉02-25
試論如何發揮模擬電站在課程改革中的作用03-28
高中美術課程中課堂效率的提高03-03
雙向CATV網中控制信令的傳送01-07
國際貿易中商務英語談判素質的提高03-19