- 相關推薦
Web結構挖掘在電子商務網站結構優化中的應用
[摘要] 本文概述了Web結構挖掘技術并描述了其常見算法。針對Web結構挖掘算法,提出了進步網站結構公道性的對策。使用戶通過優化網站結構來獲取更多有效客戶,擴大網站影響力,從而提升網站價值。[關鍵詞] Web結構挖掘 網站結構 超鏈接 PageRank HITS
一、前言
網站的推廣對電子商務網站而言尤為重要。網站在常用搜索引擎上的排名會直接影響到網站的推廣和網站的運營效果。因網站的結構不同,即使內容相同,外觀相同的網站,在常用搜索引擎中的排名也會不同。網站結構是否公道會影響到搜索引擎在網站頁面上抓取的結果,從而影響到網站的排名。在實際應用中,常使用PR(Page Rank)值來判定網站結構是否公道, PR值越高說明網站結構越公道,搜索引擎就會收錄該網站更多的頁面,為網站帶來更多的流量。因此,進步網站結構的公道性,獲取更高的PR值就顯得尤為重要。只有用網站結構優化的理念往設計網站,才有可能設計一個成功的網站。基于Web的數據挖掘技術中的Web結構挖掘( Web Structure Mining)則是判定網站結構是否公道的一個有效方法。使用Web結構挖掘方法可以進步網站結構的公道性,增加網站的PR值,擴大網站的流量。
二、Web結構挖掘的概念
基于Web的數據挖掘是指使用數據挖掘技術在Web數據中發現潛伏的、有用的模式或信息;赪eb的數據挖掘一般可以分為三類:Web內容挖掘(Web Content Mining)、 Web結構挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 結構挖掘是對Web 的鏈接結構進行分析, 以對超鏈接分析來評估Web 資源, 從而發現有用模式, 進步搜索質量及進步網站被抓取的可能性。Web結構包括不同網頁之間的超鏈接結構和網頁內部用HTML,XML表示的樹形結構,以及文檔URL中的目錄路徑結構等。Web頁面之間的鏈接結構中包含了很多有用的信息,Web結構挖掘是從Web結構中推導知識,即對Web文檔的結構進行挖掘,挖掘Web潛伏的鏈接結構模式,通過分析網頁間鏈接數目及對象來建立網站自身的鏈接結構模式。
Web結構挖掘的基本思想是將Web看成是一個巨大的以Web頁面為節點、頁面之間超鏈接為有向邊所構成的一個網狀結構的有向圖,然后利用圖論對Web的拓撲結構進行分析,從而確定其網站結構的公道性。
Web結構挖掘的算法一般可分為查詢相關算法和查詢無關算法兩類。HITS( Hypertext Induced Topic Search)和PageRank分別是查詢相關算法和查詢無關算法的代表。這些算法已經在實際的系統中實現和使用,并且取得了良好的效果。
三、Web結構挖掘算法描述
基于超鏈接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些學者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。對超鏈接進行挖掘的兩個典型的算法是:PageRank算法及HITS算法。
1.PageRank算法
PageRank算法是Web超鏈接結構分析中最成功的代表之一,該算法是評價網頁權威性的一種重要工具。Google、Yahoo、Baidu等都是基于該算法的搜索引擎。PageRank算法基于2個條件,一是若網頁A被多次引用,則A重要;若 A被重要網頁B引用,則A重要;B的重要性被均勻的傳遞到它所引用的網頁。二是若用戶訪問網頁A,然后跟隨A的導出鏈接向后瀏覽網頁B而不退回A,那么瀏覽B的概率就是B的PageRank值。
PageRank在具體實現時會忽略掉頁面的文本和其他內容,只考慮頁面間的超鏈接。但由于網頁的鏈接范圍領域很廣,鏈接的頁面價值參差不齊,所以僅以簡單的鏈接數目來判定網頁的重要性是不真實客觀的,所以其他研究者對PageRank算法提出了改進。改進的PageRank算法不僅考慮了網頁引用數目,還根據頁面的導進鏈接的權重來計算頁面的重要性。頁面導進鏈接的權重由鏈接提供頁面的重要性所決定,即當前頁面的重要性主要由其他頁面的重要性來決定,PageRank算法就是從鏈接結構中獲取網頁的重要性。
簡單PageRank算法描述如下:
PR(A) = (1-d) / N d (PR(T1)/C(T1) ... PR(Tn)/C(Tn))
其中:PR(A):頁面A的PR值,
PR(Ti):頁面Ti的PR值,頁面Ti鏈向頁面A
C(Ti):頁面Ti鏈出的鏈接數目
d:阻尼系數,取值在0-1之間
N:互聯網上所有網頁的數目
由此可見,PageRank算法不以站點排序,頁面PR值由獨立的頁面決定。頁面的PR值由鏈向它的頁面的PR值決定,但每個鏈進頁面的貢獻值是不同的。假如Ti頁面中鏈出越多,它對當前頁面A的貢獻就越小。A的鏈進頁面越多,其PR值也越高。阻尼系數的使用,減少了其他頁面對當前頁面A的排序貢獻。所有頁面的PR值形成了一個概率分布,所有頁面的PR值之和為1。
簡單PageRank算法也可以用矩陣來描述,設T為一個矩陣,T的行和列對應頁面集的頁面。PageRank的算法是將T的行和列互換后得到的矩陣A。為了將各列矢量的總和變成1(全概率),把各個列矢量除以各自的鏈接數(非零要素數), 即假如網頁i有指向網頁j的一個鏈接,則Aij=1/Ni,否則Aij=0,就形成了一個 “推移概率行列”,各個行矢量表示頁面間的推移概率。由T顛倒得到A的理由是,PageRank 并非重視“鏈接到多少地方”而是重視“被多少地方鏈接”。PR值的計算,就是求屬于這個推移概率行列最大特性值的固有矢量。
2.HITS算法
HITS算法綜合權衡了查詢內容與頁面鏈接的關系。HITS算法以為網頁的重要性依靠于用戶提出的查詢請求。HITS算法通過兩個評價權值——內容權威度(Authority)和鏈接權威度(Hub)來對網頁質量進行評估。內容權威度與網頁自身直接提供內容信息的質量相關,被越多網頁所引用的網頁,其內容權威度越高;鏈接權威度與網頁提供的超鏈接頁面的質量相關,引用越多高質量頁面的網頁,其鏈接權威度越高。HITS算法以為對每一個網頁應該將其內容權威度和鏈接權威度分開來考慮,在對網頁內容權威度做出評價的基礎上再對頁面的鏈接權威度進行評價,然后給出該頁面的綜合評價。
HITS算法是一個“迭代—收斂”的過程,在獲取了一個與查詢主題相關的返回頁面根集合(Root Set)S后,根據S中的頁面的鏈接關系再向集合S中擴充與S中頁面相鏈接的頁面, 將S擴展成一個更大的基礎集合(Base Set)T?蓪看作一個二分有向圖SG=(V1,V2,E),其中:頂點集Vl:T中的Hub網頁集;頂點集V2:T中的Authority網頁集;邊集E: Vl中的網頁到V2中的網頁的超鏈接。對V1中的任一個頂點v,用h(v)表示網頁v的Hub值,對V2中的頂點u,用a(u)表示網頁的Authority值。開始時h(v)=a(u)=1,對u執行I操縱修改它的a(u),對v執行O操縱修改它的h(v),然后規范化a(u),h(v),如此不斷的重復計算下面的操縱I,O,直到a(u),h(v)收斂。
I 操縱:(1)
O操縱:(2)
每次迭代后需要對a(u),h(v)進行規范化處理:
式(1)反映了若一個網頁由很多好的Hub指向,則其權威值會相應增加(即權威值增加為所有指向它的網頁的現有Hub值之和)。式(2)反映了若一個網頁指向很多好的權威頁,則Hub值也會相應增加(即Hub值增加為該網頁鏈接的所有網頁的權威值之和)。HITS算法輸出一組具有較大Hub值的網頁和具有較大權威值的網頁。
HITS算法存在的主要題目:
(1)實際應用中,由S天生T的時間開銷很昂貴;
(2)站點內部網頁在權威度數值上可相互加強;
(3)網頁中一些無關的鏈接影響A,H值的計算;
(4)存在與查詢主題無關的網頁即主題漂移現象。
【Web結構挖掘在電子商務網站結構優化中的應用】相關文章:
Web數據挖掘在電子商務中的應用.03-21
Web數據挖掘在電子商務中的應用研究03-07
Web。玻凹夹g在電子商務中的應用03-21
數據挖掘技術在電子商務網站中的應用03-28
論資本結構優化目標與資本結構優化03-01
Web挖掘在網絡營銷中的應用研究03-23
優化課堂結構03-19
ERP實施中企業組織結構優化問題03-18