數(shù)據(jù)挖掘技術在Web信息檢索中的應用研究論文
[摘要]將數(shù)據(jù)挖掘技術應用到Web信息檢索中,可以使網(wǎng)絡信息檢索更加準確化和智能化。介紹了Web數(shù)據(jù)挖掘的概念,分析了Web數(shù)據(jù)挖掘在Web信息檢索中的應用,最后對Web信息檢索未來發(fā)展進行了展望。
[關鍵詞]數(shù)據(jù)挖掘;Web信息檢索;搜索引擎
[中圖分類號]P209[文獻標志碼]A[文章編號]2096-0603(2017)29-0033-01
Web現(xiàn)已成為一個巨大的知識庫、信息庫,Web信息檢索通過搜索引擎返回給用戶成千上萬個檢索到的網(wǎng)頁,但是滿足用戶檢索要求的網(wǎng)頁卻鳳毛麟角,用戶無法在第一時間得到滿足要求的有價值信息。因此,Web信息檢索的精度不能為客戶提供準而精的檢索信息,需要檢索精度更高的數(shù)據(jù)挖掘技術。
所謂數(shù)據(jù)挖掘(DataMining)就是從海量的原始數(shù)據(jù)中提取信息和知識的過程,這些信息和知識隱含在原始數(shù)據(jù)中,事先未知,但是對用戶來說是很有用的。
一般的數(shù)據(jù)挖掘?qū)ο笫墙Y構化數(shù)據(jù),而Web數(shù)據(jù)挖掘的對象是非結構化數(shù)據(jù),在現(xiàn)有數(shù)據(jù)挖掘研究成果的基礎上,運用Web數(shù)據(jù)挖掘技術,可以提高信息檢索的精準率和有效率,Web信息檢索將會達到向一個新的高度。
一、Web數(shù)據(jù)挖掘技術概述
Web數(shù)據(jù)挖掘是一項綜合技術,是從WWW資源上抽取信息(或知識)的過程,是對Web資源中蘊涵的未知的有潛在應用價值的模式的提取[1]。按挖掘?qū)ο髞矸诸悾赪eb的數(shù)據(jù)挖掘分為3大類:基于Web內(nèi)容的挖掘(WebContentMining)、基于WEB結構的挖掘(WebStructureMining)、基于WEB使用的挖掘(WebUsageMining)。
(一)基于Web內(nèi)容的挖掘
基于Web內(nèi)容的挖掘,是在Web文檔以及相應的Web文檔描述中獲取知識。目前,WWW信息資源是網(wǎng)絡信息資源的主要組成部分,用戶直接從網(wǎng)上抓取這些資源,并為之建立索引,從而實現(xiàn)查詢服務,而那些被隱藏起來的數(shù)據(jù),用戶無法進行有效的檢索,這就迫使我們把這些被隱藏的內(nèi)容(比如數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù),由用戶的提問而動態(tài)生成的結果等)挖掘出來。此外,Web的信息內(nèi)容是由文本、音頻、視頻、圖片等非結構化的數(shù)據(jù),因此基于Web內(nèi)容的挖掘也是一種針對多媒體數(shù)據(jù)的挖掘[2]。
(二)基于Web結構的挖掘
基于Web結構的挖掘,主要挖掘Web潛在的鏈接結構模式,是從網(wǎng)頁上的相互鏈接和萬維網(wǎng)的整體結構中發(fā)現(xiàn)知識的過程。這種模式主要采用網(wǎng)頁歸類技術,在眾多的網(wǎng)頁中獲得不同網(wǎng)頁間的信息,比如相似度及關聯(lián)度。Web結構挖掘主要是幫助用戶找到所需要信息的權威站點,同時也會對Web信息檢索結果的排序產(chǎn)生影響。
(三)基于Web使用的挖掘
基于Web使用的挖掘,也可以稱之為WebLogMining,Web日志挖掘,用戶在進行網(wǎng)絡訪問后,會留下一些重要的第二手數(shù)據(jù),它們是Web使用挖掘的主要對象,從而分析用戶的網(wǎng)絡行為提供依據(jù)。
二、Web數(shù)據(jù)挖掘在Web信息檢索中的應用
(一)對Web信息源進行挖掘,形成信息源知識庫
對Web信息源內(nèi)容的挖掘,主要是針對中多媒體數(shù)據(jù)等Web信息源的內(nèi)容的特征進行挖掘,統(tǒng)計方法、機器學習、神經(jīng)網(wǎng)絡、人工智能是最常使用的方法,通過抽取、分類、聚類網(wǎng)頁內(nèi)容的特征,形成信息源知識庫。
對Web信息源結構的挖掘,主要通過相關算法對Web頁面的超鏈接關系、URL地址結構的進行挖掘,在Web的組織結構和鏈接關系中發(fā)現(xiàn)知識。
(二)對Web結構進行挖掘,形成權威網(wǎng)頁
搜索引擎的作用主要有兩個,一是搜索與主題相關的內(nèi)容,二是篩選高水平的相關網(wǎng)頁,就是我們所說的權威網(wǎng)頁。第二個作用尤其重要,因為用戶更希望他們最需要的信息能在最短的時間內(nèi)呈現(xiàn)在他們面前,而不是浪費大量的精力和時間從大量的檢索結果中找尋最需要的信息,采用Web結構挖掘的一些經(jīng)典算法就能很好地識別出權威網(wǎng)頁。
(三)對用戶的訪問模式進行分析,為用戶提供更加人性化的服務
用戶在進行信息檢索時,會在網(wǎng)站上留下許多信息,比如檢索的時間、檢索詞以及瀏覽了哪些檢索結果等。基于Web使用的挖掘可以對其進行分析,采用各種算法對這些日志展開挖掘,從而延伸出更有價值的內(nèi)容,形成用戶知識模型,并對用戶潛在相同的檢索行為模式進行歸納總結,對這些模式進行系統(tǒng)的研究,對搜索引擎的檢索效果進行反饋,從而改進搜索引擎,讓檢索結果更加智能化,使單個用戶感覺使用Web信息檢索更高效。
總之,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)挖掘的一個主要應用領域就是Web數(shù)據(jù)挖掘,與Web信息檢索有著密切的關系,但是又比Web信息檢索有著更高的技術層次,可以使基于Web的信息檢索發(fā)展到一個更高的水平。
參考文獻:
[1]韓家煒,孟小峰,王靜,等.WEB挖掘研究[J].計算機研究與發(fā)展,2001,38(4):405-414.
[2]涂承勝,魯明羽,陸玉昌.Web內(nèi)容挖掘技術研究[J].計算機應用研究,2003,20(11):5-9.
【數(shù)據(jù)挖掘技術在Web信息檢索中的應用研究論文】相關文章:
數(shù)據(jù)挖掘技術在高校學生成績分析中的應用研究論文03-15
數(shù)據(jù)挖掘技術在中等職業(yè)學校管理實踐中的應用研究11-19
數(shù)據(jù)挖掘在電力企業(yè)中的應用論文12-13
數(shù)據(jù)挖掘技術的教學輔助系統(tǒng)應用論文03-16
數(shù)據(jù)挖掘技術在就業(yè)指導的應用論文02-27
信息檢索與利用論文01-01
網(wǎng)絡信息檢索論文01-20
數(shù)據(jù)挖掘在現(xiàn)代遠程教育中的應用論文11-22
信息檢索畢業(yè)論文12-08
- 相關推薦