- 相關推薦
網絡信息資源組織研究進展
【內容提要】主要從用于組織網絡信息資源的搜索引擎、虛擬圖書館、文獻分類法、主題法、窗口方式等方面全面總結與回顧20世紀90年代以來網絡信息資源組織的理論與實踐。【摘要題】信息資源建設
【關鍵詞】網絡信息資源組織/網絡信息資源整序/研究進展
筆者通過普查大量國內外期刊論文及有關出版物、分析相關網站,進而總結與回顧20世紀90年代以來網絡信息資源組織的理論與實踐,以期有助于優化其網絡信息資源組織與揭示方法,促進該領域研究的蓬勃開展。本文著重總結網絡信息資源組織的研究進展,有關其揭示方法將在另文總結。
1 用于組織網絡信息的搜索引擎方式
。1)關于搜索引擎組織方式。
對于搜索引擎而言,網絡信息組織采用主題樹和數據庫兩種方式,也有稱使用語詞組織知識和使用分類法組織知識。所謂主題樹組織方式,就是將信息資源按照某種事先確定的概念體系,分門別類地逐層加以組織,用戶通過瀏覽的方式層層遍歷,直到找到所需的信息線索,再通過信息線索聯接到相應的網絡信息資源,F有的提供目錄分類式(或稱主題指南、列表瀏覽)查詢功能的搜索引擎就采用這種方法組織信息。而數據庫組織方式,就是將所有已獲得的網絡信息資源以固定的記錄格式存儲,用戶通過關鍵詞及其組配查詢,就可找到所需要的信息線索(即相關站點鏈接),并通過信息線索直接連接到相應的網絡信息資源。
。2)關于搜索引擎的比較研究。
、偎阉饕娴男阅鼙容^研究。早期研究大量集中在概要性介紹方面。殷雪松、徐斌分別介紹了12個大陸地區的中文搜索引擎網易、天網、華好網景、搜狐、四通方利、常青藤、北極星、悠游、搜索客、司南、我是野虎、若比鄰等,港臺地區茉莉之窗、哇塞、蕃薯藤等和5個國外的中文搜索引擎Yahoo雅虎中文、AltaVista(中文版)、Globepage(中文版)、華頁指南、中文查尋。
王忠、周士波分別介紹了獨立搜索引擎Altavista、Hotbot、Infoseek、Excite、Webcrawler、元搜索引擎Cyber411、Dogpile、Highway61、InferenceFind、Mamma、Profusion、Savvysearch、All4one和網絡英文搜索引擎Webcompass、Copernic98,并對6種主要搜索引擎的基本查尋、高級查尋、限定查尋、結果排序、結果輸出等檢索性能進行比較分析。
隨著研究的不斷深入,研究重點轉入到了搜索引擎性能的比較上。孫麗等選取了北極星、常青藤、搜狐、中經網信息導航、網現引擎5個中文搜索引擎,從數據庫類型、規模、庫更新頻率、抓取方式、日抓取頁面數、抓取深度、<Meta>tag、顯示方式、信息排序依據、信息描述質量、界面友好程度、用戶歡迎程度等分析它們的優劣。徐建華等從數據庫規模、信息采集方式、標引內容、檢索功能、結果顯示格式、結果排序規則、數據庫更新頻率等7個方面對Altavista、Excite、Go、Hotbot、Lycos、Yahoo這6個搜索引擎逐一進行分析。
張燕,惠佳穎就10個檢索提問,從檢索功能(布爾檢索、鄰近檢索、截詞檢索等)、查準率、用戶負擔、輸出方式對搜索引擎Google和AskJeeves進行詳細比較,測試結果顯示Google在查準率以及輸出方式上明顯優于AskJeeves,在檢索功能及用戶負擔上兩者各有特色。
、陉P于搜索引擎的質量評價指標。搜索引擎評價指標多種多樣。1973年Lancaster和Fayen提出了6條關于信息檢索系統效果評價指標:即覆蓋范圍、查全率、查準率、響應時間、用戶負擔及檢索結果輸出格式。這一評價指標影響甚廣,許多學者在其基礎上進行細化與擴充,提出搜索引擎質量評價標準。
儲荷婷提出5條標準:A.索引構成(取決于標引數量、標引范圍、索引詞抽取法和索引更新頻率);B.檢索功能;C.檢索效果(由查全率、查準率和檢索時間衡量);D.檢索結果顯示(顯示內容、顯示數量以及是否按相關性排序);E.用戶所需努力(從用戶界面和幫助介紹材料)。
孫麗等提出的評價體系:A.數據庫指標(數據庫大小、類型、更新頻率和信息抓取方式等);B.檢索結果輸出格式;C.檢索性能完善程度(類目檢索、關鍵詞檢索、短語檢索、截詞檢索、布爾檢索、概念檢索、自然語言檢索、指定字段檢索、包含或排除檢索等);D.響應時間;E.查全率;F.查準率;G.用戶負擔。
曾民族提出評價指標:A.數據庫規模和內容(覆蓋范圍、索引組成、更新周期);B.索引方法(自動索引、人工索引、用戶登錄);C.檢索功能(布爾查找、復雜布爾操作、相鄰或相鄰查詢、截詞查找、字段查找、概念檢索、詞語加權、詞語限定、中斷退出、上下文關鍵詞等);D.檢索結果(相關性排序、顯示內容、輸出數量選擇、顯示格式選擇);E.用戶界面(幫助文件、數據庫和檢索功能說明、查詢舉例);G.查準率及響應時間。
曹東等從檢準率和檢全率出發,提出搜索引擎的評價指標:A.收集網絡站點數目的廣泛性;B.搜索結果的滿意度;C.數據庫更新的頻度和時效性;D.使用的便利性;E.目錄設置的合理性和分類的深度及廣度;G.內碼轉換的準確性。
賀亞鋒就7個有代表性的主題進行測試,提出的評估準則有:A.命中率——查詢主題的網頁反應;B.檢準率——首10個網頁中切合主題的網頁數目的比率;C.重復出現率——首10個網頁中重復網頁數目的比率(鏡象點除外);D.不切題比率——相對于檢準率。
尚克聰、楊立英提出的評價指標體系:A.數據庫(從收錄范圍的明確性、收錄相關內容的全面性及更新速度評價);B.檢索軟件,從智能化程度(由人—機接口、檢索過程、檢索結果輸出、檢索結果的反饋等指標衡量)、提供相關鏈接的程度、響應時間、提供各種檢索途徑;C.檢索效率(綜合使用查準率和查全率考察)。
黃如花提出的評價指標:A.收錄范圍(地域范圍、語言范圍、資源類型范圍、專業范圍);B.分類(分類方式、分類級次、交叉顯示、類名是否規范、各類的內容說明);C.檢索功能與效果(完善的檢索手段、范圍限制的功能、滿足網上動態信息檢索的要求、對檢索結果的處理等,查準率、查全率、搜索條件頻率、響應速度);D.結果處理;E.頁面組織;F.其它功能與服務。
可見,數據庫、檢索功能、查準率、用戶負擔和檢索結果輸出方式是目前評價搜索引擎較普遍采用的基本指標。
。3)搜索引擎分類體系研究。
目前,一些大型搜索引擎普遍建立了指南型分類系統,對其分類體系進行研究逐步受到重視。陳樹年在《搜索引擎及網絡信息資源的分類組織》一文論述了綜合性搜索引擎具備的功能;對網絡信息進行組織使用的語言;網絡信息的組織模式;
【網絡信息資源組織研究進展】相關文章:
基于Blog的動態信息資源組織03-18
網絡信息資源的開發與利用03-29
淺談網絡信息資源的整合問題研究03-05
探析網絡信息資源編目面臨的問題及對策03-27
網絡信息組織對傳統信息組織的借鑒03-18
網絡信息組織對傳統信息組織的鑒戒12-07
網絡信息資源開發人才支撐體系研究03-20
分布式網絡信息資源重構模式及系統實現03-21