- 相關推薦
基于聚類分析的數據挖掘方法
畢業論文
基于聚類分析的數據挖掘方法
目錄
前言 1
1 相關理論 2
1.1 數據挖掘(DATA MINING)理論 2
1.1.1 概念 2
1.1.2 數據挖掘的任務 2
1.1.3 數據挖掘的應用 3
1.1.4 數據挖掘的發展現狀 4
1.2 聚類(CLUSTERING)理論 5
1.2.1概念 5
1.2.2聚類算法的分類 5
1.2.3分割聚類方法 6
1.2.4聚類算法的應用 6
1.3 WEB數據挖掘理論 7
1.3.1 文本檢索概念 7
1.3.2 Web數據挖掘概念 8
1.3.3 Web數據挖掘工作原理 8
1.3.4 Web挖掘分類及各自的研究現狀及發展 9
1.4 ASP理論 11
1.4.1概念 11
1.4.2 ASP服務器(IIS) 12
1.4.3 ASP程序的發布與執行 13
1.4.4 ASP的內置對象 13
1.5 數據庫理論 14
1.5.1 SQL概念 14
1.5.2 Microsoft Access 2003數據庫介紹 15
1.5.3 Access數據庫的安全性 15
2 需求分析 17
2.1 任務概述 17
2.1.1研究背景 17
2.1.2問題提出 17
2.1.3研究現狀 17
2.1.4研究目標 18
2.2 數據需求 18
2.2.1靜態數據 18
2.2.2動態數據 19
2.2.3數據庫描述 19
2.2.4數據采集 19
2.3 功能需求 19
2.4 性能需求 19
2.4.1數據精確度需求 19
2.4.2適應性需求 20
2.5 運行需求 20
2.5.1用戶界面 20
2.5.2運行環境 21
3 概要設計 22
3.1 總體設計 22
3.1.1總體結構 22
3.1.2處理流程 22
3.1.3模塊設計 24
3.2 接口設計 26
3.2.1外部接口 26
3.2.2內部接口 26
4 詳細設計 27
4.1 系統結構 27
4.1.1系統框架 27
4.1.2數據流圖 28
4.2 模塊詳細設計 28
4.2.1人機交互模塊 28
4.2.2聚類分析模塊 31
4.2.3數據庫模塊 33
4.3 數據字典 34
5 編碼與實現 36
5.1 人機交互模塊實現 36
5.1.1數據庫連接部分 36
5.1.2查詢匹配部分 37
5.1.3結果顯示部分 37
5.2 聚類模塊實現 38
5.2.1分詞部分 38
5.2.2文本向量空間模型部分 39
5.2.3聚類部分 40
5.3 數據庫模塊實現 41
5.3.1網絡蜘蛛(spider) 41
5.3.2數據庫表 41
6 性能測試與分析 41
6.1 測試實例的研究與選擇 41
6.2 測試環境與測試條件 41
6.2.1測試環境 41
6.2.2 Web服務器的安裝 41
6.3 實例測試 43
結束語 45
參考文獻 46
致謝 47
摘要 本設計課題為基于聚類分析的數據挖掘方法,為實現這1課題,我利用ASP技術,設計了1個Web搜索引擎。通過對搜索引擎的優化,使其對檢索的初始結果進行聚類分析,返回結果給用戶。從而也實現了“基于聚類分析的數據挖掘方法”這1目標。搜索引擎我設計了3個模塊,分別為人機交互模塊、聚類模塊、數據庫模塊3個模塊。人機交互模塊通過ADO對象進行數據庫連接。當用戶輸入關鍵字,檢索數據庫的網頁數據,得到初始數據結果集,聚類模塊對這些結果進行聚類分析,再把聚類結果返回給用戶。由于Web文本是無結構或半結構化的,進行聚類分析之前要對文本建立向量空間。建立向量空間模型,首先對文本分詞,再掃描文本提取特征值,計算這些特征值的權重,依據文本相似度對文本進行聚類,聚類算法采用k-means算法。最后把結果返回給用戶。數據庫模塊設計了兩個表,1個保存網頁數據,另1個表是分詞時所需要用到的表,數據的獲取,由開源網絡蜘蛛執行。通過設計實現,基本實現了基于聚類分析的數據挖掘方法的初衷。
關鍵詞 數據挖掘;聚類分析;搜索引擎;文本向量
The method of Data Mining Based on Clustering Analysis
Abstract this design concentrates on data mining method which based on clustering analysis. In order to realize this task, I design a web search engine with the technique of ASP. From optimizing the search engine, the early results can be proceeded clustering analysis. This can make the similar results in a cluster. Finally, the search engine returns these results to the user. Also, from this, I can give my voice to the "The method of Data Mining Based on Clustering Analysis ". The search engine composes with the module of user, the module of clustering and the module of database. The module of user connect database with the object of ADO. After users enter the key words and recall the web page data of database, the user could get the initial results. The module of clustering clusters these results, and returns the results to the user. Because web text editing is non-structure or half-structure, vector space should be established for text editing before carry out clustering. In order to establish vector space model, the words should be extracted from the text editing firstly. Then the trait value should be extracted after the scanning of the text editing. According to the similar sign, the results make together. The method bases on k-means. Finally, return the results to the user. In the module of database, I design two tables. One is a data of web; the other is a dictionary table. From a spider, I can get the web data on the Internet and save this data to the database. From this design, I carry out the method of data mining based on clustering. .
Key words Data Mining; Clustering; Search Engine; Text Vector
前言
網絡和存儲技術的迅猛發展,使數據的傳播和積累速度不斷提高,但當我們為擁有極其詳盡的數據而欣喜的同時,也發現新的數據處理和提煉技術非常匱乏。面對日益龐大的數據資源,人們迫切需要更強有力的工具來“挖掘”其中有用的信息。數據挖掘就是針對這1要求而發展來的。
近年來, Internet 已成為計算機領域最熱門的1項技術,Internet 的普及使人們可以突破空間、地域的限制,方便地共享資源。但在實際使用中,Web 網上龐大的數據量會給用戶的信息查詢帶來極大的困難。鑒于此,各種搜索引擎應運而生,比較有名的有Yahoo 、Alta Vista、Google、百度、北大天網等,另外還有許多針對新聞、論壇、音樂、游戲等的搜索引擎。
現階段網上大多數搜索工具都采用列表式目錄鏈接和關鍵詞查詢的方式,只要在題名和文章中含有該關鍵詞,則返回給用戶,這樣往往帶來大量的無用信息,難以找到真正有用的內容。而現代社會的競爭趨勢要求必須對Web 上大量復雜的信息進行實時地和深層次地分析,從中找出真正有價值的信息知識。因此,人們迫切感到需要1種新的技術,可以從Web 海量的數據中自動地、智能地抽取隱藏于這些數據中的知識。于是Web 挖掘作為數據挖掘技術和Web 的結合應運而生了。Web 挖掘不僅能夠幫助人們迅速找到所需要的信息,還能挖掘出用戶的潛在需求,主動向用戶提供信息。理想的Web 挖掘可以在網絡上實現阮岡納贊的“圖書館5定律”,即在Web 上實現“信息是為了用的;每個用戶有其信息;每個有用信息有其用戶;節省用戶的時間;網絡是1個生長中的有機體”。如果把整個網絡看成1個巨大的數字圖書館則理想的Web 挖掘就相當于圖書館員,是網絡信息海洋的導航者,能夠從Web 海量信息中找到有用的知識。由于目前Web 頁面的重要信息主要集中在Web 的文本中,而聚類分析作為數據挖掘的1個重要功能,也能作為1個獨立的工具來獲得數據分布的情況。可以有效的對Web文本進行聚類,是檢索度大大提高。
現在對搜索引擎進行聚類,普遍采用下面的方法:首先建立Web文本向量空間模型,把非結構化或半結構化的文本文檔轉換成結構化的向量空間模型(即把文本轉化成數字表示的形式)。再對Web文本進行聚類。在搜索引擎應用中,常采用的聚類算法現階段文本聚類以層次凝聚法(以G- HAC 算法為代表) 和平面劃分法(以K- Means 算法為代表) 為主。此外也有研究工作者改進的聚類算法。
本文中,作者描述采用k-means算法設計的1個搜索引擎。通過聚類算法的應用,使搜索引擎檢索精確度有了很大提高。但是由于作者的水平、時間有限,設計實現的功能不是很完善,本論文也存在1些缺點和錯誤,殷切希望老師批評指正。
【基于聚類分析的數據挖掘方法】相關文章:
基于數據挖掘技術的交叉銷售分析12-08
基于數據挖掘的網絡入侵檢測技術11-23
基于數據挖掘技術的現代物流管理03-25
基于愛好的電子商務數據挖掘技術的研究12-08
電子商務中數據挖掘方法淺談03-01
基于數據挖掘技術的保險行業決策分析研究03-09
基于數據挖掘的差異化車險收入管理研究論文12-03
組合營銷策略中基于約束的關聯規則挖掘方法03-07
數據挖掘理論在數據采集中的運用03-16