VFP技術在網頁數據采集中開發的方向分析
隨著信息技術對高校教育發展的變革,數字化資源建設在高校學習資源建設,構建學習型組織中扮演著重要角色。數字資源建設是滿足現代化教學所需的一項重要教學基礎資源,是學校、教師和學生進行學習,交流,分享,創新的重要原動力。各高校都把數字化資源建設當作重點工作開展。然而不少高校面臨著數字資源建設經費不足,除了購置外部資源外,同時也要內部開發一些數字資源。對于數字資源的建設,各高校的數字資源建設有共性需求,也有個性的需求,并非外部采購能夠解決。在這樣的前提下,筆者嘗試運用Visual FoxPro(以下簡稱VFP)技術構建可采集網頁數據的系統,用以采集無版權問題的在線學習資源,將不同來源的學習資源匯聚于同一數據庫,來構建主題數字資源庫。
1、高校數字化資源采集需要VFP技術
1.1 滿足基礎服務需求的角度選型
從提供基礎服務角度看,選用何種技術進行開發首先是從需求出發,是否能滿足實際工作需要,系統是否能運行穩定、高效。而不僅僅是追求先進性。并非最先進的就是最能滿足需要的。筆者進行的數據采集只是數字資源建設前期的數據整理階段的階段性的工具,在時間節點范圍能能夠滿足高校對數據的抓取工作。因此,在需求明確導向前提下,用最經濟的手段來實現基礎服務的穩定和高效運行是最合理的。VFP兼有開發工具和數據庫兩方面特征,能夠做到與操作與數據的無縫銜接,在前期的數據采集與整理上完全能夠滿足用戶需求。
1.2 存量用戶與技術衍生性
VFP數據庫在過去十年中在高校的普及應用率較高,不少教學服務部門的管理系統都是基于VFP開發的,如不少高校的教務系統,學工系統都是基于VFP開發等。因此,高校中的VFP存量用戶較多,在新系統建設中,首先要考慮的系統對接的兼容性,后續增加的系統最好能和之前的系統能夠無縫對接。而且,由于VFP的簡單易學,在系統使用和維護中,不少老師也逐漸摸索、學習,逐漸掌握了 VFP的基礎開發技能。因此,VFP來開發數據采集系統是一個可以被應用環境接受和用戶認可的工具。
1.3 VFP自身的技術優勢
VFP是開發工具同時其本身也是數據庫。VFP數據庫發展到現在已經相當成熟,VFP系統小巧,相比Oracle等數據庫,其不會占用太多的存儲空間。相比其他數據庫,VFP的應用程序開發的效率較高,相比一些開發語言,VFP本身強大的查詢功能。所以VFP是集開發和數據庫的綜合體,簡單易學,操作靈活。同時,VFP互操作性和對網絡支持性較強。
2、網頁數據采集系統設計
2.1 VFP技術介紹
VFP是Microsoft公司推出的數據庫開發軟件,提供多種可視化編程工具,最突出的是面向對象編程。支持結構化查詢語言(SQL)命令和函數。由于其函數豐富、靈活方便、問世較早,在國內一段時期廣為流行。目前最新的版本是9.0。時至今日,由于其穩定高效、易學易用,仍有大批高校將其作為小型數據庫使用,不少網絡教學管理系統前臺軟件也選用VFP開發。
2.2 系統設計目標
我們將VFP開發的網頁數據采集系統應用于學校數字化資源建設子項目——開源版權的學習視頻內容的采集,具體來說,是針對國外多所名校提供的開源版權視頻源網址進行分析和數據爬取,最終將開源版權的文字和視頻數據提取、索引并保存入學校的資源庫。
2.3 系統功能結構
VFP開發的網頁數據采集系統采用了模塊化的設計,它由一些核部件和插件模塊構成。核心部件可以配置,系統部件由管理控制臺、抓取順序控制器、中央控制器、流控制處理器、多線程控制組成。管理控制臺允許操作者進行參數設置和任務管理。抓取順序控制器控制爬取活動的排序和相關屬性。抓取任務通過排序后將任務信息傳遞給中央控制器進行初始化。中央控制器吞吐隊列的URL信息和完成的URL 信息,并將任務指令傳遞給采集工作的核心工作區——流控制處理器。核流控制處理器的任務處理是呈流式運作的,包括預讀、提取和寫入三個部分。流控制處理器的工作是多線程了,保證了整個采集的高效率。
在采集的核心工作區——在流控制處理器中,工作的流程是這樣的:首先在接到中心控制器傳送來的隊列URL后,開始預讀,預讀主要是做一些預處理工作,對處理進行延遲和重新處理。接著,進行提取工作,提取主要是獲得http資源,進行ip轉換,發出http頭請求和接收響應,進而抽取目標HTML的標簽。最后進行寫入,寫入的工作是存儲爬取日志,返回爬取到的內容和抽取特性,過濾并作寫存儲的動作。這一流程完成后,流控制處理器會提交完成的URL給中央控制器,做最后的維護。
3、系統實現
3.1 程序運行的硬件環境
操作系統為Microsoft Windows XP或更高,內存為1G或更高,硬盤占用約230MB,數據爬取采用4MB ADSL寬帶。
3.2 核心程序節錄
3.3 實驗結論
我們將VFP開發的網頁數據采集系統應用于學校數字化資源建設子項目——開源版權的學習視頻內容的采集,針對國外多所名校提供的開源版權視頻源網址進行分析和數據爬取,并測試VFP開發的網頁數據采集系統的性能,為后續的改進提供測試。我們確立四個指標,從數據采集的正確率、召回率、覆蓋率和程序效率四個方面進行測試。正確率是指VFP開發的網頁數據采集系統能否正確的提取URL,正確率越高,爬取的效果越好;召回率是指程序爬蟲探測到的數據與能夠爬取回來的數據的比值,召回率越高,爬蟲的效果越好。覆蓋率是指對指定網站采集的覆蓋率,覆蓋率要全;程序的效率是說VFP開發的網頁數據采集系統采集的速度和穩定性。經過全天24小時無故障,不間斷的運行,累計采集網頁數據300多萬頁。數據采集的正確率、召回率、覆蓋率和程序效率均得到理想的效果。
4、結束語
本文闡述了一個基于VFP技術的網頁數據采集爬蟲的一種工作流程和爬行算法,從鏈接和網頁內容的分析和提取進行爬行控制,給出了具體實施的核心程序,測試結果比較滿意;赩FP技術的網頁數據采集系統本身雖然屬于輕量級,但針對高校數字化資源建設的需求現狀,本文提出解決方案經過證明,能夠高效的完成網頁數據采集,是一種經濟、實用、穩定和高效的網頁數據采集方案。其對高校的數字化資源建設起重要作用。但是本系統的性能仍需提高,尤其在URL的優先權選擇上需要進一步改進。
參考文獻:
[1]張敏,孫敏.基于Heritrix限定爬蟲的設計與實現[J].計算機應用與軟件,2013,30(4):33-35.
[2]王永國,張士江,謝倩.基于Visual FoxPro環境ACCESS數據庫操作的實現[J].計算機技術與發展,2011,21(1):95-99.
[3]孫庚,馮艷紅,于紅,史鵬輝.一種基于Heritrix的網絡定題爬蟲算法——以漁業信息網絡為例[J].軟件導刊,2010,9(5):47-49.
[4]王映,于滿泉,李盛韜,王斌,余智華.JavaScript引擎在動態網頁采集技術中的應用[J].計算機應用,2004,24(2):33-36.
[5]馬愛芳,仲少云.基于VFP的資料室圖書管理系統的設計[J].現代情報,2004,(3):104-108.
【VFP技術在網頁數據采集中開發的方向分析】相關文章:
大數據技術在網絡營銷中的策略研究論文01-23
員工培訓與開發方向開題報告05-04
XML技術在網絡招生中的應用03-29
試論基于數據挖掘技術的保護設備故障信息管理與分析系統12-05
市場營銷在網絡經濟中的研究分析12-11
企業能耗數據采集軟件的設計與開發論文02-21
數據挖掘與客戶關系管理分析02-28
改進標號法在網絡計劃技術中的應用的論文03-17
- 相關推薦