長足寄蠅生物信息綜合數據庫的搭建
分類分析是基于事先創建的分類模型,實現某個未知的數據項到數據庫中已知類的映射,下面是小編為大家搜集整理的一篇相關論文范文,歡迎閱讀借鑒。
引言
現今生物信息技術尤其是在昆蟲學領域,迫切需要將生物學基礎研究全過程的信息通過計算機技術和手段進行綜合存儲,同時將生物形態學與分子生物學數據結合起來,根據研究領域的特點和科研成果交流需要,實現信息交流與共享、多格式信息存儲、生物信息決策與KDD應用等方面信息.
1、設計背景
本文以"中國長足寄蠅亞科的系統分類研究"的需求為出發點,以全面合理的存儲寄蠅數據、提升現有寄蠅研究成果和數據共享性為目的,力求實現通過計算機手段對國內外寄蠅研究的現有成果進行總結與分類,實現寄蠅信息的高效管理等而搭建長足寄蠅生物信息綜合數據庫.
相比較常見的單一數據庫模式,該系統的數據倉庫由關系數據庫和多維數據庫共同組建.數據展現平臺用Java基于MVC設計模式實現,并將該平臺分為Web層、服務層和數據訪問層.訪問關系數據庫數據采用開源的Ibatis框架,將各種SQL語句存放在配置文件中進行統一維護通過JDBCDAO訪問關系數據庫;同時,對多維數據集訪問的腳本語言的也具備Java接口用最實用的'C語言.用C后對多維數據庫的訪問速度則明顯改進.
數據存儲方面,該系統兼容并濟,采用關系模式ROLAP和多維模式MOLAP相結合,即混合模式HOLAP.數據檢索方面,針對唯一索引、主鍵索引和聚集索引3種任取其一均不能滿足生物系統海量信息檢索的復雜性和高效行,在該系統中采取了唯一索引、主鍵索引及聚集索引相結合的方式.
2、數據存儲與檢索
系統模型是統一業務系統的核心,模型設計的好壞直接關系到系統建設的成敗.在建模時需要將寄蠅亞科研究的現有成果進行存儲,并對其進行全面總結、分類和分析.
2.1元數據設計
系統形態學、分子生物學、物種形態信息標準、分類研究歷史和生物綜合防治和科學考察全過程信息采集等信息按照生物信息化元數據標準建設.包括生物本體53類元數據信息,共515個元數據屬性.寄蠅科、亞科、族、屬、種的基本研究成果和分類檢索成果、物種基本信息和研究歷史.包括:模式標本,鑒定和訂正已知種、發現和記述新種、新紀錄種外部形態、繪制頭部與外生殖器結構特征圖;補充未記載雌性或雄性標本.
27種形態分類描述屬性、分子生物學研究的成果和實驗過程.包括:DNA、引物PCR反應圖片、測序線粒體COI和28SrRNA基因片斷成果與數據、同源分析比對和分子系統樹成果等.檢視標本采集過程信息、標本管理信息、保存和儲存狀態和標本分類研究信息和生物形態/生境信息.系統形態分類研究.包括:板圖、頭胸、腹尾器.其他信息包括寄蠅進化、生態利用和害蟲生物控制依據和解決對策、生境特征、科學考察信息、生物地理、自然地理情況(經緯度、行政區位置、海拔、自然區劃、地貌、國內/外分布)和研究程度和研究文獻等基礎生物本體信息.
2.2信息存儲類型
信息存儲類型有簡單文本屬性信息、板圖圖片、實驗圖片、科考圖片、系統發育樹研究成果信息對象、基因分子數據大對象格式、統計與熱點圖形、自定義、共享格式數據、各類格式研究與交流文檔對象等.
生物信息化數據庫建庫、元數據與采集標準建立.包括中國寄蠅科寄蠅信息數據庫元數據標準和生物信息數據采集工作標準與指導方法及野外科學考察研究描述信息.
2.3數據設計與挖掘
系統一共包括53個表,包括5種信息、族屬代碼、人員權限、公共代碼等相關表格.圖1所示是族屬E-R圖,該模型主要描述了物種的分族、分屬情況,以及其國內外分布情況.
圖2所示是物種信息E-R圖,該模型以物種無主題,主要描述了和物種信息有關的地域、地貌、生物地理分布等有關信息.
3、數據挖掘
數據挖掘是指從大量數據中提示出隱藏的、未知的事物的特性或是規律,根據這些規律制定出合適的算法,然后根據算法進行數據的檢索.數據挖掘的功能主要是描述和預測2方面,包括概念描述、關聯、分類、聚類、演變分析等.以上功能也是現今應用于生物信息數據挖掘的幾個主要方面.本系統建設中主要應用聚類、分類和關聯分析算法.
3.1聚類分析
本系統使用聚類的目標是:通過聚類分析實現寄蠅分類,進而推斷出系統發育樹.根據實際情況和需求,因為寄蠅亞科各族屬種之間的進化關系本身就是模糊的,相較于劃分法、層次法等傳統聚類非此即彼的"硬劃分",模糊聚類的"軟劃分"顯然更適用寄蠅信息數據庫.系統聚類的實現決定采用基于模糊等價關系建立系統發育樹,從而實現對寄蠅實體族屬種等的分類,通過建立系統發育樹一目了然的展現分類效果.
1)動態聚類方法的流程(如圖3所示).通過對比發現,系統聚類是一次形成分類結果,對分類方法的要求很高,相應的計算量也很大.理所當然的,該系統選用動態聚類方法.
2)模糊等價關系的采用.從數學上講,一個確切的分類通常是由一個明確的等價關系確定.類似的,一個模糊的分類,也可以利用一個模糊的等價關系實現.
3)基于模糊等價關系的動態聚類的優化.通過優化、動態聚類過程、獲取樣本向量和構造模糊相似矩陣,建立模糊等價關系矩陣,最后對模糊等價關系矩陣執行動態聚類的算法,得出最后分類,聚類過程結束.依據得出的分類,即可以推斷出系統發育樹.實踐證明,基于模糊等價關系的動態聚類建立的系統發育樹是值得信賴的.
3.2分類分析
分類分析是基于事先創建的分類模型,實現某個未知的數據項到數據庫中已知類的映射.顯然,人們不可能把每一個寄蠅實體的每一個屬性值都通過生物實驗來獲取.利用已知寄蠅實體的相關屬性值,通過分類挖掘,便可以對一個蠅類樣本的特定屬性值進行預測,從而解決實驗過程不能解決的問題,是本系統使用分類分析的主要目標.從預測準確率、速度、健壯性和可伸縮性等全方位衡量的話,沒有一種算法是完全優秀的.
實際上,在本系統中用到的分類分析算法是微軟決策樹算法.該算法由SQLServer2008中的analysisservice組件提供.實踐證明,微軟決策樹算法對離散的和連續的屬性預測表現均出色.足以應付該系統中的分類挖掘問題.在此不做詳細介紹.
4、結語
本系統以國家自然科學基金"中國長足寄蠅亞科的系統分類研究"的需求為出發點,以對寄蠅生物研究過程中產生的海量數據處理為主要任務,通過計算機手段實現了寄蠅數據的生物信息化.
參考文獻:
[1]陸舟.Struts2技術內幕:深入解析Struts架構設計與實現原理[M].北京:機械工業出版社,2012:80-256.
[2]李剛.輕量級JavaEE企業應用實戰Struts2+Spring3+Hibernate整合開發[M].北京:電子工業出版社,2011:30-236.
[3]甘文麗,劉為超.基于Struts2和Ajax的企業級Web應用開發[J].工礦自動化,2013(2):23-26.
[4]常革新,任永昌.Struts2框架校驗文件自動生成技術[J].計算機技術與發展,2013(1):305-321.
[5]薛峰,梁鋒,徐書勛,等.基于SpringMVC框架的Web研究與應用[J].合肥工業大學學報:自然科學版,2012,35(3):337-340.
[6]廖福保.擴展SpringMVC模塊的Web應用[J].實驗室研究與探索,2012(10):70-73.
[7]嚴厲,俞永強.ThespringpredictionbarrierinENSOhindcastexperimentsusingtheFGOALS-gmodel[J].中國海洋湖沼學報:英文版,2012(6):1093-1104.
[8]ZHANGChaolei,LIUYazheng,ZHOULeyu,etal.Secondaryhardening,austenitegraincoarseningandsurfacedecarburizationphenomenoninNb-bearingspringsteel[J].鋼鐵研究學報:英文版,2012(3):47-51.
[9]ZHANGChaolei,ZHOULeyu,LIUYazheng.HeredityintheMicrostructureandMechanicalPropertiesofHot-rolledSpringSteelWire60Si2MnAduringHeatTreatmentProcess[J].材料科學技術:英文版,2013(1):82-88.
[10]張春田,陳小琳.中國長足寄蠅亞科的系統分類研究[J].沈陽師范大學學報:自然科學版,2008,26(4):封二.
[11]徐海根.中國生物多樣性元數據庫的研究與開發[J].蘭州大學學報:自然科學版,1999,35(4):103-108.
[12]徐海根,包浩生.中國生物多樣性核心元數據標準的探討[J].中國環境科學,2000,20(2):106-110.
[13]吳善杰.關于模糊聚類分析方法的進一步思考[J].華北科技學院學報,2008,5(1):108-111.
[14]李剛成,劉贊波,曾慶光.一種基于模糊聚類的構造進化樹方法[J].計算機應用,2009,29(3):836-838.
[15]劉星毅.一種新的決策樹分裂屬性選擇方法[J].計算機技術與發展,2008,18(5):70-72.
【長足寄蠅生物信息綜合數據庫的搭建】相關文章: