- 相關推薦
計算機網絡故障管理智能化研究
[論文摘要] 故障是網絡的管理最基本、最重要的功能。文中針對網絡故障管理進行研究,并提出了網絡故障管理智能化的方法,為網絡故障智能化的進一步發展奠定了基礎。
[論文關鍵詞] 網絡 故障 智能化 事件知識庫
一個網絡管理系統有五大功能域:故障管理、配置管理、性能管理、計費管理和安全管理其中,故障管理是最基本,也是最重要的功能。目的是保證網絡能夠連續可靠地運行。如果網絡服務意外中止,將會對生產、生活造成很大影響,這就需要一套科學的故障管理策略,及時發現故障、排除故障。
現在一些網管軟件趨向于將專家系統等人工智能技術引入到網絡故障診斷和排除中。提高網絡故障的智能水平有助于網絡高效、可靠地運行。網絡管理的智能化也是發展的必然趨勢。為此本文針對網絡故障智能化管理進行研究,并提出了建立事件知識庫提高故障管理的智能水平的方法,為網絡故障智能化的進一步發展奠定了基礎。
1. 計算機網絡故障管理技術研究
(1) 故障管理概述
故障是指軟、硬件的缺陷;錯誤則是軟硬件的不正確輸出;失效是指所有和某故障有關的錯誤造成的網絡的非正常運行。網絡故障按生命周期可分為永久故障、暫時故障和瞬間故障三類;按故障對網絡造成的空間失效范圍的大小,可將失效分為四類:任務失效、基本網絡部件失效、 結點失效和子網失效。故障管理的主要任務是及時發現并排除網絡故障。一般說來,故障管理包括以下幾個內容:故障監測和捕獲故障產生相關的事件和報警;定位分析故障、記錄故障日志;如有可能排除故障等。
(2) 故障管理的類型
故障類型指的是具有某種特征的故障的分類。通常我們可以根據故障發生來源的不同,將它們劃分為兩大類,即硬故障(hard errors)和軟故障(soft errors)。
硬故障是指網絡的硬件設備在工作過程中產生的各種錯誤。這些錯誤與該設備的作用有密切關系,網絡系統的復雜性也正是由于設備的多樣性而體現出來的。根據這網絡設備的作用,我們也可以將故障簡單分為以下三類:
①連接設備故障
這種故障的現象主要是網絡的連接出現問題,也可以稱為通路故障。造成故障的原因可能是電纜線斷開、收發器斷開或不能正常工作以及其它連接設備間的接口出問題等等。根據這類故障的來源不同,我們又可以將該類型的故障細分為線路故障、網絡接口故障、收發器故障、路由器故障等等,該類故障是故障管理的最主要對象。
、诠蚕碓O備故障
這種故障的表現是用于資源共享的設備出現問題,不能提供或享受所需的服務。同樣,該類型的故障也可以細分為服務器故障(打印機故障、文件服務器故障等)、工作站故障等等。
、燮渌O備故障。包括電源故障、監控器故障、測試儀故障、分析儀故障等等。
軟故障是指網絡系統軟件運行出錯。軟故障的發現和處理是在管理過程中逐漸被人們所認識的,因為軟件屬于一種無形的東西,問題的表現不如硬件那么直觀。從這個意義上看,軟故障的識別和診斷更加困難。故障管理中所處理的軟故障主要針對與網絡通訊和服務有關的系統軟件,它可以直接根據網絡軟件來劃分,包括通訊協議軟件故障、網絡文件系統(FNS)故障、文件傳輸軟件故障、域名服務系統(DNS )等等,其中通訊協議軟件故障是系統研究的重點。這種錯誤通常是在協議軟件運行時遇到某個異常條件(如緩沖隊列滿)或協議軟件本身未提供可靠機制而導致傳輸失敗,報文丟失。
故障類型并不是一成不變的,隨著網絡在復雜性和規模上提高,網絡故障管理的要求也在不斷增加。新的技術、設備的應用使故障的類型、故障原因、故障源等各方面都發生了變化,這就要求故障管理系統必須增加新的內容。
(3)故障管理的功能
故障管理的根本目標在于排除網絡中出現的各種故障,達到這一目標要求系統至少必須具備檢測、隔離和糾正故障的能力。
故障檢測(detection)是指對系統的性能和狀態進行檢查和測試,根據結果和一定的識別規則判斷系統是否故障。故障檢測要求管理系統監視網絡的工作,考查網絡的狀態及其變化,一旦發現系統出現故障馬上進行報警。
故障隔離(isolation)是指確定故障發生的位置,通俗地說就是指出誰發生了故障,如哪個子網、哪個設備或者設備的哪個部件,對于軟故障則指明哪個系統出了問題。由于網絡是一個復雜的系統,故障類型、原因、故障源多種多樣,而且不同故障的表現可能完全相同,這就導致了故障隔離的復雜性。隔離系統應當盡可能地縮小故障源的范圍。
故障糾正(correction)是指糾正所發生的錯誤,恢復系統的正常工作。故障糾正建立在前兩者的基礎之上,目前所采取的手段除了進行硬件維修、系統重啟、一定程度的恢復外,還包括一些非技術性的活動,如人員的使用和技術培訓以及設備生產廠商的支持等。
(4)影響故障管理的因素
與網絡管理一樣,故障管理也必須考慮三方面的因素:過程、設備和工具、人員。成功的故障管理策略是這三者的完整結合,而不僅僅是其中的某一個方面。
過程主要指為實現故障管理功能而進行的操作,下一節介紹的內容就屬于故障管理的過程。了解管理的一般過程是開發一個實用的故障管理系統的基礎。
設備和工具指的是進行故障管理的軟硬件工具,包括故障檢測設備、維修設備、實用的故障管理系統等。設備和工具在故障管理中起著非常重要的作用,它可以幫助管理員和工程師實施管理功能,排除故障,保障網絡系統正常運轉。下面介紹的就是幾種專用的物理設備:
、 時間域反射測量儀(TDR)。通過顯示物理介質傳輸信號的波形表明設備 或鏈路是否故障。
、 網絡監視器。監視網絡上各結點的狀態,得到網絡的各種數字,以 確定是否故障。
、 網絡分析儀。實時分析結點的收發報文,幫助管理者跟蹤和隔離故障。 管理人員在故障管理中的任務主要是維護管理系統和工具的運行,并在它們的幫助下完成故障排除和系統恢復工作。
2.智能化網絡的概述
為了能夠更有效地對各種大型復雜的網絡進行管理,許多研究人員將人工智能技術應用到網絡管理領域。雖然全面的智能化的網絡管理距離實際應用還有相當長的一段路要走,但是在網絡管理的特定領域實施智能化,尤其是基于專家系統技術的網絡管理是可行的。
用于故障管理的專家系統由知識庫、推理機、知識獲取模塊和解釋接口四大主要部分組成。專家系統以其實時性、協作管理、層次性等特點,特別適合用在網絡的故障管理領域。但同時專家系統也面臨一些難題:
(1)動態的網絡變化可能需要經常更新知識庫。
(2)由于網絡故障可能會相關到其它許多事件,很難確定與某一癥狀相關的時間的開始和結束,解釋和綜合消息復雜。
(3)可能需要大量的指令用以標識實際的網絡狀態,并且專家系統需要和它們接口。
(4)專家系統的知識獲取一直以來是瓶頸所在,要想成功地獲取網絡故障知識,需要經驗豐富的網絡專家。
在實現智能化網絡管理系統時,還必須把握系統復雜性與系統性能的關系。不僅要利用將較為成熟的人工智能技術,而且要考慮實現上的復雜度和引入人工智能技術對系統性能和穩定性的影響。
3.事件知識庫的研究
在專家系統中,知識的表示有表示法、語義網絡表示法、規則表示法、特性表示法、框架表示法和過程表示法。產生式表示法,即規則表示法,是最常見的一種表示法。其特點是模塊性、一致性和自然。知識庫是知識的集合,嚴格意義上的知識庫包括概念、事實和規則只部分,缺一不可。
為了提高故障管理的智能水平,可以建立事件知識庫(EKB , Event Knowledge Base,用于存儲所有己知事件的類型、產生事件的原因和所造成的影響,以及應該采取什么樣的措施等一些細節的靜態描述。這個EKB并不是真正意義上的知識庫,它的數據僅僅包含了屬性值與元組,而屬性值表示概念,元組表示事實。但研究EKB可以為今后建立完善的知識庫奠定基礎。
在EKB中存儲了己經確定事件。最初,被確定的事件僅限于一些標準事件和措施。隨著網絡的運行和系統的反饋,EKB的內容將不斷增加。
理想狀態是能夠確定所有的事件。
下面是EKB涉及到的只種基本的數據庫表:
(1)事件類型表:該表中主要存儲了事件的靜態定義。
EKB中保存了己確定的事件可能涉及的相關知識,如事件類別(如:性能、系統、網絡、應用事件或其它)、嚴重程度(如:嚴重、主要、 次要、 警告等)、產生事件的設備標識、指明設備的類型、事件造成什么影響(如:影響網速、單個用戶不能訪問等)、故障排除參考策略、上次更新的時期/時間、關于這個事件的備注信息、事件的詳細描述等。
(2)實時事件表:描述了正在運行的網絡中的實時事件。
實時事件表中提供可能用的一些字段,用于記錄網絡運行中發生的事件,如:設備的 ID(從 IP 地址或查詢設備表可以獲得)、實時事件的狀態(如:新增、確認、清除等)、根據故障票ID獲得的相應的故障票信息等。
(3)設備信息表:存儲了網絡中設備的實際參數。
設備信息表主要記錄了每個設備的相關參數。例如,設備ID號、IP地址、設備名稱、廠商、類型、重要性級別等。
EKB中存儲的相關事件的知識主要來源于專家。開發人員將獲得的知識應用到與故障管理相關的系統中,根據不同系統的需要分配相應的知識,以提高系統性能。雖然EKB并不是嚴格意義上的知識庫,但在開發過程中,可以通過不斷地增加和修正EKB的內容,在一定程度上提高系統的智能水平。
4.結論
文中分析了網絡故障的類型,提出將事件知識庫用于網絡故障的智能管理。實驗表明,計算機網絡故障的智能管理提供了基于知識的決策手段,比傳統的管理方式具有更高的決策水平,為專家系統技術在故障的檢測和隔離方面更加廣泛的應用,奠定了一定基礎。
參考文獻:
[1] 趙志囡等.計算機網絡中的服務[M]. 現代情報.2006. (11)
[2] 楊家海等.網絡管理原理與實現技術[M].北京:清華大學出版社.2000.
[3] 武波,馬玉祥著.專家系統(修訂版)[M].北京:北京理工大學出版社,2001.
【計算機網絡故障管理智能化研究】相關文章:
計算機網絡故障管理智能化論文11-22
當前網絡故障排除方法研究03-08
無線傳感器網絡故障檢測研究11-22
關于綠色建筑智能化研究論文05-22
計算機網絡故障的處理及維護方法探討06-05
計算機技術在機房管理中的應用研究03-08
當前建筑智能化工程管理的現狀及特點03-10
研究計算機病毒與防治03-20