- 相關推薦
大規模存儲系統可靠性參數最優化分析
摘 要:在大規模的存儲系統中,數據的可靠性變得越來越重要,過往的研究大多數都是在已知的系統規模下,分析基本的系統參數,但較少考慮它們的最優組合。本文將簡要分析大規模存儲系統的可靠模型下,各個系統參數的最優值及它們組合在一起的最優值,促進更可靠的大規模存儲系統的發展。
關鍵詞:大規模存儲系統 最優值 可靠性參數
當前,很多依托大規模存儲技術的實際應用已經出現在互聯網搜索、電信通訊、科學實驗等領域之中。在大規模存儲技術的實際運用中,許多研究都在關注數據的可靠性問題。為了克服應用中的局限,就要針對實際需求和相關參數來構建可靠的存儲系統,這對于存儲系統的實際應用有重要意義。
一、大規模存儲系統可靠性參數概況
大規模的存儲系統一般都是由相應的存儲節點的集群構成,其中每一個存儲節點都相應配備有內存、CPU及磁盤,其中較為有代表性的系統主要是NASD、FAB及GFS等。大規模存儲系統應用與實際的一個主要趨勢是很多應用都需要存儲WORM數據,即Write Once Read Many類型數據,也被稱作“寫一次讀多次”數據。磁盤寬帶自身的增長速度要遠遠低于磁盤本身空間的增長速度,因此大規模存儲系統一般具有很高的故障率,需要較長的時間才可以恢復,這就需要為WORM數據建構可靠的大規模存儲系統。
當前關于數據可靠性的研究顯示,復制冗余機制是一種被廣泛應用的防止數據丟失的有效技術,在實際操作系統中,操作人員在其中部署了多樣的副本分布策略,比如在RAID中的PTN、在GFS中的RANDOM。操作人員對這幾種主要策略進行分析,研究它們對系統可靠性的影響,在具體的研究分析中,假設有n個不同的對象,把這些對象都存儲于N個節點上,每一個對象都有K個副本,每一種副本的放置用來表示存儲節點和副本之間的關系。第一種策略是PTN,它將所有的對象副本進行分組,再將每一組放置在K個節點上,PTN主要應用于Coda及RAID;第二種策略是RANDOM,它將所有副本隨機分散到各個節點上,主要應用于GFS、RIO、FARSITE等;還有一種策略是Q-rot,它將所有的存儲節點分成了K個站點,每一個站點都是其他對應站點的副本。存儲系統的設計者在根據需求確定了系統的規模以后,往往難以確定其他相關的系統參數,這樣就會給構建可靠安全的系統帶來一系列問題。因此,將相應的可靠性參數進行優化分析是必要的。
表1:主要系統參數表
參數 定義 默認值
N 總節點數 變量
B 網絡帶寬 變量
m 單個節點的存儲評價對象個數 變量
b 單個節點上IO帶寬 變量
K 每個對象的副本數 3
S 數據總量 1PB
s 單個對象的平均大小 S/(N×m)
n 不同對象的總數 N×m/K
ni 獨立對象數目 N/K
二、大規模存儲系統可靠性參數的最優化分析
2.1 數據可靠性的概念
數據可靠性一般指丟失的第一個存儲對象的前一個存儲系統可以提供相應服務的時間。存儲對象的可靠性是單個對象的所有副本集體丟失的平均用時,一般用MTTDL0來表示,MTTDL0主要受對象的恢復速度和對象的自身故障率的影響。這里面,對象恢復速度受對象自身的平均大小影響,對象故障率受磁盤故障率的影響。
2.2 Markov可靠性模型
Markov可靠性模型也被稱作馬爾可夫模型,可以綜合分析系統的可恢復性及其脆弱性,在可靠性分析方面具有很強的功效性,這種模型可以很好地描述對象副本的運行故障及具體恢復過程。Markov可靠性模型替換掉了以前模型中的故障節點方面的細節,著重研究的是在假設的平均故障節點數的時候,對象的相關恢復情況。
2.3 進行可靠性參數最優化分析的相關工作
在大規模的存儲系統中,數據的可靠性是無法被忽視的一個重要問題。在存儲規模達到更大的時候,系統的故障率就會增高,相應的恢復速度就成為了一個關鍵因素,如何在RAID的基礎上,提高數據的可靠性,成為了研究人員的工作重點。下面簡單介紹幾種參數最優化分析的相關工作。
第一,研究怎樣在RAID之間和RAID內部實現良好的分布式恢復,但很少關注分布的策略對于恢復速度的具體影響。有的研究分析了在運行的副本系統中單個對象自身的可靠性,但沒有考慮到恢復帶寬的因素。
第二,有的研究指出了分布策略,還利用了用于節點恢復的馬爾可夫模型,對影響系統可用性的具體因素進行了分析,主要分析的是具體的訪問模式和讀寫模式如何對系統產生影響。
第三,還有很多相關研究是關于大規模存儲系統的可用性,而不是可靠性。比如研究廣域網中不同的副本在分布策略方面的多對象可用性;利用動態副本的分布策略來提高系統整體可用性;隨機分布策略對分布式的存儲系統可用性的影響和作用等。
要想系統分析可靠性參數的最優化,要在兩個方面進行突破。第一,提出一個全新的基于研究對象本身的馬爾可夫模型,基于馬爾可夫模型量化分析在系統的規模已知的具體情況下,三個最常用的副本放置策略當中,系統參數對于可靠性的影響。這些系統參數主要有對象總數、存儲節點總數,磁盤的帶寬等,相比于過去很復雜的模型,馬爾可夫模型規模較小、簡潔直觀,以自身小規模的狀態來進行矩陣轉換,易于求解。此外,還便于研究者獲得綜合性很強的結果。第二,在研究過程中,提出一個“兩階段”的分析過程。其中,第一階段以固定其他相應參數為前提,對各個參數的影響進行獨立分析,找出相對來說最為精確的最優值。第二階段在所有的參數都可以進行變化的前提條件下,通過對它們復雜綜合的影響進行分析,進而得到參數的最優組合。
三、結語
大規模的存儲系統在運行中會面臨很多的問題和挑戰,想要讓數據更加的可靠和精確,就要注意分析相應的可靠性參數,對其進行有效的整合和優化。這樣,才能讓系統運行的更有效率,最大程度的發揮自身的功效和作用。
參考文獻:
[1]章宏燦,薛巍.集群RAID5存儲系統可靠性分析[J].計算機研究與發展,2010(04).
[2]鄭勝,李通.一種應用于大規模存儲系統的數據分布算法[J].計算機科學,2013(S2).