- 相關推薦
關于土地信息系統建立過程中的數據質量問題的探討
摘要:數據對土地信息系統(LIS)來說是至關重要的,數據質量的好壞是土地信息系統建設成敗的關鍵。本文將對土地信息系統建立過程中有關數據質量問題進行探討。
關鍵詞:土地信息系統、數據質量、誤差、分辨率、坐標變換、矢量數據、柵格數據、拓撲
Abstract:Data is very important for Land Information System,A key to Land information the system's developments success is whether the data quantity is accuracy. This paper will Study the data quantity the problem in Land information the system establish the process.
Key words:Land Information Systems;Data Quality;Error;Accuracy;Remote Sensing;Digitize;Resolution;Coordinate Transformation;Vector Data;Raster Data;Topological.
一、前言
土地是人類的寶貴財富,是人類社會進行物質生產所必需的基本條件和自然基礎。如何科學、合理地利用有限的土地資源,如何及時了解與掌握土地利用變化數量和空間特點,對于保持耕地總量動態平衡和土地持續利用具有十分重要的意義。
隨著社會經濟的日趨多樣化,土地部門的業務工作及范圍也在不斷擴大,原有的靠手工操作,圖紙管理的模式已經越來越不能滿足高效率的需求。為強化土地管理,滿足社會對土地資源信息更多、更細、更完善的服務要求,各土地管理部門紛紛加入信息化、數字化的改革大潮。特別是在市場經濟條件下,因土地管理部門工作的嚴肅性、準確性、科學性和規范化要求,管理中任何規定的確定和變更都需要完成大量的信息收集、分析、綜合、決策和評估等工作,土地管理也只有強有力的信息技術(IT)的支持下,才能做到真正的科學決策和管理。
土地信息系統(LIS)是地理信息系統的一個分支,是一種基于宗地的計算機管理信息系統。是一種利用計算機技術及其屬性數據進行采集、處理、管理、查詢、分析、應用和維護更新的空間信息系統,是土地管理的現代化工具,是土地規劃和管理定量化、科學化的方法、手段。但是,在土地信息系統的建設過程中,還存在許多問題,給土地信息系統的建設及發揮帶來一定困難。這里僅對土地信息系統建設中的數據質量問題進行探討。
二、對LIS數據質量的認識
數據是一種未經加工的原始資料,是客觀對象的表示,它可以是數字、文字、符號、圖像,數據是信息的具體表達形式。一個LIS系統包括空間數據、屬性數據、空間數據之間的關系以及空間數據與屬性數據之間的關聯。
人們往往以為計算機為基礎的信息系統的數據質量是可靠的,很少懷疑利用信息系統產生的分析結果在數據質量方面會有問題,但事實遠非如此。在某些情況下,由于多種原因,計算機分析的結果甚至會比手工分析的誤差更大。這里除軟件、硬件的質量問題,計算方法上的問題,以及分類、編碼、輸入、操作的明顯疏忽外,數據本身的質量是重要的原因。
眾所周知,數據是LIS的“血液”,是組成系統的重要元素。數據質量的好壞是土地信息系統成功與否的關鍵所在;數據質量的高低優劣,都直接影響到土地信息系統的經濟效益和社會效益,決定了系統應用價值的大小;數據的可靠,質量的好壞將直接影響到整個系統的成敗。系統如果不能提供正確、可靠的信息,這個系統也就失去了存在的價值。
數據質量的好壞是一個相對概念,并具有一定的針對性。衡量其好壞主要有以下幾個指標:誤差、數據的準確度、數據的精度和不確定性。數據質量是數據整體性能的綜合體現。
統而言之,數據的質量問題主要表現在兩個方面:一是數據是否及時反映了現實世界;二是數據是否保持了一致性和完整性。
土地信息系統的數據量大,數據來源廣,數據采集的任務重,在數據庫建立過程中會出現許多人為和系統的誤差,甚至還有可能產生數據錯誤,最后采集的數據無法準確反映規劃和管理的實際狀況,建立在此數據庫基礎上的系統往往也就達不到管理自動化輔助決策的目的,而只不過是“看看而已”的一種“擺設”罷了。
數據庫(包括空間數據庫和非空間數據庫)是土地信息系統最基本、最重要的組成部分,也是投資比重最大的部分。數據質量的好壞,直接影響系統的功能和應用。不僅要根據技術規程衡量數據質量,還要從數據使用角度分析數據質量問題。數據質量通常是指數據的可靠性和精度,它主要用數據的誤差來度量的,F就土地信息系統建立過程中的數據質量問題作進一步的探討。
三、數據源質量的問題
土地信息系統的數據源指建庫中所需要的各種數據類型的來源。它是土地信息系統最基本、最重要的組成部份。土地信息系統的數據源多種多樣,主要包括有:地圖,地圖是系統最主要的數據源,因為地圖是地理數據的傳統描述形式,是具有共同參考坐標系統的點、線、面的二維平面形式的表示,內容豐富,圖上實體間的空間關系直觀,而且實體的類別和屬性可以用各種不同的符號加以識別和表示。土地信息系統其圖形數據大部分都來自地圖,土地信息系統的屬性數據主要有地籍圖、宗地圖、土地詳查圖、土地利用現狀圖、行政區劃圖、專題圖、乃至地形圖等各種圖件的矢量化地圖數據。二是遙感影像數據,遙感影像數據是一個極其重要的信息源。通過遙感影像可以快速、準確地獲得大面積的、綜合的各種專題信息,航天遙感影像還可以取得周期性的資料,這些都為土地信息系統提供了豐富的信息。三是統計數據,包括土地的分類、面積、權屬、分布及質量、等級狀況、利用狀況、非法占地等統計資料。四是實測數據,包括GPS點位數據、地籍測量數據等。五是數字數據,包括數字圖形數據和屬性數據。數字數據主要有地籍號、檔案卷宗號、地類號、圖號、手簿號、宗地界址點點號及坐標控制點坐標,宗地面積,面積中誤差、年代、日期等等。屬性數據包括圖形、圖像以外的各種文字、數字信息。其中文字信息主要是與宗地檔案,文件檔案組成相關的各種檢索和查詢信息(如:土地權利人姓名或單位各稱、土地座落,文件檔案的標題、發文機關、公文字號等等),以及土地登記、地籍調查、權屬審核、登記發證各辦公流程中的各種鍵盤輸入信息。六是各種立法文件和文字檔案,主要有地籍檔案、文件檔案等具有法律效力或需要經常查閱的原始文件材料,它們是土地信息的重要組成部分,在土地的規劃管理中起著很大的作用。
數據源質量問題指數據的采集和錄入中可能產生的誤差,建庫所需的各種類型的數據的可靠性和精度。
從土地信息系統建立的過程來看,它的主要因素有:各種測量數據,地圖和遙感數據等的誤差;調查和統計造成的屬性數據誤差,以及文檔數據的錯誤等,數字化前的預處理、手扶踀自動化的分辨率和矢量化精度。
1、遙感數據
地理信息系統、遙感和計算機輔助制圖是現代地理學的重要技術手段。遙感作為一種獲取和更新空間數據的強有力手段,能及時地提供準確、綜合和大范圍進行動態監測的各種資源與環境的信息,因此遙感數據是土地信息系統的一個重要數據源。
所謂遙感(Remote Sensing)就是遙遠感知的意思,也就是不直接接觸目標物和現象,在距離地物幾公里到幾百里、甚至上千里的飛機、飛船、衛星上,使用光學或電子儀器接受地面物體或發射的電磁波信號,并從圖像膠片或數據磁帶形式記錄下來,傳送到地面,經過信息處理,判讀分析和野外實地驗證,最終服務于有關部門的規劃決策 。土地管理部門可以運用遙感技術快速獲取現狀空間的信息。
盡管遙感技術有很多好處,但因其自身特性,獲取的遙感數據可能存在一些誤差。如:不同的高度引起的問題,由于傳感器的結構及穩定性產生的問題,對信號進行數字化產生的誤差。傳感器在航線、航向上出現的誤差,大氣輻射產生的誤差,地形和地貌等因素產生的誤差等等。在遙感資料的獲取時,有些誤差是可以控制的,有些則不可控。因此必須對原始數據進行預處理,包括利用地面控制對原始數據進行幾何校正,圖像增強和分類。對獲取的遙感數據進行光譜校正,特征提取,自動識別分類、自動成圖等處理。
2、測量數據
各種原始的測量數據是土地信息系統的主要來源之一。包括宗地的權屬界線、位置、形狀、數量、面積、各級行政界線、地形圖測量等。由于人和環境的因素,測量數據不可避免地受到人為誤差(對中、讀數、平分等誤差)、儀器、環境的影響。來源于地面測量的數字數據中含有控制測量和碎部測量誤差。其中控制點誤差又受控制網的參考基準、網形和觀測精度以及觀測費用等因素的影響。碎部點誤差除了繼承了控制點的誤差外,還受自身觀測方法,觀測精度和地界的人為判斷,以及地物地貌的取舍等因素的影響。當然原始數據誤差受觀測儀器、觀測者和外界環境三種因素影響。除此之外,還有測量數據的實時性以及數據老化,采集數據的密度不合理,或概括取舍不合理,選取測量規范標準不一致或精度等級不一致造成測量數據的不一致的影響。
地籍要素是構建土地信息系統極為關鍵的一步,其測量數據的精度高低決定了系統功能能否得到正確和充分發揮。
從地籍測量成果的有效性和土地管理的可能性來考慮,為了保證各權屬單元之間的界線清晰,邊界無爭議,并且雙方都能接受而不損害他人和國家的利益,地籍測量要達到一定精度。因此,必須要有相應的數據采集方法作為保證。地籍要素的采集方法目前主要有兩種,一種是傳統的模擬式外業測圖方法,另一種是野外全數字化數據采集方法。傳統方法的主要作法是在地籍控制測量的基礎上,用解析法測量出權屬界址點坐標,以控制點或以界址點為基礎施測成地籍圖,要形成入庫數據信息,則要通過對原圖數字化來實現。用傳統數據采集方法形成地籍要素數字信息其誤差影響因素較多,主要誤差來源為:測站點誤差m1,量距誤差m2,在測圖板上描繪方向線誤差為m3,刺點誤差m4,數字化儀采點誤差m5等。按有關專著論述,一般情況下,m1≈±0.12mm,m2≈±0.2,m3≈±0.1mm,m4≈±0.14mm,這四項誤差為野外采集誤差。數字化m5的影響因素比較復雜,誤差產生首先與圖形要素有關,要素本身的復雜程度對數字化精度有顯著影響,數字化儀本身的精度更應引起重視。正常情況下,用常規數字化儀進行數字化時,精度一般可達到±0.13mm。綜合上述得,地籍要素采集精度m采 為:
m采 =±
=±
=±0.02mm
按1:500比例尺來考慮,實地誤差將達到±10cm,由此可見,按傳統方法施測,則擬入庫的地籍要素信息很難達到規定的±5cm的精度標準。
采用野外全數字化方法,界址點野外數據采集一般采用直接測定坐標法,即將全站儀或測距儀置于測站點上,對界址點上的移動棱鏡進行水平角和距離測定,電子手薄記錄計算。此種方法的主要誤差來源為水平角測角誤差mβ和測距誤差mD,測角中誤差角保守為±5″,測距誤差主要來自移動棱鏡偏離界址點位置誤差,其偏離值按2cm考慮。測距平均邊長取100m,按點位誤差精度估算公式m2= 來計算,則m≈±2cm,即便考慮測站誤差和其他偶然的聯合影響,點位精度也肯定在規定范圍內,所以地籍要素信息數據的野外全數字化有利于提高界址點精度,從而保證地籍數據的質量。
3、調查、統計、文檔數據問題
土地信息系統的建設過程中,涉及大量的調查統計數據,這些資料尚存在許多不足之處,為土地信息系統的建設帶來了一定困難。
建立土地信息系統,必須首先進行土地基本信息的搜集,開展地籍調查工作,核實宗地權屬,掌握土地利用狀況,獲得宗地位置、形狀及其面積的準確數據,為建庫奠定基礎。
現就地籍調查工作加以探討,眾所周知,權屬調查的工作之一是填寫地籍調查表。由于權屬調查技術性強,工作量大,參與人員多且水平不同等原因,填寫后的地籍調查表或多或少會出現下面一些問題。在填土地使用者名稱時,單位本應填寫全稱,可出現了類似這樣的情況:某林業局有3宗地,而在3份地籍調查表上出現了xx林業局、縣林業局、林業局等名稱。按這樣的名稱錄入建立信息系統,將導致不能正確地自動的歸戶。在填寫土地使用者性質時,本應該寫“全民”或“集體”或“個體”或“個人”,而出現了“國營”或“國有”或“私營”這樣的名詞。在填寫宗地四至時應說明權屬界線所經地物名稱及歸屬、位置、與誰接壤。但出現了東(南、西、北)至xx,而未填出接xx。且有的四至填寫錯誤,如兩宗地共用一堵墻時,則只能出現兩宗都至墻中,或一宗至墻內另一宗至墻外,但填出了兩宗都至墻外或墻內等情況。在填寫界址標示處的界址線位置時也有類似錯誤,有的表填寫字跡潦草,或使用簡化字,讓人難以辨認。有的內容還可以猜出,但戶主的姓名、調查員、勘丈員的簽名等內容實在難辯;有的表中該填的內容而未填,任意涂改。
共用宗的處理,一個地塊被幾個權屬單位共同使用,而其間又難以劃清權屬界線,這樣的地塊稱為共用宗。不少縣(市)是這樣處理的:有多少土地使用者就填多少份地籍調查表,表上的內容按各分宗填寫。這樣做的好處是所填的內容詳細,調查表和土地登記申請書、審批表形成一一對應的關系。但其弊端也是顯而易見的,其一較大地增大了填表的工作量,其二增大了復雜程度,在填寫四至時,如遇一個土地使用者使用幾個地塊則不得不寫清幾個地塊的四至;為填清界址指標,又得設置內部界址點,增加了宗地草圖和地籍圖的負荷量,填表時如不小心還會造成表與表之間的相互矛盾。為了和地調表統一,有的在形成宗地界址點成果表時,除了有宗地界址點成果表外,還有分宗的界址點成果表。如果內部界址點是在紙圖上圖解的,則將該宗地的宗地界址點和內部界址點和計算機展點后,會出現界址線混亂的情況。在土地信息系統建庫時,這些內部點是不能當界址點錄入進庫的。如進庫則在面積統計時,這種內部界址點所圍成的區域的面積就被多統計了一次。
建立完備的信息系統,必須具備這樣的條件:大比例的地形圖或地籍圖;野外測量的界址點數據;宗地的屬性數據(土地登記申請書、地籍調查表、審批表等)。全省在進行大大規模的城鎮地籍時,由于受當時的條件限制,自動化程度低,各作業單位作業水平的不同,或多或少出現一些問題。在建庫時所發現的問題主要是界址點的坐標成果與地籍上的位置不吻合;相鄰宗的同一界址點坐標不同;界址邊長、宗地面積計算有誤。某些縣(市)為了進行土地登記,由于多方面的原因,在進行初始地籍調查時,只作權屬調查,不作規范的地籍測量。為了計算面積,用皮尺或鋼尺丈量界址邊長及相關尺寸,用幾何圖形法計算出宗地面積,而不測址點坐標和地籍圖。這樣做不利于信息化的管理。
4、圖形數字化
影響數據質量的因素是多方面的,有相當一部分來自于建庫過程中的數字化過程。建庫過程中的數據質量,包括數字化前的預處理,紙張變形、手扶跟蹤數字化精度或掃描數字化的分辨率和矢量化精度。
(1)數字化前的預處理
用于數字化作業的地形圖(工作底圖)一般采用聚酯薄膜圖,其變形一般小于0.2‰。采用紙質圖紙時,圖紙的尺寸隨濕度和溫度的變化而變化,溫度不變的情況下,溫度由0%增至25%,則紙的尺寸可能改變1.6%。因為紙的膨脹率和收縮率不相同,即使溫度回到原來的大小,圖紙也不能恢復原來的尺寸。因此在數字化時要適當的比例因子,通過仿射變換進行幾何糾正,以減小工作底圖變形產生的位置誤差,達到相應的精度。
對不同種類和比例的工作底圖進行數字化時,應注意它的投影方式是否一致,比例是否匹配。對于不同投影方式應在數字化后及時變換為系統要求的投影方式。對于不同比例應將比例尺和精度記錄到元數據中,以便估記由此可能產生的誤差。
(2)跟蹤數字化
手扶跟蹤數字是一種自動化精度較低的數字化方式,其數字化精度也因操作員及其工作的疲勞程度而異,操作員的勞動強度較高。隨著大幅面掃描儀的成本不斷降低,掃描和矢量化技術不斷完善,這種數字化方式可能成為自動掃描數字化的一種補充。
手扶數字化是從地形圖輸入空間數據的最廣泛采用的輸入方法。把地形圖放置于數字化桌上,用手持設備,跟蹤每一個地圖特征、數字化設備精確量測鼠標的位置,產生數據形式的坐標數據。
影響跟蹤數字化數據質量的因素很多;主要有:數字化底圖中地理要素的寬度、密度和復雜程度對數字化結果的質量有著顯著影響。數字化儀的分辨率和精度對數字化數據質量有著直接的決定性的影響!兜匦螆D數字化規范》規定,數字化儀的分辨率不能小于每厘米394線(約1000dpi),精度不低于0.127mm(0.005英寸)。常見數字化儀在分辨率方面通常能滿足要求,而在精度方面卻有相當一部分不能達到要求。在選擇數字化儀時要特別注意其精度指標,以滿足LIS工程的需要。數字化操作員的技能與經驗不同而引入的人為因素誤差是不同的,由于操作員視力、操作習慣,熟練程度和疲勞程度的不同,最佳采樣點位值判斷,十字絲與目標點重合程度的判斷會有一定程度的差異,影響數字化的質量。操作方式(如曲線采點方式和采點數目)也會影響數字化數據的質量。
假定各種誤差影響符合誤差傳播規律,手扶跟蹤數字化的綜合精度應按下式求得:
m數=±
其中:m數 表示手扶跟蹤數字化的綜合精度;m定 表示工作底圖定向誤差,m儀 表示數字化儀精度,m人 表示人為因素誤差。
(3)、掃描數字化
掃描數字化用高精度掃描儀將圖像等掃描并形成柵格數據文件進行處理,將之轉化矢量圖形數據。規范規定:圖形定位控制點掃描誤差不大于0.1mm,相對于工作底圖,矢量化后的掃描點誤差不大于0.15mm,線劃誤差不大于0.2mm。影響掃描數字化質量的因素除原圖質量外,還包括:掃描精度、定向精度、矢量化精度損失等。
①掃描儀的分辨率和精度
掃描儀的分辨率和精度對掃描數字化質量的影響是至關重要的。因此,要根據具體情況選擇適當的掃描儀。目前,大幅面掃描儀大致有,滾筒式(drum),平板式(flatebed),直進式(direct feed)3種。這些掃描儀能夠輸出一種或多種形式柵格數據文件(二值、灰度和彩色)。
滾筒式掃描儀精度較高價格較貴,能以較高的分辨率掃描AO或更大的圖紙。
平板式掃描儀與滾筒式一樣精度高、價格貴、分辨率很高,但一般幅面不會超過A1幅面。由于平板式掃描儀幅面小,掃描后多需進行拼接,從而增加了工作難度,引入了更多的誤差源。LIS工程一般不選用這種掃描儀。
直接式掃描儀精度較低,價格也較便宜。通常能夠滿足一般LIS工程的需要。
目前,需要的大幅面掃描儀品牌有:CONTEX、VIDER、ANATECH等。
在選擇掃描儀時,應注意其是否采用硬件消藍。光學分辨率代表了掃描儀的分辨率能力,而經銷商往往只是給出插值分辨。同時,應注意掃描儀的歪斜失真,歪斜失真的大小與掃描儀的走紙方式有關。
②柵格數據矢量化的精度損失
在土地信息系統中,柵格數據與矢量數據各具特點與適用性,為了在一個系統中可以兼容這兩種數據,以便有利于進一步分析處理,常常需要實現兩種結構的轉換。
柵格的矢量轉換處理的目的,是為了將柵格數據分析的結果,通過矢量繪圖裝置輸出,或者為了數據壓縮的需要,將大量的面狀柵格數據轉換為由少量數據表示的多邊形邊界,但是主要目的是為了能將自動掃描儀獲取的柵格數據加入矢量形式的數據庫。
在柵格數據矢量的過程中的細化、跟蹤等均可能引入一些誤差。復雜圖形全自動化矢量化效果極差,會產生眾多的交叉線,導致多邊形跟蹤錯誤。對此,應采用交互式矢量化方法。因此在選擇矢量化軟件時不應僅僅關心自動化程度(全自動矢量化軟件價格往往很高)。還要特別注意是否具有以下功能:智能去斑,裁剪,扭曲較正,比例控制,水平校正,光柵編輯和交互式矢量化等。
③掃描數字化方法誤差
掃描數字化的幾何分辨率是掃描數字化方法誤差中最重要的誤差源,減小這種誤差的唯一方法就是提高掃描儀的幾何分辨率。但是,隨著分辨率的提高,柵格數據量以平方級速度增長。這往往造成計算機存儲資源耗盡,數據處理時間平方級延長。以300dpi(約每mm12個點)的分辨率掃描時,獨立點間距離的相對精度為1.4/1000左右。全自動矢量化細化過程所產生的點位誤差為1~2個像素點,而交互跟蹤矢量化最大點位誤差可以控制在一個像素點。按300dpi計,每個像素點相當于圖上0.01mm。掃描數字化綜合精度可按下式計算:
M掃=±
其中:M掃 表示掃描數字化的綜合精度;M定 表示底圖定向誤差;M儀 表示掃描儀精度;M矢 表示矢量化誤差。這里,M定取±0.12mm,按300dpi計算M儀取±0.09mm,M矢取±0.1mm。則M掃=±0.180。
四、數據處理質量
土地信息系統的數據庫建立后,其中已經包含了數據源和數據庫建庫所引入的誤差。數據庫中的多源數據,經過系統的各種分析處理后,在形成新的數據和最后產品的過程中還會產生新的數據質量問題。這些問題包括:幾何改正,坐標變換和比例變換,幾何數據的編輯、屬性數據的編輯、空間分析,數據格式的轉換等。
1、空間分析
空間分析是對分析空間數據的技術的通稱。從客觀上區分,可歸納為:空間的圖形數據的拓撲運算;非空間屬性數據的運算;空間和非空間屬性的聯合運算等。空間分析賴以進行的基礎是空間數據庫,土地信息系統的空間數據分析,是實現土地資源信息系統的實際運用的重點途徑。
空間分析中的疊加分析是土地信息系統中十分常用的一種分析方法,是用戶經常用以提取數據的手段之一。通過同一地區不同內容的多幅地圖的疊加組合,產生新的圖形和屬性信息。在這個過程中往往產生拓撲匹配、位置和屬性方面的數據質量問題。由于疊加時多邊形的邊界可能不完全重合,從而產生若干無意義多邊形。對這些無意義多邊形進行處理的結果往往會改變界線的位置,疊加后形成的新的多邊形的屬性值也可能存在由于屬性組合帶來的誤差。
2、坐標變換
土地信息系統數據來源較多,各種數據輸入信息系統應便于系統對數據進行圖形顯示,疊加查詢,統計分析處理。LIS要實現這些功能,一個首要和基本的前提就是各種不同來源的數據在系統內必須在一致的地形圖坐標系下。但是,在實際的數據采集過程中,大量的數據坐標并不一定屬于系統用戶所要求的坐標系,原始數據為一種坐標系,系統要求的數據為另一種地圖坐標系,有的數據坐標根本沒有地理意義,對此情況,必須提供從一種地圖坐標系到另一中坐標系的坐標變換。
在具體的操作過程中,有可能產生新的誤差。在不同比例尺下對坐標數據的重新設立產生誤差,進行投影變換和/或基準面變換時產生的誤差。生產實踐中為提高數據質量,確保系統的數據精度和可靠性,通常用仿射變換和相似變換等模型來進行數據處理,以減小或消除誤差。
坐標變換的實質是建立兩個平面點之間的一一對應關系,現有一般GIS(LIS是GIS的專題)軟件大都提供了以下兩種模型實現坐標變換。
一是仿射變換:仿射變換也稱六參數變換,其變換公式為:
x
【土地信息系統建立過程中的數據質量問題的探討】相關文章:
建立互補型團隊06-04
建立內部控制審計與組織效率06-03
建立獨立的訴前調解程序構想06-03
藥學畢業集中實踐探討07-27
探討西瓜嫁接育苗技術05-29
行政訴訟目的探討06-03
控制稅收征管成本的探討06-01
關于行政侵權之探討06-03
局域網數據庫環境下數據采集及處理05-08
SCI論文發表過程中的幾種狀態02-02