- 相關推薦
基于自編碼神經網絡建立的搜索信息模型
摘 要:根據用戶搜索歷史,將用戶關注的信息按標題分類,通過自編碼神經網絡提取特征值。設定學習樣本標題最多為25個漢字,編碼方式采用漢字機內碼(GBK碼)。使用MATLAB工具進行深度學習,將樣本在原空間的特征表示變換到一個新的特征空間。
關鍵字:文本特征;自編碼神經網絡;深度學習;Matlab
基于自編碼神經網絡建立搜索信息模型的目的是根據用戶搜索信息的歷史,推斷出網頁中的內容是用戶關注的信息并即時顯示。首先將用戶關注的歷史信息按標題分類,通過自編碼神經網絡建立標題特征值數據庫。當自編碼神經網絡搜索信息模型工作時,按照用戶提供的關鍵詞順序,打開用戶經常瀏覽的網頁,讀入標題文本,若具有數據庫中的標題特征,則將該標題的文本內容即時顯示。
直接解析網頁中的標題文本,面臨的基本問題是文本的表示。如果把標題文本所有的詞都作為特征項,那么太多的特征向量維數導致計算量太大。例如50個標題,每個標題25個漢字,特征項將有50×25=1250個。如果將標題中的某個關鍵詞作為特征詞,將會有幾千個包含關鍵詞的標題,從而導致讀入分析量過于巨大。本文采用自編碼神經網絡,用映射變換的方法把原始文本特征變換為較少的新特征,提高信息搜索效率。
1 自編碼神經網絡
1.1 自編碼神經網絡理論
Auto-Encoder(自編碼)[1],自編碼算法是一種基于神經網絡算法的無監督學習算法,與神經網絡算法的不同之處是將輸入值作為輸出節點的輸出。自編碼算法的另一個特征是隱藏層節點的個數一般少于輸入輸出節點的個數。這樣的意義是將輸入的特征通過神經網絡的非線性變換到節點數更少的隱藏層。因此,可以通過自編碼神經網絡對給定的樣本進行訓練學習,從而得到輸入數據降維后的特征,即為隱藏層的節點數,省去了人工特征提取的麻煩。
自編碼神經網絡結構示意圖如圖1所示[2]。這是一種深度學習的神經網絡,包含了多個隱含層,整個網絡是一種對稱的結構,中心層的神經元的個數最少。網絡通過對樣本的訓練可以得到一組權值系數,而輸入數據通過這組權值系數表達成低維形式,從而達到了用降維后的特征表示出輸入的數據。
圖1 自編碼神經網絡的結構
Fig.1 The structure of auto-encoder neural network
1.1.1 預訓練
(1) 輸入參數的確定:標題是作者給出的提示文章內容的短語,標題一般都簡練、醒目,有不少縮略語,與報道的主要內容有著重要的聯系。如登陸我的鋼鐵網站,搜索鋼管熱點資訊,顯示的標題有“我國自主研制*****油管成功替代進口”,學習樣本選擇50組標題,每個標題不超過25個漢字,如表1所示。
表1 學習樣本
Tab. 1 Learning samples
1
我國自主研制高端耐熱鋼無縫鋼管成功替代進口
2
我國自主研制K55石油套管成功替代進口
3
我國自主研制J55稠油熱采套管成功替代進口
4
我國自主研制專用耐高溫防火船舶用套管成功替代進口
5
我國自主研制20G高壓鍋爐管成功替代進口
6
我國自主研制特殊用途低溫用管成功替代進口
7
我國自主研制起重機臂架無縫鋼管成功替代進口
8
我國自主研制精密合金4J36船用管材成功替代進口
9
我國自主研制高強韌性高抗擠毀套管成功替代進口
10
我國自主研制三種極限規格管線管成功替代進口
…
……
50
我國自主研制醫藥化工用管成功替代進口
(2) 語句預處理[3]:學習樣本句子進行預處理是把句子中的每一個漢字變換成自編碼神經網絡模型能接受的數字化形式。為了使神經網絡能接受外部數據,首先要對句子中的漢字進行編碼,編碼方式是采用漢字的計算機內碼(GBK碼)。每個漢字機內碼有16位二進制,如:“我國自主研制”的二進制碼為
1100111011010010 我(GBK碼)
1011100111111010 國(GBK碼)
1101011111010100 自(GBK碼)
1101011011110111 主(GBK碼)
1101000111010000 研(GBK碼)
1101011011000110 制(GBK碼)
將16位二進制數轉換為十進制數并進行線性變換,映射到實數[0 1]之間,作為輸入神經元初值。變換公式如下:
式中:maxi和mini;tmax和tmin分別為x(p)i,t(p)量程范圍的最大值和最小值。
(3)預訓練:幾個獨立的RBM構成“堆棧”構成了預訓練部分,而RBM是BM (boltzmannmachine)的一種特殊連接方式。圖2即為RBM的網絡構成。它是一種隱含層神經元無連接,并且只有可見層和隱含層兩層神經元。
圖2 RBM網絡構成
Fig. 2 Construction of restricted boltzmannmachine
BM的權值調整公式為[4]
(1)
式中:在第t步時神經元i、j間的連接權值為wij(t);η為學習速率;T為網絡溫度;+、-分別為正向平均關聯和反向平均關聯。
在RBM中,可見層神經元的輸出和隱含層神經元輸出的乘積即為平均關聯。系數ε由η和T統一合并而成,迭代步長即由權值調整公式ε表示。
圖3 RBM網絡結構圖
Fig. 3 RBM network structure diagram
(4)MATLAB實現:
本文建立的BP神經網絡模型結構為
[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]
設定網絡隱含層的激活函數為雙曲正切S型函數tansig,輸出層的激活函數為線性激活函數purelin,網絡的訓練函數為Levenberg-Marquardt算法訓練函數trainlm。因此對應的MATLAB神經網絡工具箱的程序語句為
net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);
net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);
net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);
設定學習速率為0.01,最大訓練步數為300,目標誤差為0.00001。
(5)預訓練結果:
預訓練結果如表2所示。
表2 預訓練結果
Tab. 2 The results of pre training
誤差
學習速率
步長
[25,15,25]
0.003248
0.01
150
[15,12,15]
0.0022809
0.01
125
[12,10,12]
0.0025866
0.01
100
[10,8,10]
0.0039575
0.01
75
[8,5,8]
0.013529
0.01
50
1.1.2 展開
如圖4所示,將各個RBM連接,得到自編碼神經網絡。預訓練所得到的權值,將作為整個自編碼神經網絡的初始權值,參與整個網絡的微調訓練。
圖4 RBM展開圖
Fig. 4 Development of RBM network structure
1.1.3 微調
微調訓練是在預訓練得到初始權值的基礎上,對權值進一步調整。采用以交叉熵為目標函數[5]的BP算法完成網絡的微調訓練。交叉熵是用來度量兩個概率分布間差異性的,它是一個非負數,兩個分布越相似,其越小。原始的交叉熵定義為
(4)
式中:x為隨機變量;q(x)為已知概率分布;p(x)為估計概率分布。
對于隨機變量x,當用q(x)估計p(x)時,通過調整受x影響的p(x)來最小化交叉熵D(p‖q),用于自編碼神經網絡權值調整的BP算法交叉熵函數形式為
(5)
式中:ti目標概率分布;yi實際概率分布。
整個網絡訓練的目的是調整權值以使交叉熵函數達到最小,權值調整公式為
根據上面的權值調整公式,可以完成網絡的微調訓練。訓練結果如表3所示。
表3 微調訓練結果
1.1.4 特征提取
50組標題(每個標題不超過25個漢字)的學習訓練,通過自編碼網絡的逐層特征變換,將樣本數據約1250(50×25)個漢字編碼,在原空間的特征表示變換到一個新特征空間。其中網絡最深隱含層的輸出值(5個)和權值矩陣W6(5×8=40個),共計45個,為提取標題文本1250個漢字編碼的特征值。
2 實 例
本文選取10組標題文本見表4,分別輸入自編碼神經網絡。預測結果表示基本符合要求。
表4 預測結果
Tab. 4 The prediction results
序號
樣本輸入
結果顯示
1
我國自主研制的蛟龍號深水探測器成功替代進口
無
2
我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口
我國自主研制首臺3.6萬噸垂直擠壓機擠合格鋼管成功替代進口
3
我國自主研制的超級計算機系統成功替代進口
無
4
我國自主研發的1000MPa高壓共軌管成功替代進口
我國自主研發的1000MPa高壓共軌管成功替代進口
5
我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口
我國自主研制超臨界電站無縫鋼管T92、P92成功替代進口
6
我國自主研制重載火車頭下線成功替代進口
無
7
我國自主研制成功特高壓交、直流套管成功替代進口
我國自主研制成功特高壓交、直流套管成功替代進口
8
我國自主研制的Q355GNH系列耐候鋼成功替代進口
我國自主研制的Q355GNH系列耐候鋼成功替代進口
9
我國自主研制的渦槳支線飛機成功替代進口
無
10
我國自主研制釩微合金L290管線鋼成功替代進口
我國自主研制釩微合金L290管線鋼成功替代進口
3 結 語
本文按照標題文本分類檢索信息,解決了直接按照關鍵詞搜索信息,網頁中經常顯示幾千條包含關鍵詞內容的標題本文,從而導致讀入分析信息量過于巨大的問題。通過自編碼神經網絡提取文本特征,在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,簡化計算,提高了文本處理的速度和效率。
參考文獻:
[2] 趙杜娟, 劉高平, 黃華, 等.自編碼神經網絡車牌字符識別研究[C]//多媒體學術會議(NCMT2009). 西安:清化大學出版社, 2009: 113-119.
[3] 吳芬芬. 信息抽取算法研究. 吉林大學碩士學位論文, 2006.
[4] 劉高平, 趙杜娟, 黃華.基于自編碼神經網絡重構的車牌數字識別[J].電子激光, 2011, 22(1): 144-148.LIU
[5] ZHANG Jian, FAN Xiaoping, et al. Research on characters segmentation and characters recognition in intelligent LPR system[C]//Proceedings of the 25th Chinese Control Conference. Harbi: Beihang University Press, 2006: 7-11.
[1]G.E.Hinton, R.R.Salakhutdinov. Reducing the Dimensio- nality of Data with Neural Networks, Science 313:504-507, 2006.
【基于自編碼神經網絡建立的搜索信息模型】相關文章:
基于改進BP的神經網絡模型參考自適應控制03-21
基于社會網絡的信息傳播度量模型論文11-22
基于MapX的城市GIS的初步建立03-07
基于LMBP神經網絡的聲納圖像識別03-07
人工神經網絡模型及其在優化問題中的應用03-07
基于戰略系統的審計風險模型研究03-04
基于活動的日活動計劃模型研究11-22
基于顧客價值的共生營銷模型研究03-22