- 相關推薦
基于JPEG雙量化效應的圖像盲取證
摘要:JPEG圖像的雙量化效應為JPEG圖像的篡改檢測提供了重要線索。根據JPEG圖像被局部篡改后,又被保存為JPEG格式時,未被篡改的區域(背景區域)的離散余弦變換(DCT)系數會經歷雙重JPEG壓縮,篡改區域的DCT系數則只經歷了1次JPEG壓縮。而JPEG圖像在經過離散余弦變換后其DCT域的交流(AC)系數的分布符合一個用合適的參數來描述的拉普拉斯分布,在此基礎上提出了一種JPEG圖像重壓縮概率模型來描述重壓縮前后DCT系數統計特性的變化,并依據貝葉斯準則,利用后驗概率表示出圖像篡改中存在的雙重壓縮效應塊和只經歷單次壓縮塊的特征值。然后設定閾值,通過閾值進行分類判斷就可以實現對篡改區域的自動檢測和提取。實驗結果表明,該方法能快速并準確地實現篡改區域的自動檢測和提取,并且在第2次壓縮因子小于第1次壓縮因子時,檢測結果相對于利用JPEG塊效應不一致的圖像篡改盲檢測算法和利用JPEG圖像量化表的圖像篡改盲檢測算法有了明顯的提高。
關鍵詞:雙量化效應;圖像篡改;拉普拉斯分布;盲取證
引言
JPEG(Joint Photographic Experts Group)是當前主流的圖像壓縮標準,是目前靜態圖像中壓縮比較高的,被廣泛地應用于多媒體和網絡程序中,而針對此類圖像的偽造篡改也是越來越多,并且僅僅依靠人眼很難辨別出真偽。在這種情況下圖像的真實性也就成為人們所關注的問題。因此,本文對此類圖像的取證技術展開研究。當前數字圖像取證技術主要分為兩類:主動取證和被動取證。主動取證技術[1]是預先對數字圖像嵌入脆弱水印或簽名,通過提取水印、簽名的手段進行取證; 相比之下,數字圖像被動取證技術作為一種在不依賴任何預簽名提取或預嵌入信息對圖像的真偽和來源進行鑒別的技術,只需要依靠待檢測圖像就可以實施取證,具有更高的應用價值,但其取證難度大于主動取證。針對經歷雙重JPEG篡改圖像,研究學者已經提出了各種盲取證算法。很多學者通過對圖像第1次壓縮量化表的估計來定位篡改區域[2-4];Farid[5]則通過使用不同的壓縮因子對待測的JPEG圖像進行再次壓縮,當壓縮因子與篡改區域的壓縮因子相同時,篡改區域表現出的失真程度最小,由此來實現對圖像篡改區域的檢測。He等[6]通過分析JPEG圖像的離散余弦變換(Discrete Cosine Transform, DCT)系數的雙重量化效應,通過尋找局部二次壓縮的痕跡,首次實現了對JPEG圖像的篡改區域的自動檢測和定位。Binghiamton大學的Fridrich研究小組運用將針對圖像單個像素點的方法轉化為對圖像塊的操作,提出了一種基于圖像塊的DCT量化系數分析的盲取證算法[7];李晟等[8]則用一定的壓縮因子對圖像進行再次壓縮,根據篡改區域的失真程度大于非篡改區域的失真程度,實現對JPEG圖像的篡改檢測;文獻[9]通過利用每個交流(Alternating Current, AC)系數頻率項的光譜能量密度中的峰值點個數與量化步長之間差值為1的特點,估計出量化表,進一步計算得到圖像的塊特征,通過塊特征之間的不連續性來檢測圖像是否經過篡改。
然而,現有的大部分盲取證算法大都要求待檢測圖像是未壓縮或者是壓縮因子較高的圖像,并且能夠廣泛應用的JPEG圖像的篡改檢測算法還比較少。本文基于JPEG圖像壓縮理論基礎,通過對JPEG圖像雙量化效應的分析,利用其DCT域的AC系數的分布符合拉普拉斯分布,并采用局部鄰域法對λ進行估計,依據貝葉斯準則,利用后驗概率表示出篡改圖像中存在的雙重壓縮效應的篡改塊,實現對篡改區域的自動檢測和提取。與文獻[11]所采用的算法相比,本文方法的檢測性能有很大的提升,特別是在第2次壓縮因子(QF2)比第1次壓縮因子(QF1)小時,檢測效果更好。
一、JPEG壓縮原理
JPEG壓縮和解壓過程如圖1所示,JPEG壓縮是一種有損壓縮,它是基于8×8像素塊的壓縮編碼過程,主要由預處理、分塊、離散余弦變換、量化、Huffman編碼等構成。
原始圖像數據分成8×8的小塊,經過DCT后,其低頻分量都集中在左上角,高頻分量分布在右下角,對于每一個8×8的小塊,其中D(0,0)(即第1行第1列元素,D為8×8的圖像塊)代表了直流(Direct Current, DC)系數,其他的63個元素是AC系數。而低頻分量包含了圖像的主要信息(如亮度),其中量化的目的就是為了保持低頻分量,抑制高頻分量,達到壓縮圖像的目的。而DCT系數的量化這一步驟是不可逆的,量化步長越大,圖像在進行反量化時,所丟失的高頻信息也就會越多,圖像失真也就會越明顯。量化矩陣通常與一定的壓縮因子相對應, 壓縮因子是一個從1到100的整數。圖像進行JPEG壓縮時,通常需要指定一個壓縮因子QF,一旦QF確定,量化矩陣QT就可以通過式(1)計算得出:
QT=[(QTij×α(QF)+50)/100]; i, j∈{0,1,2,…,7} (1
α(QF)=5000/QF,1≤QF<50
200-2QF,50≤QF≤100
其中:QTij是JPEG標準推薦亮度分量的量化矩陣,[・]表示四舍五入運算。
二、JPEG圖像合成篡改的數學模型
JPEG合成篡改圖像是指JPEG格式的圖像的一部分被其他圖像置換,如圖2所示,圖2(a)為一幅JPEG格式的背景圖像P1,圖2(b)為篡改來源圖像P2,圖2(c)為篡改合成圖像P3,其數學模型可用式(2)描述:
y(i, j)=A1⊙P1(i, j)+A2⊙P2(i, j)=A・P(i, j)(2)
其中:y(i, j)為JPEG篡改合成圖像;⊙表示Hadamard積;P1(i, j)為一幅JPEG格式的背景圖像;P2(i, j)為其他圖像(可以是JPEG格式的圖像,也可以是其他無損壓縮格式的圖像);源圖像P(i, j)=[P1(i, j),P2(i, j)]T;置換混合矩陣A=[A1,A2]。這里 A1=1, (i, j)∈U10, (i, j)∈U2
A2=1, (i, j)∈U10, (i, j)∈U2
其中:U1∪U2=U,U1∩U2=。本文的目的就是僅僅根據篡改合成圖像分離出源圖像P(i, j)中的篡改區域。
三、JPEG圖像雙重壓縮中的雙量化效應
JPEG圖像進行第1次壓縮時,需要用量化矩陣QT1對DCT系數進行量化,得到量化后的DCT系數。而進行第2次壓縮時,則先把量化后的DCT系數乘以第一次量化矩陣QT1,再使用第2次量化矩陣QT2來進行量化操作。
以分辨率為256×256的Lena灰度圖像為例,為了觀察直方圖特性,圖像進行8×8分塊的離散余弦變換后,我們提取所有8×8圖像塊的(1,2)位置處的DCT系數進行統計,圖4(a)顯示的是經過DCT后(1,2)位置上的未經量化的DCT系數概率分布直方圖,圖4(b)為經歷量化步長Q1=5后所有圖像塊 (1,2)位置上的DCT系數概率分布直方圖。從圖4(a)中可以看出,經歷離散余弦變換后,其AC系數在同一位置上的DCT系數直方圖呈現出近似的拉普拉斯分布;而經歷1次壓縮量化后,其系數值就會呈現出周期性的缺失,如圖4(b)所示。
設第一次壓縮過程中未量化的DCT系數為D1,量化后的系數為D1′,量化步長為Q1,第二次量化后的DCT系數為D2,量化步長為Q2。根據JPEG壓縮和解壓過程可以得到:
D2=D1Q1Q1Q2
根據取整的性質可以推出:
Q1×(「Q2Q1(D2-1/2)-12)≤D1<
Q1×(Q2Q1(D2+1/2)」+12)
其中:・」為向下取整運算,「・為向上取整運算,[・]為四舍五入取整運算。設定:
L(D2)=Q1×(「Q2Q1(D2-1/2)-12)
R(D2)=Q1×(Q2Q1(D2+1/2)」+12)
因此我們可以用DCT系數直方圖上的區間長度來描述經歷雙重壓縮前后系數之間的變化關系如式(3):
n(D2)=R(D2)-L(D2)=
Q1×Q2Q1(D2+1/2)」-「Q2Q1(D2-1/2)+1(3
根據式(3)可以看出,n(D2)是D1取值區間的長度,并且是一個周期函數,而它的周期性是DCT系數直方圖出現周期性的根本原因。且周期為p=Q1gcd(Q1,Q2),其中gcd(Q1,Q2)表示為Q1和Q2的最大公約數。
四、基于JPEG雙量化效應的檢測算法
4.1JPEG篡改圖像雙重壓縮效應分析
當一個源圖像經過篡改后又保存為JPEG格式的圖像時,未被篡改的區域(背景區域)會經歷了2次JPEG壓縮,其DCT系數值會表現出雙重壓縮效應,然而篡改區域則只經歷過1次JPEG壓縮,該區域的DCT系數不會表現出雙重壓縮效應。下面分3種情況來說明:
1)當篡改區域(置換區域)的圖像來自于非JPEG格式的圖像時(比如,BMP、TIF格式的圖像或者其他無損格式的圖像時),篡改來源圖像本身就沒有經歷過JPEG壓縮,當篡改圖像最終保存為JPEG格式,篡改區域只經歷了1次JPEG壓縮,自然不會表現出雙重壓縮效應。
2)圖像的篡改區域和背景區域的8×8分塊位置一致的概率很低。在實際的篡改操作中往往會對圖像中的某個特定區域進行篡改偽造。當篡改區域來自JPEG圖像,假設背景區域的起始位置的坐標為(x1,y1),篡改區域置換的起始位置為(x2,y2),那么(|x2-x1|%8,|y2-y1|%8)=(0,0)的幾率只有1/64,也就是說篡改區域表現出雙重壓縮效應的幾率僅僅有1/64。
3)篡改者為了使圖像看起來更加真實,往往會對置換區域的邊緣進行模糊潤飾、羽化、平滑等操作,此時這些邊緣塊就不會包含完整的8×8圖像塊,篡改區域相當于只經歷了1次JPEG壓縮。
4.2依據貝葉斯準則提取篡改塊的特征值
本文通過建立經歷2次壓縮和1次壓縮時圖像像素分布的概率模型,利用貝葉斯估計的方法估計出待測圖像中每一個像素點被篡改的概率。根據文獻[10]得知,圖像經過基于8×8塊的離散余弦變換后,其所有塊同一位置的交流(AC)系數的直方圖分布可以用一個以λ為參數的近似拉普拉斯分布函數來表示。因此對于一個未經量化的DCT系數塊的AC分量系數D1的一個系數x(i, j)服從以λ(i, j)為參數的拉普拉斯分布:
p(D1)=λ(i, j)2 exp(-λ(i, j)D1)(4)
其中:λ(i, j)為位于第i行(i∈0,1,2,…,7);第j列(j∈0,1,2,…,7)的DCT系數所對應的分布參數。
文獻[11]直接使用λ=2/σ,σ為圖像的標準差,此方案能準確地描述出第2次壓縮因子大于第1次壓縮因子時(QF2>QF1)的概率分布,然而當JPEG圖像的壓縮比越來越大時,也就是第2次壓縮因子小于第一次壓縮因子時(QF2 本文則采用局部鄰域法對當前子塊的λ矩陣進行估計。圖5顯示的是本實驗中采用的鄰域算法,僅考慮當前塊(圖5中黑色區域部分)及其鄰域(鄰域的大小取24,圖5中白色區域部分)。對位于圖像邊界位置的塊,則只考慮其位于圖像邊界內的相鄰塊計算λ,得到與這些塊相對應的λ矩陣。此方案能夠在深度量化條件下(即QF2遠小于QF1)也能達到較好的估計效果。
由式(3)可知,未篡改區域(背景區域)經過2次壓縮后,區間 [L(D2),R(D2)]內的原始DCT系數D1會被映射成同一個值D2,那么對于背景區域中AC分量系數D2的系數x(i, j)的概率可以由式(5)表示為:
p(D2H1)=∫R(D2)L(D2)p(D1)dD1=
F(R(D2))-F(L(D2))(5)
其中:H1代表圖像塊中未被篡改的像素,F(x)是累積分函數。通過第3章分析可知,當篡改區域的1次量化可以看成量化步長Q2=Q1的2次量化。因此篡改塊的DCT系數為D2的概率可以用式(6)表示為:
p(D2H2)=F(R′(D2)-F(L′(D2))(6)
其中:R′(D2)=Q2(D2+1/2」+1/2),L′(D2)=Q2(「D2-1/2-1/2)。
H2代表圖像塊中被篡改的像素。依據貝葉斯準則,則圖像塊中像素未被篡改的概率為:
p(H1D2)=p(D2H1)×p(H1)p(D2H1)×p(H1)+p(D2H2)×p(H2) (7)
其中,p(H1)和p(H2)分別為待檢測圖像的像素為正常和篡改時的先驗概率,在本實驗中取0.5,則:
p(H1D2)=p(D2H1)p(D2H1)+p(D2H2)(8
由于JPEG壓縮是基于8×8像素塊操作的,具有64個頻率值(1個直流系數和63個交流系數),文獻[12]研究證明,經量化后少數AC系數已經能很好地表示出圖像的紋理信息。式(8)是圖像中單個像素為正常時的后驗概率,在實驗中將每一個8×8的小塊內的63個AC分量(DC分量不滿足拉普拉斯分布)的后驗概率值相加,就可以得到圖像塊的后驗概率值T。
T=∑Nj=1pj(9)
其中N=63,pi為每一個8×8像素塊內的63個AC分量的后驗概率值。
T作為每個8×8圖像子塊的檢測特征值。在實驗中如果待檢測塊是篡改塊則特征值T接近于0,并且會集中在一個集中區域。然后通過設置閾值進行分類判斷,就可以定位出圖像的篡改區域。
在實驗中,還需要知道篡改圖像第1次壓縮時的量化矩陣QT1和第2次壓縮時的量化矩陣QT2。QT2可以用Matlab JPEG Toolbox[13]從待測JPEG圖像頭文件中提取,而QT1則需要進行估計。本實驗中采用的是文獻[3]的方法對QT1進行估計。
五、實驗結果與分析
本文實驗選取的圖像為灰度圖像,RGB圖像可以轉化為灰度圖像,測試圖像分辨率為256×256,實驗平臺為Matlab R2014a。為驗證算法的有效性,從圖像庫中選取100幅圖像進行測試,存儲格式都為BMP格式。然后使用壓縮因子QF1∈{60,65,70,75,80,85,90,95}分別對這100幅圖像進行壓縮,生成1次JPEG壓縮圖像,得到100×8幅JPEG圖像。然后使用對其進行篡改操作,篡改圖像分別以壓縮因子QF2∈{60,65,70,75,80,85,90}重新壓縮保存,則總共生成 5600 幅合成偽造圖像。在實驗中,檢測率由式(10)計算得到:
ρ=1N∑Ni=0Si∩EiEi(10)
其中:Si為在圖像i中檢測出的篡改區域面積;Ei為真實的篡改區域面積;N為圖像的總數,在此N=100。
使用本文算法進行檢測,結果見表1,把本文算法明顯優于文獻[11]中的算法的結果用下劃線標注。表2為文獻[11]算法得到的檢測率,可以看出,實驗中沒有進行QF2=QF1情況下的實驗,因為根據第3章分析可知,這種情況下不滿足雙量化效應。當QF2>QF1時,兩種算法都有較好的檢測效果,并且當第2次壓縮因子QF2遠大于第1次壓縮因子QF1時,量化步長Q1>Q2,此時直方圖所表現出的周期特性非常明顯,在JPEG篡改圖像中其像素為正常的后驗概率值p(H1u2)=0,并大大增強了對篡改塊的檢測效果。并且當QF2遠大于QF1時,在直方圖上的值會表現出周期性的缺失,其表現出的雙重壓縮特性會越來越明顯,檢測的效果也越好,如圖6(a)、(b)所示,此時幾乎能夠完全檢測出篡改區域;但是當QF2Q1,經過壓縮后的圖像的DCT系數的高頻部分會出現大量的0值,此時直方圖上的值會表現出周期性的波峰和波谷,直方圖的周期性就不是很明顯,未篡改區域的雙重壓縮特征表現不明顯,但是在本實驗中,通過采用局部鄰域法對λ 估計方法,在深度量化的情況下(即QF2)。本實驗中出現漏檢和誤檢主要有以下3方面原因:1)當篡改圖像的背景圖像極為單一時,其DCT域系數統計特性不明顯,此時采用本文檢測方案時容易出現誤判;2)對檢測特征值T進行分類時,閾值設置不當,導致圖像塊被分類為篡改塊;3)對λ矩陣的估計不準確導致對圖像塊篡改概率值計算錯誤,導致圖像塊被錯誤的認定為篡改塊。
六、結語
本文利用了JPEG圖像雙重壓縮對DCT系數分布產生的影響,提出了一種基于DCT系數雙量化映射關系的檢測算法。該算法能很好地檢測出篡改圖像中的篡改區域,對于QF1>QF2的情況下,檢測率相對于其他傳統算法有明顯的提高。能否準確估計原始DCT系數分布在很大程度上影響了整個算法的準確性,但是本文所采用的近似的以λ為參數的拉普拉斯分布模型,能很好地體現出原始DCT系數分布,但是由于本文中忽略了直流(DC)系數,這將會對檢測結果的準確性造成一定的影響,并且當來自于不同原始圖像的背景和對象的原始壓縮因子都相同情況下(即QF2=QF1時)的合成圖像的檢測,本文算法則不起作用。后面將針對此類JPEG合成篡改圖像進行繼續研究。
參考文獻:
[1]LIE W, LIN T, CHENG S. Dual protection of JPEG images based on informed embedding and twostage watermark extraction techniques[J]. IEEE Transactions on Information Forensics and Security, 2006,1(3):330-341.
[2]BIANCHI T, PIVA A. Image forgery localization via blockgrained analysis of JPEG artifacts[J]. IEEE Transactions on Information Forensics and Security, 2012,7(3):1003-1017.
[3]LUKAS J, FRIDRICH J. Estimation of primary quantization matrix in double compressed JPEG images[C]// Proceedings of the 2003 Digital Forensic Research Workshop. Piscataway: IEEE, 2003:67-84.
[4]LIN T, CHANG M, CHEN Y. A passiveblind forgery detection scheme based on contentadaptive quantization table estimation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011,21(4):421-434.
[5]FARID H. 1 exposing digital forgeries from JPEG ghosts[J]. IEEE Transactions on Information Forensics and Security, 2009, 4(1):154-160.
[6]HE J, LIN Z, WANG L, et al. Detecting doctored JPEG images via DCT coefficient analysis[C]// Proceedings of the 9th European Conference on Computer Vision, LNCS 3953. Berlin: Springer, 2006: 423-435.
[7]FRIDRICH J, SOUKAL D, LUKAS J. Detection of copymove forgery in digital images[C]// Proceedings of the 2003 Digital Forensic Research Workshop. Piscataway: IEEE, 2003:1-10.
[8]LI S, ZHANG X. Detection of composite images based on JPEG compression properties[J]. Journal of Applied Sciences, 2008, 26(3):281-287.(李晟,張新鵬. 利用JPEG壓縮特性的合成圖像檢測[J].應用科學學報,2008,26(3):281-287.)
[9]YE S, SUN Q, CHANG E. Detecting digital image forgeries by measuring inconsistencies of blocking artifact[C]// Proceedings of the 2007 IEEE International Conference on Multimedia and Expo. Piscataway: IEEE, 2007:12-15.
[10]REININGER R, GIBSON J. Distributions of the twodimensional DCT coefficients for images[J]. IEEE Transactions on Communications, 1983,31(6):835-839.
[11]WANG Q, ZHANG R. Exposing digital image forgeries based on double quantization mapping relation of DCT coefficient[J]. Journal of Electronics and Information Technology, 2014,36(9):2068-2074.(王青, 張榮. 基于DCT系數雙量化映射關系的圖像盲取證算法[J]. 電子與信息學報, 2014, 36(9):2068-2074.)
[12]ICHIGAYA A, KUROZUMI M, HARA N, et al. A method of estimating coding PSNR using quantized DCT coefficients[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2006, 16(2):251-259.
[13]DDE Lab at Binghamton University. Matlab JPEG toolbox [EB/OL].[20150703].http://dde.binghamton.edu/download/feature_extractors/.
【基于JPEG雙量化效應的圖像盲取證】相關文章:
直接取證及美國域外取證制度評析(上)05-30
醫學圖像領域中數字圖像處理的應用論文04-19
影視公司并購重組的路徑與效應08-21
量刑與刑的量化-兼論“電腦量刑”06-03
英語教學加強整體效應探析06-01
中國股市投資者的處置效應05-29
談地理圖像投影導學法08-21
孔子樂正“詩三百”的經化效應05-28
試析基于勝任素質的薪酬模式構建01-03