2.3 數字圖像具有一些度量和拓樸性質,與我們在基礎微積分中所熟悉的連續兩維函數的性質有所不同。另一個不同點在于人對圖像的感知,因為對圖像質量的判斷也是重要的。 2.3.1 數字圖像的度量和拓樸性質 一幅數字圖像由有限大小的像素組成,像素反映圖像特定位置的亮度信息,通常(從此以后我們都這樣假設)像素按照矩形采樣柵格布置。我們用兩維矩陣來表示這樣的數字圖像,矩陣的無素是整數,對應于亮度范圍的量化級別。 連續圖像所具有的一些明顯的直覺特性在數字圖像領域中沒有直接的類似推廣[Pavlids 77Brd and Brown 82]。距離(distance)是一個重要的例子。坐標為(ij)和(hk)的丙點間的距離可以定義為幾種形式,經典幾何學和日常經驗中的歐氏距離(Euclidean distance)DE定義為: De[(ij)(hk)]=(I-h)2+(j-k)2 歐氏距離的優點是它在事實上是直觀且顯然的。缺點是平方根的計算費時且其數值不是整數。 兩點間的距離也可以表示為在數字柵格上從起點移動到終點所需的最少的基本步數。如果只允許橫向和縱缶的移動,就是距離D4。D4也稱為“城市街區(city block)”距離,這是因為:它類似于在具有柵格狀街道和封閉房子塊的城市里的兩個位置的距離。 D4[(ij)(hk)]=│i-h│+│j-k│ 在數字柵格中如果允許沿對角線方向的移動,我們就得到了距離,常稱這為“棋盤()”距離。距離等于國王在棋盤上從一處移動到另一處所需的步數。 D8[ (ij) (hk) ]=max{│I-h││j-k│} 任何距離都可以作為斜切(chamfering)的基礎,在切中產生像素與某個圖像子集(多半表示某種特征)的距離。所產生的圖像在該子集元素位置處的像素值為0,鄰近的像素具有較小的值,而遠處的數值就大,該技術的命名源于這個陣列的外觀。斜切在斜面匹配(chamfer matching)中有價值,將在第5.4節介紹。如下的兩遍算法是基于簡化了的歐氏度量導出的[Barrow et al.77],原出處是[Rosenfeld and Pfalz 68]。 ALALBR ALAL BRBR ALBRBR 圖2.7斜切中使用的像素領域——像素p位于中心 1.按照一種距離度量D,D是D4或D8對大小為M×N的圖像的一個子集S做切,建立一個的數組F并進行初始化:子集S中的置為0其他置為無窮。 2.按行遍歷圖像,從上到下、從左到右。對于上方和左面的鄰接像素,如圖2.7的AL所示的集合,設: F(p)= min[F(p)D(pq)+F(q)] q∈AL 3.按行遍歷圖像,從下到上,從右到左。對于下方和右面的鄰接像素,如圖2.7的BR所示的集合。設: F(p)= min[F(p)D(pq)+F(q)] q∈BR 4.數組F中得到的是子集S的斜切。 這個算法在圖像邊界處顯然需要調整,因為這些位置上集合AL和BR被截斷了。 像素鄰接性(adjacency)是數字圖像的另一個重要概念。任意兩個像素如果它們之間的距離D4=1,則稱彼此是4-鄰接(4-neighbors)的。類似地,8-鄰接(8-neighbors)指的是兩個像素之間的距離D8=1。4-鄰接和8-鄰接參見圖2.8。 圖2.8 像素鄰接性 由一些彼此鄰接的像素組成的重要集合,我們稱之為區域(region),這是一個重要的概念。對于熟悉集合論的讀者,我們可以簡單地說區域是一個連通集。更具描述性的說法是,如果我們定義從像素P到像素Q的路徑為一個點序列A1,A2,……An,其中A1=PAn=Q,且Ai+1是Aì的鄰接點,ì=1..n-1那么區域(region)是指這樣的集合,其中任意兩個像素之間都存在著完全屬于該集合的路徑。 如果一幅圖像的兩個像素之間存在一條路徑,那么這些像素就是連通的(contiguous)。因此,我們可以說區域是彼此連通的像素的集合。“連通”關系是自反的、對稱的且具有傳遞性的,因此它定義了集合(在我們的情況下是圖像)的一個分解,即等價類(區域)。 假設Ri是“連通”關系產生的不相交的區域,進一步假定(為了避免特殊的情況)這些區域與圖像的邊界(是指圖像矩陣中具有最小和最大標號的行和列)不接觸。設區域R是所有這些區域Ri的并集,這樣我們就可以定義區域R相對于圖像的補集合RC。我們稱包含圖像邊界的RC的邊通子集合為背景(back-ground),而稱補集合Rc的其他部分為孔(hole)1.如果區域中沒有孔,我們稱之為簡單連通(simply contiguou)區域。有孔的區域稱為復連通(multiply contiguou)。 請注意,區域概念只使用了“連通”性。我們可以給區域賦予第二屬性,這些源于對圖像數據的解釋。我們常稱圖像中的一些區域為物體(object),決定圖像中哪些區域對應于世界中的物體的過程是圖像分割(segmentation),將在第5章中進行介紹。 像素的亮度是一種非常簡單的性質,在有些圖像中可以用于尋找物體,例如,如果一個像素比先給定的值(閾值)暗的話就屬于物體。所有這樣的點的連通集構成一個物體。一個孔由非物體的點組成且物體的點組成且被子物體所包圍,所有其他的點就構成了背景。 例如,白紙上印刷的黑色文本,其中字母是物體。字母包圍的白色范圍是孔,例如,字母O的內部。紙的其他部分是背景。 定義在方形柵格上的鄰接性和連通性造成一些悖論(paradoxe)。圖2.9給出兩條45O的數字線段。如果使用4-鄰接,線條上的點都是不連通的。其中還顯示一種與線條性質的直覺理解相盾的更的情況:兩條相互垂直的直線在一種情況下(右上方)的確相交,但是在另一種情況下(左下方)卻不相交,這是因為它們根本沒有任何共同點(即它們的交集是空)。 在歐氏幾何學中,我們知道每個封閉的曲線(例如,一個圓)將平面分割成兩個不連通的區域。如果圖像數字化為一個鄰接的方形柵格,我們可以從封閉曲線的內部到其外部畫一條線但不與該曲線相交(參見圖2.10)。這意味著曲線的內部和外部構成一個區域。這是因為線上的所有點屬于一個區域。這是另一個悖論。 解決連通性悖論的一種方法是,對物體用鄰接處理,面對背景用鄰接處理(或反過來)。有關二值和更多亮度級別的數字圖像悖論,在[Pavlidis 77Horn 86 ]中有更為嚴格的處理及解決方法。 這些問題對于方形柵格是很典型的,但是對于六邊形柵格(參見圖2.4)很多問題就不存在了。六邊形光柵中的任何點與其6個鄰接點的距離都相同。六邊形光柵也有一些自身的特殊問題,比如,它很難用立葉變換來表示。 解決連接(connectivity)性問題的另一種方法是使用基于單元復合(cell complex)的離散拓樸[Kovalevsky 89 ]。這種方法得出了一整套有關圖像編碼與分割的理論,其中涉及的許多問題這們在后面會遇到,比如邊界和區域的表示問題。這種思想最早是Riemann在19世紀提出來的,它考慮的是不同維數的集合的族,0維的點可以賦給含有更高維結構(比如像素數組)的集合,這樣可以排除我們所見到的悖論。 考慮到簡單性和易于處理,盡管存在上述缺欠,多數數字化轉換器仍然使用方形柵格。 區域的邊界(border)是圖像分析中的另一個重要概念。區域R的邊界是它自身的一個像素集合,其中的每個點具有一個或更多個R外的鄰接點。該定義與我們對邊界的直覺理解相對應,即邊界是區域的界限上的點的集合。有時我們稱這樣定義的邊界為內部邊界(inner border),以便與外部邊界(outer border)相區別,外部邊界是指區域的背景(即區域的補集)的邊界。 邊緣(edge)更深一步的概念。它是一個像素和其直接鄰域的局部性質,它是一個有大小和方向的矢量。邊緣計算匠對象是具有很多亮度級別的圖像,計算邊緣的方式是計算圖像函數的梯度。邊緣的方向與梯度方向垂直,梯度方向指向函數增長的方向。我們在第4.3.2節將詳細討論邊緣內容。 請注意,“邊界”與“邊緣”是不同的。邊界是與區域有關的全局概念,而邊緣表示圖像函數的局部性質;邊界與邊緣也是關聯的,一種尋找邊界的方法是連接顯著的邊緣(在圖像函數上具有大梯度的點)這種方法將在第5.2節介紹。 邊緣性質隸屬于一個像素及其鄰域,有時評定兩個像素對之間的性質也是有益的,裂逢邊緣(crackedge)就是這樣的一個概念。每個像素有四個裂縫邊緣,由其4-鄰接關系定義而得。裂縫邊緣的方向沿著亮度增大的方向,是90的倍數,其幅值是相關像素對亮度差的絕對值。裂縫邊緣參見圖2.11,這部分內容將在第5章的圖像分割中用到。 圖像的拓樸性質(topological property)對于橡皮面變換(rubber sheet transformation)具有不變性。想象一下在一個小的橡皮球表面上繪制物體的情況,物體的拓樸性質是在橡皮表面任意伸展時都具有不變性的部分。伸展不會必變物體部分的連通性,也不會改變區域中局限性的數目。Euler-Poincaré特征(characteristic)是圖像的一個拓樸性質,定義為區域數與其中的孔數的差值。其他不具有橡皮面不變性的性質將在第6.3.1節介紹。 凸包(convex hull)是用來表述物體拓樸性質的一個概念。凸包含物體的一個最小區域,該區域中任意兩點之間的連線都屬于本區域。例如,考慮一個形狀類似于字母R的物體(參見圖2.12)。想像一個細橡皮帶緊繞著物體,橡皮帶的形狀就反映了物體的凸包。凸包的計算在第6.3.3節中描述。作 非規則形狀的物體可以用一組它的拓樸分量來表示。凸包中非物體的部分稱為凸損(deficit of convexity),它可以分解為兩面三刀個子集。其一是湖(lake)(圖2.12中有陰影線的部分),完全被物體所包圍;其二是海灣(bay),與物體凸包的邊界連通。 凸包、湖和海灣有時用來描述物體,這些特征在第6章(物體)和第11章(數學形態學)中將會用到。 2.3.2 直方圖 圖像的亮度直方圖(brightness histogram)hf(z)給出圖像中亮度值z出現的頻率,一幅有L個灰階的圖像的直方圖由具有L個元素的一維數組表示。 1.數組hf的所有元素賦值為0 2.對于圖像f的所有像素,做hf[f(xy)]+1處理。 前面我們曾講過,圖像可以作為隨機過程實現來分析,故可以考慮一階密度函數p1(zxy),它表示像素(x、y)的亮度值z。如果不考慮像素的位置,我們得到一個密度函數p1(z),亮度直方圖就是它的估計。 直方圖通常用條狀圖來顯示。圖2.13給出了圖2.3中圖像的直方圖。 直方圖通常是有關圖像的唯一可得到的全局信息。在尋找最佳的照明條件以便抓取圖像、進行灰階度換以及將圖像侵害為物體和背景這些場合,都要用到直方圖。請注意,同一直方圖可能對應幾幅圖像,例如,當背景是常數時物體位置的改變不會影響直方圖。 數字圖像的直方圖一般都有很多局部極小值和極大值,這會便進一步的處理變得復雜。這個問題可以通過對直方圖進行局部平滑來解決,比如,可以用相鄰直方圖元素的局部平均來做,因此新的直方圖可按下式來計算: h f (z)=∑hf (z+i) 其中K是一個常量,代表平滑所使用的領域的大小。這個算法需要某種邊界調整,也不能保證去除所有的局部極小。還有一些其他平滑技術,重要的有高斯模糊(Gaussian blurring),在直方圖的情況下,它是2D高斯模糊[公式(4.25)]的簡化,將在第4.3.3節中介紹。 2.3.3圖像的視覺感知 我們在設計或使用數字圖像處理算法或設備時,應該考慮人的圖像感知原理。如果一幅圖像由人來分析的話,信息應該用人容易感知的變量來表達,這些是心理物理參數,包括對比度、邊界、形狀、紋理、色彩等等。只有當物體能夠毫不費力地從背景中區分出來時,人才能從圖像中發現它們。有關人的感知原理的詳細論述可以參見[Cornsweet 70Winston75Marr82Levine 85]人的圖像感知產生很多錯覺,了解這些現象對于理解視覺機理有幫助。其中比較為人熟知的一些錯覺我們這里將提到,從計算機視覺的角度[Frisby 79]詳盡地論述這一主題。 如果人的視覺系統對復合輸入剌激的響應是線性的,即是各自剌激的簡單的和,問題就會相對容易些。一些剌激的衰減,即圖像中物體的部分區域,可以通過亮度、對比度、持續時間來補償。事實上,人的感知敏感度大致上是與輸入信號的強度成對數關系的。在這種情況下,經過一個初始的對數變換,復合剌激的響應可以作為線性的看待。 對比度(contrast) 對比度是亮度的局部變化,定義為物體亮度的平均值與背景高亮度的比值。人的眼睛對亮度的敏感性成對數關系,意味著對于同樣的感知,高亮度需要高的對比度。 表觀上的亮度很大程度上取決于局部背景的亮度,這種現象被稱為條件對比度(conditional contrast)。圖2.14給出了分別處于暗和亮背景中的兩個同樣亮度的小方塊,人對其中的小方塊感知到的亮度是不同的。 敏銳度(acuity) 敏銳度是覺察圖像細節的能力。人的眼睛對于圖像平面中的亮度的緩慢和快速變化敏感度差一些而對于其間的中等變化較為敏感。敏銳度也隨著離光軸距離的增加而降低。 圖像的分辨受制于人眼的分辨能力,用比觀察都所具有的更高的分辨率來表達視覺信息是沒有意義的。光學中的分辨率定義為如下的最大視角的倒數:觀察者與兩個最近的他所能夠區分的點之間的視角。這兩個點再近的話,就會被當作一個點。 人對物體的視覺分辨率在物體位于眼睛前250處。照明度在500的情況下最好,這樣的照明是由400遠的60燈泡提供的。在這種情況下,可以區分的兩個點這間的距離大約是0.16MM。 物體邊界(object border) 物體邊界具有大量的信息[Marr 82]。物體和簡單模式的邊界,比如斑點或線,能引起適應性影響(adaptation effects),類似于前面講過的條件對比度。Ebbinghaus錯覺是一個人們熟知的例子,圖像中心的兩個同樣直徑的圓看起來直徑不同(參見圖2.15) 色彩(color) 由于在正常的照明條件下,人眼對色彩比亮度更敏感,因些色彩對于感知十分重要。色彩的量化和表示在第2.2.3節已經介紹過了,色彩可以表示為紅、綠、藍(RGB)三原色彩感知用HIS坐標系統來表示更好。 色彩感知與其他心理物理量一樣也受類似的適應性錯覺(adaptation illusion)的影響。 2.3.4 圖像品質 在圖像的捕獲、傳輸或處理過程中可能使圖像退化,圖像品質的的度量可以用來估計退化的程度。我們對圖像品質的要求取決于具體的應用目標。 估計圖像品質的的方法可分為兩類:主觀的和客觀的。主觀的方法常見于電視技術中,其中最終評判標準是一組挑選出來的內行和外行觀眾的感覺。他們根據一張標準清單通過給出估計評分來評價圖像。有關主觀方法的詳細內容可參見[Pratt 78]。 度量圖像品質的客觀定量方法對我們更重要。理想的情況是,這樣的方法同時也提供了主觀的測試,且易于使用,這樣暈介就可以將該標準用于參數優化。圖像f(xy)的品質通常通過與一個書籍的參考圖像g(xy)進行比較來估計[Rosenfeld and Kak 82]。為這一目的,常常要使用合成的圖像作為參考圖像。有一類方法使用簡單的度量,比如均方差∑∑(g-f)2。這種方法的總是是不可能把幾個大的差別與許多小的差別區分開來。除了均方差之外,還可以作用平均的絕對差或者簡單的最大的絕對差。圖像F和G這間的相關運算也是一種選擇。 另一類方法是測量圖像中小的或最近的物體的分辨率。由黑白條紋組成的圖像可以用于這一目的,這時每毫米黑白條紋對數目就給出了分辨率的大小。 圖像相似度的度量變得越來越重要了,這是因為它有助于圖像數據庫的檢索。圖片信息的度量在[Chang 89]中有論述。 2.3.5 圖像中的噪聲 實際的圖像常受一些隨機誤差的影響而退化,我們通常稱這個退化為噪聲(noise)。在圖像的捕獲、輿或處理過程中 能出現噪聲,噪聲可能依賴于圖像內容,也可能與其無關。 噪聲一般由其概率特征來描述。理想的噪聲,稱作白噪聲(white noise)。具有常量的功率譜S=[參見公式(2.24)],也就是說其強度并不隨著頻率的增加而衰咸。白噪聲是常用的模型,作為退化的最壞估計。使用這種模型的優點是計算簡單。白噪聲的一個特例是高斯噪聲(Gaussian noise)。服從高斯(正態)分布的隨機變量具有高斯曲線型的概率密度。在一維的情況下,密度函數是: 基其中和分別是隨機變量的均值和標準差。在很多實際情況下,噪聲可以很好地用高斯噪聲來近似。 當圖像通過信道傳輸時,噪聲一般與出現的圖像信號無關。類似的噪聲也出現在老式的攝像機中。這種獨立于信號的退化被稱為加性噪聲(additive noise),可以用如下的模型來表示: f(xy)=g(xy)+v(xy) 其中 ,噪聲v和輸入圖像g是相互獨立的變量。下面的算法用來在圖像中產物具有O均值的加性高斯噪聲,它常常可用于測試或驗證本書中的許多其他算法,這些算法是用來消除噪聲或者是具有抗噪聲性質的。 1.給取一個值,它的值小時,相應的噪聲也小。 2.如果圖像的灰階范圍[0G-1],計算 p[i]= 3.對于亮度為g(xy)的像素點(xy),產生一個位于[01]范圍內的隨機數qi。確定 j=arg min(q1 – p[i]) 4.從集合{-11}中產生一個隨機數q2。設: f*(xy)=g(xy)+q2j 5.設: f(xy)=0 當f*(xy)<0 f(xy)=G-1 f*(xy)>G-1 f(xy)= f*(xy) 其他 6.轉到第3步,直到掃描完所有的像素。 公式(2.47)的截斷會感弱噪聲的高斯性質,物別是當值與G比起來大的時候更為顯著。其他產生噪聲的算法可參見[Pitas 93]. 根據公式(2.46),臺以定義信噪比SNR(signal-to-noise ratio)。計算噪聲貢獻的所有平方和: E=∑v2(xy) (xy) 將它與觀察到的信號的所有平方和進行比較, F=∑f2(xy) (xy) 信噪比就是: SNR=F/E (嚴格地說,我們測量的是對應于平均誤差的平均觀測值,所以計算顯然是一樣的)。SNR是圖像品質的一個度量,值越大越好。 噪聲的幅值在很多情況下與信號本身的幅值有關。如果噪聲的幅值比信號的幅值大很多時,我們可以寫成: f=g+vg=g(1+v)≈gv 這種模型表達的是乘性噪聲(multiplicative noise)。乘性噪聲的一個例子是電視光柵退化,它與電視掃描線有關。在掃描線上最大,在兩面三刀條掃描線之間最小。另一個乘性噪聲的例子是膠片材料的退化,這是由感光乳劑有限大小銀顆粒(silver grain)所引起的。 量化噪聲(quantization noise)會在量化級別不中時出現,例如,僅有50個級別的單色圖像,這種情況下會出現偽輪廓。量化噪聲可以被簡單地消除,參見第2.2.2節。 沖激噪聲(impulsive noise)是指一幅圖像被個別噪聲像素破壞,這些像素的亮度與其領域的顯著不同。胡椒鹽噪聲(salt-pepper noise)是指飽和的沖激噪聲,這時圖像被一些白的或黑的像素所破壞。胡椒鹽噪聲會使二值圖像退化。 抑制圖像噪聲的問題將在第4章中論述。如果對于噪聲的性質沒有任何先驗知識,局部處理方法是合適的(參見第4.3節)。如果事先知道噪聲的參數,可以使用圖像復原技術(參見第4.4節)。
狀 態:
離線
公司簡介
產品目錄
公司名稱:
深圳市創科自動化控制技術有限公司
聯 系 人:
黎友
電 話:
0755-33938285
傳 真:
0755-33938285
地 址:
深圳市寶安區福永鎮街道萊福大廈4樓
郵 編:
518103
主 頁: