(承前文)不同於3D雙目相機感測系統,單視角的深度估測(Monocular Depth Estimation)系統只需輸入由單視角(Single View)拍攝的平面RGB影像,就能估算出圖像(Image)中每個物件的深度資訊。具有多鏡頭(Shots)和多場景(Scenes)的2D視訊影片,也能應用單視角的線索(Cue)和偵測技術,獲得在2D視訊影像內每個物件的深度資訊。
視訊分鏡偵測
由於視訊串流(Video Stream)是一連串連續的訊框,前後相鄰的訊框一般都會有時間與空間的相依關係,這種關係大都是因為視訊鏡頭產生的。視訊分鏡(Video Shot Boundary)將不同的視訊鏡頭區分開來。利用前後訊框的相依關係和變化情形,視訊分鏡可區分為兩類:刪剪式(Cut)和平緩式(Gradual)。前者的畫面宛如瞬間被切割(Cut)或有明顯的特徵變化,這些特徵只會存在於單一訊框中,而且前後相鄰訊框的特徵變化比較大,如圖8(a),此前後相鄰的影像通常沒有經過特效編輯,或者跳躍式刪除(Jump Cut)了位於中間的幾個訊框,所以比較不會引人注意。後者的特徵變化緩慢,相似的畫面會存在於許多訊框中,而且前後相鄰訊框的特徵變化比較小。
平緩式分鏡約略可區分為四類:溶解(Dissolve)、擦拭(Wipe)、漸強(Fade In)、漸弱(Fade Out),如圖8(b)至(e)所示。此前後相鄰的影像通常有經過特效編輯,所以比較會引人注意。計算前後相鄰訊框的變化量,來偵測新訊框的方法有許多種,譬如:利用像素的差異、統計數據的差異、邊緣的差異、色彩直方圖的差異等。一般是採用色彩直方圖的差異,因為它對訊框邊緣的變化比較敏感;再者,它對物件的移動比較不敏感,前後相鄰的兩訊框的空間變化不會改變色彩的分布。由於HIS、HSV或HSL色彩空間是根據人類視覺定義的,所以通常會採用它們來取代傳統的RGB或YCbCr色彩空間。HSI分別是色調(Hue)、飽和(Saturation)、亮度(Intensity)的英文縮寫。
此外,因為人類視覺也無法分辨出所有可能的顏色,所以不需使用所有的色彩去估算直方圖。通常是採用16×8×8=1024個不同色彩,其中,色調變化有16個,飽和變化有8個,亮度變化有8個。色彩直方圖的計算公式如式子(1) 所示。N是一張圖像的像素數量,ni是色彩i的像素數量。圖9(a)是一張圖像和它的色彩直方圖的例子。在圖9(a)中,橫坐標是色彩i,縱坐標是h(i)。h(i)在色彩位於500與600之間出現非常大的值,這表示那個色彩的像素數量所占比例最高。式子(2)是用來表示前後兩個訊框j和j-1的色彩直方圖之差的總和。圖9(b)的縱坐標是代表一部視訊影片的兩相鄰訊框之間的色彩直方圖之差,橫坐標是連續的訊框。


圖10是使用色彩直方圖之差和自適應雙臨界值(Adaptive Twin Thresholds)偵測新視訊鏡頭的流程。首先求出兩相鄰訊框的色彩直方圖之差,再使用臨界值T1偵測出主要切割區段(Primary Segment)的訊框群Pi,i是代表1至n個切割。然後使用區域自適應臨界值(Local Adaptive Threshold)TPi從每個主要切割區段中,篩選出候選區段的(Candidate Segment)訊框群Ci。若某一個主要切割區段內,沒有候選區段的訊框,則在這個主要切割區段的最後一個訊框發生了刪剪式分鏡。
若Ci的起始訊框Fi和相鄰的Fi+1的色彩直方圖之差大於區域自適應臨界值TCi,則Fi和Fi+1之間發生了視訊分鏡。最後,還要分辨從Fi轉換到Fi+1是屬於刪剪式或平緩式分鏡,就像人眼一看如圖11,便知它是屬於刪剪式分鏡一樣。在圖10中,還採用了加速穩健特徵(Speeded Up Robust Features, SURF)演算法,求出Fi和Fi+1之間的特徵相似度分數(Feature Similarity Score)Si。
・若Si大於或等於0.5,表示Fi和Fi+1的特徵很近似,這時必須求出Fi和Fi+1之間的區域臨界值,假若Fi和Fi+1的色彩直方圖之差大於此區域臨界值,則從Fi轉換到Fi+1是屬於平緩式分鏡。
・若Si小於0.5,表示Fi和Fi+1的特徵完全不同,這時仍須求出Fi和Fi+1之間的區域臨界值,假若Fi和Fi+1的色彩直方圖之差小於此區域臨界值,則從Fi轉換到Fi+1是屬於刪剪式分鏡。
單視角2D影像深度資訊不漏接 平面影像重建3D立體視覺(1)