自從機器學習被用來估算場景的深度(Depth)以來,已逐漸採用單目相機(Monocular Camera)來實作,但若考慮到測量的精確度,雙目相機結合監督式學習模型仍然是最佳的選擇。本文將介紹專門測量場景「深度」的監督式學習技術。
機器學習(Machine Learning)的方法依照需要監督(Supervision)的多寡,或者是否需要事先將資料標註(Label),大致可區分為:監督式(Supervised)、無監督式(Unsupervised)、半監督式(Semi- Supervised)、自我監督式(Self-Supervised)學習。為了省去傳統雙目相機(Stereo Camera)複雜的校正(Calibration)程序,自從機器學習被用來估算場景的深度(Depth)以來,已逐漸採用單目相機(Monocular Camera)來實作,但若考慮到測量的精確度,雙目相機結合監督式學習模型仍然是最佳的選擇。本文將介紹專門測量場景「深度」的監督式學習技術。
選擇單目或雙目相機
使用單目相機測量深度,必須結合機器學習方法。圖1是使用單目相機和雙目相機所產生的深度圖之比較。由於單目測距系統只有一個相機在測量,所以會比較依賴模式(Pattern)、光線、物件辨識(Object Recognition)。雖然藉此可以得到有用的深度資訊,但因為單目測距系統太依賴記憶,它和雙目相機系統相比較,具有許多缺點。例如:當它看到一隻貓,它可以回想起貓的可能大小,據此推估那隻貓與相機的距離,也就是深度。而不是像雙目測距系統是從圖像內的像素(Pixel)和幾何公式估算出深度。因此,當遇到未曾看過的模式時,單目相機很容易預估錯誤。單目測距系統沒有真正使用深度資訊,而是傾向於收集物件,並以物件的特徵(Feature)來歸類,沒有考慮到不同物件之間的不同距離和深度關係。
 
此外,由於單目測距系統缺乏視差(Parallex)資訊,因此只要改變物件的比例尺度,物件的深度就會產生很大的誤差。雙目測距系統可以使用視差資訊來修正,很容易就能避免這樣的錯誤發生。在圖1(b)的上方,單目相機所產生的階梯深度圖沒有比(d)的雙目相機所產生的深度圖層次分明。在圖1(b)的下方中,背景是大樓,深度應該是固定值,但單目相機所產生的背景深度圖顏色,卻沒有像(d)的雙目相機所產生的背景深度圖一樣全部都是藍色。所以,雖然雙目相機的校正程序有些麻煩和複雜,但使用雙目相機來測量深度,仍然是最精確的方法。圖1(d)是使用棋盤格校正過的雙目相機,(c)是使用未校正的相機產生的深度圖,其深度誤差很大。
監督式學習
圖2(a)是監督式學習、(b)是無監督式學習、(c)是半監督式學習的簡易分類。監督式學習就是在訓練用的資料集合中,每一筆資料都有相對應的標註,如圖2(a)中,資料已被人為區分成標註0和標註1兩類。簡言之,監督式學習就是用標註資料來訓練模型,等此模型訓練完畢後,再用此模型對尚未標註的「?」資料進行預測,最後將它們標註。
 
監督式學習常使用分類(Classification)或迴歸(Regression)演算法。分類演算法是用來預測離散值(Discrete Value),例如:判斷一封電子郵件是否是垃圾郵件。迴歸演算法是用來預測連續值(Continuous Value),例如:預測一整天的溫度。雖然,監督式學習的精確度較高,但因為資料的分類與迴歸的成本很高,或因為特殊領域的資料取得不易,這些都導致資料標註的成本也很高。
為了預估未標註的資料,監督式學習使用迴歸演算法自動偵測出有標註的資料內的模式。它是先估算出一條最匹配的(Best-Fit)線或曲線,稱作迴歸線或曲線,然後估算出位於此相同迴歸線或曲線上的一個未知點之值。使用迴歸演算法可以估算出在資料集合中的一個未知值。而使用分類演算法可以將資料歸類,成為有標註的資料,例如:將許多照片按照不同種類區分成動物類、植物類、建築物等。
分類演算法甚至能將文字內容歸類,例如:按照情緒分類,可區分成好情緒或壞情緒;或按照主題分類,可區分成運動、政治、音樂等。此外,分類演算法也被用來檢測癌症。使用分類演算法得出的可能結果的數目很少,例如:0或1。而迴歸演算法輸出的可能結果數目非常多。圖3是一個典型的監督式學習的架構,其中,人為的資料標註是監督式學習的最大瓶頸。
 
圖4是使用傳統的雙目相機估算視差圖的流程,圖中並對應至使用雙目相機和卷積神經網路(Convolutional Neural Network, CNN)來估算視差圖的監督式學習的流程。其中包含了四個主要步驟:匹配成本計算(Matching Cost Computation)、成本量聚合(Cost Volume Aggregation)、視差計算(Disparity Computation)、視差最佳化(Disparity Optimization)。
 
 
         
                   
                   
 
                   
                   
                   
 
                   
                   
                   
 
                   
 
                   
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
