機器學習場景測距有一套 監督式學習深度測量就是準(1)

作者: 誠君
2024 年 01 月 16 日

自從機器學習被用來估算場景的深度(Depth)以來,已逐漸採用單目相機(Monocular Camera)來實作,但若考慮到測量的精確度,雙目相機結合監督式學習模型仍然是最佳的選擇。本文將介紹專門測量場景「深度」的監督式學習技術。

機器學習(Machine Learning)的方法依照需要監督(Supervision)的多寡,或者是否需要事先將資料標註(Label),大致可區分為:監督式(Supervised)、無監督式(Unsupervised)、半監督式(Semi- Supervised)、自我監督式(Self-Supervised)學習。為了省去傳統雙目相機(Stereo Camera)複雜的校正(Calibration)程序,自從機器學習被用來估算場景的深度(Depth)以來,已逐漸採用單目相機(Monocular Camera)來實作,但若考慮到測量的精確度,雙目相機結合監督式學習模型仍然是最佳的選擇。本文將介紹專門測量場景「深度」的監督式學習技術。

選擇單目或雙目相機

使用單目相機測量深度,必須結合機器學習方法。圖1是使用單目相機和雙目相機所產生的深度圖之比較。由於單目測距系統只有一個相機在測量,所以會比較依賴模式(Pattern)、光線、物件辨識(Object Recognition)。雖然藉此可以得到有用的深度資訊,但因為單目測距系統太依賴記憶,它和雙目相機系統相比較,具有許多缺點。例如:當它看到一隻貓,它可以回想起貓的可能大小,據此推估那隻貓與相機的距離,也就是深度。而不是像雙目測距系統是從圖像內的像素(Pixel)和幾何公式估算出深度。因此,當遇到未曾看過的模式時,單目相機很容易預估錯誤。單目測距系統沒有真正使用深度資訊,而是傾向於收集物件,並以物件的特徵(Feature)來歸類,沒有考慮到不同物件之間的不同距離和深度關係。

圖1 使用單目相機(b)和雙目相機(d)所產生的深度圖之比較

此外,由於單目測距系統缺乏視差(Parallex)資訊,因此只要改變物件的比例尺度,物件的深度就會產生很大的誤差。雙目測距系統可以使用視差資訊來修正,很容易就能避免這樣的錯誤發生。在圖1(b)的上方,單目相機所產生的階梯深度圖沒有比(d)的雙目相機所產生的深度圖層次分明。在圖1(b)的下方中,背景是大樓,深度應該是固定值,但單目相機所產生的背景深度圖顏色,卻沒有像(d)的雙目相機所產生的背景深度圖一樣全部都是藍色。所以,雖然雙目相機的校正程序有些麻煩和複雜,但使用雙目相機來測量深度,仍然是最精確的方法。圖1(d)是使用棋盤格校正過的雙目相機,(c)是使用未校正的相機產生的深度圖,其深度誤差很大。

監督式學習

圖2(a)是監督式學習、(b)是無監督式學習、(c)是半監督式學習的簡易分類。監督式學習就是在訓練用的資料集合中,每一筆資料都有相對應的標註,如圖2(a)中,資料已被人為區分成標註0和標註1兩類。簡言之,監督式學習就是用標註資料來訓練模型,等此模型訓練完畢後,再用此模型對尚未標註的「?」資料進行預測,最後將它們標註。

圖2 機器學習之分類,(a)監督式學習、(b)無監督式學習、(c)半監督式學習

監督式學習常使用分類(Classification)或迴歸(Regression)演算法。分類演算法是用來預測離散值(Discrete Value),例如:判斷一封電子郵件是否是垃圾郵件。迴歸演算法是用來預測連續值(Continuous Value),例如:預測一整天的溫度。雖然,監督式學習的精確度較高,但因為資料的分類與迴歸的成本很高,或因為特殊領域的資料取得不易,這些都導致資料標註的成本也很高。

為了預估未標註的資料,監督式學習使用迴歸演算法自動偵測出有標註的資料內的模式。它是先估算出一條最匹配的(Best-Fit)線或曲線,稱作迴歸線或曲線,然後估算出位於此相同迴歸線或曲線上的一個未知點之值。使用迴歸演算法可以估算出在資料集合中的一個未知值。而使用分類演算法可以將資料歸類,成為有標註的資料,例如:將許多照片按照不同種類區分成動物類、植物類、建築物等。

分類演算法甚至能將文字內容歸類,例如:按照情緒分類,可區分成好情緒或壞情緒;或按照主題分類,可區分成運動、政治、音樂等。此外,分類演算法也被用來檢測癌症。使用分類演算法得出的可能結果的數目很少,例如:0或1。而迴歸演算法輸出的可能結果數目非常多。圖3是一個典型的監督式學習的架構,其中,人為的資料標註是監督式學習的最大瓶頸。

圖3 監督式學習的架構

圖4是使用傳統的雙目相機估算視差圖的流程,圖中並對應至使用雙目相機和卷積神經網路(Convolutional Neural Network, CNN)來估算視差圖的監督式學習的流程。其中包含了四個主要步驟:匹配成本計算(Matching Cost Computation)、成本量聚合(Cost Volume Aggregation)、視差計算(Disparity Computation)、視差最佳化(Disparity Optimization)。

圖4 使用雙目相機估算視差圖的流程

機器學習場景測距有一套 監督式學習深度測量就是準(1)

機器學習場景測距有一套 監督式學習深度測量就是準(2)

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

機器學習場景測距有一套 監督式學習深度測量就是準(2)

2024 年 01 月 16 日

FPGA設計工具/IP支援到位 AI邊緣推論開發更敏捷

2022 年 05 月 26 日

圖型化/非接觸大行其道 邊緣運算開創人機界面新局

2022 年 06 月 01 日

晶片驗證少走彎路 EDA借力AI全速優化驗證過程

2022 年 11 月 17 日

非監督式學習大行其道 場景深度偵測相對複雜(1)

2024 年 01 月 15 日

【AI守護地球】從靈感到行動:開發者如何打造永續未來

2025 年 09 月 29 日
前一篇
COP28碳權交易無共識 解析《巴黎協定》第6條
下一篇
ST發射器/接收器評估板加速Qi無線充電器開發