工業場域透過影像辨識實現智慧化技術,實現工廠系統對於各類物件的自動辨識,是機器視覺發展的方向。目前影像視覺技術越來越普及,未來各產業的電子設備,勢必會加入更多的機器視覺功能。
人工智慧(Artificial Intelligence, AI)指的是讓機器或是電腦展現出人類思維模式的技術。在目前電腦儲存空間與GPU(Graphics Processing Unit)效能的大幅提升下,演算法所依賴的大量數據與資料,可以透過電腦分析與處理歸類出規則,讓機器來學習。近年來攝影機受到大量使用、IoT(Internet of Things)與巨量通訊、智慧型手機、自駕車載系統、安全監控系統、物件辨識、臉部辨識等資訊技術大幅進步之下,AI也開始發展,實際應用在不同的領域。
近年來發展蓬勃的機器視覺(Computer Vision),主要用來模擬人類的視覺,是AI發展快速的領域之一。機器視覺是透過攝影機來模擬視覺系統,使電腦擁有人類視覺能力的技術。簡單來說,機器視覺的應用原理,是影像感測器擷取到的影像,形成影像資料庫。而影像資料庫透過相關AI演算法運算。系統針對影像運算的分析結果及判斷,可以應用在製造業、零售業、醫療、金融等相關產業,來協助產品檢測、物體辨識與分類或者是人員與環境監控等情境。
視覺資料處理技術已經出現一段時間,早期大部分流程序需要人工介入,導致應用費時且容易出錯。例如傳統的臉部辨識系統,操作人員必須手動標記關鍵資料點,標註數千張或是數萬張照片的人臉鼻樑的寬度與雙眼間距。資料標註工作自動化則需要大量的運算效能,因為影像為非結構化資訊,難以直接使用電腦處理。但隨著處理器效能持續增加,系統的算力提升,可以提高影像資訊處理的準確性與規模。現在機器視覺系已採用雲端運算資源,可提供每個使用者存取。
機器視覺概念與常見任務
首先簡單敘述AI框架(圖1)簡意圖示,AI是一個巨大的集合,機器學習(Machine Learning)只是其中的集合之一,而深度學習(Deep Learning)是機器學習的其中一個小集合。
機器學習有助於AI發展,與近年來深度學習發展的突破,更大力推動AI的應用與爆發性發展。深度學習在人工神經網路(Artificial Neural Network)的基礎上,發展出多層次模型如深度神經網路(Deep Neural Networks, DNN)、卷積深度神經網路(Convolutional Neural Networks, CNN)等數種框架,可以處理更抽象與更加複雜的識別與分類,例如自動駕駛(Self-driving Automobile)領域就是在機器視覺方面成功的應用之一。機器視覺也是近期深度學習發展最快的領域,包括上述提到的自動駕駛之外,還有智慧家庭、產品瑕疵的檢測、安防監控、醫療影像相關應用,都與深度學習影像辨識技術息息相關。
在描述機器視覺領域的幾種任務之前,先說明機器視覺中的「圖像」概念。圖像最重要的部分稱為像素(Pixel),即為圖像顯示的基本單位,每一個小方格會有一個明確的位置、單一色彩與光的強度,而圖像即為數百個甚至到數千萬個像素集合而成,圖2為圖像的簡意圖示。
回到針對機器視覺任務的討論。機器視覺領域圍繞幾種任務,包含圖像分類、目標追蹤、物體辨識、語義分割、實例分割、圖像生成、關鍵點檢測、場景文字辨識、影像分類、度量學習等。
圖像分類
圖像分類是機器視覺重要的基礎問題,即依據圖像特徵描述,對於不同類別圖像進行分類。分類演算由手動輸入特徵或特徵學習,對圖像全區域描述,判斷是否存在某種物體。分類流程為針對一組被標記,並且是單一類別的圖像,對新圖像類別進行預測。其他高階視覺處理的基礎如圖像分割、行為分析、物體追蹤、物體檢測、人臉辨識等。並在深度學習的助益下,大幅度提高圖像分類的準確率。常使用的方式為卷積深度神經網路,基本結構由卷積層、池化層以及全連接層組成。
圖像輸入卷積深度神經網路,經由卷積層執行特徵提取,再由池化層過濾細節,在全連接層進行特徵展開,最後由分類器取得分類結果。圖像分類訓練常用的模型包含LeNet-5、AlexNet(圖3)、GoogLeNet、preResNet、ResNet、ResNeXt、VGG-16/19、DenseNet、Inception-V3/V4、SENet、MobileNetV2等。
目標追蹤
在場景中追蹤想了解物件或是多物件的過程。即是目標物在追蹤影像的第一個幀(Frame)的初始狀態(如位子、尺寸) ,後續自動預估目標物的狀態。基於卷積深度神經網路的訓練常用的有FCNT和MD Net。
物體辨識
物體辨識主要是針對一張圖像或是一個影像,讓電腦找出所有物體所在的位置,並提供每個物體的類別。物體辨識任務訓練常用的包括R-CNN、Faster R-CNN、YOLO(You Only Look Once)(圖4)、SSD、R-FCN等這些模型。
語義分割
所謂語義分割即指圖像中每個像素,依照語義執行標記與分類,再理解圖像,並將圖像分類於相應的類別,例如人、汽車、摩托車、狗等。將圖像輸入卷積深度神經網路,讓輸入輸出的空間一樣,通道數與類別數也一致,分別表示各空間位置屬於各類別的機率即可將像素進行分類。語義分割模型包括DeepLab系列,圖5所示為DeepLab v3+框架、FCN(Fully Convolutional Networks)、ICNet。
AI強化影像感測效能 自駕/智慧工廠視覺能力步步高(1)