即時偵測細部動作 電腦理解人類肢體語言

作者: 詹益瑋
2017 年 07 月 12 日

語音辨識技術日新月異的同時,電腦似乎也開始理解人類的肢體語言。卡內基美隆大學(CMU)機器人學院的研究團隊近日發布其最新成果,可讓電腦在單一鏡頭內即時偵測複數人的姿勢、動作,以至臉部、五指等細節,藉此辨識人與人、人與物之間的互動關係,以期開創新一種人機互動模式。

機器人學院副教授Yaser Sheikh指出,人們透過肢體動作溝通的頻率與透過言語相去不遠,現今的電腦對此仍多少存有一些障礙。透過此新發布的辨識技術,人們能以更自然的方式與機器溝通,比方單純指向某物來對電腦下指令等;機器也能感測周遭人類彼此間的非言語溝通細節,諸如當下的動作、情緒,適不適合被打斷等,在餐廳、車道等社會空間中提供更進一步的服務。提供新的人機互動機制之外,Sheikh也期望令人們藉此更了解周遭的世界。

辨識群體中每個人的動作,乃至彼此間可能的互動情形,對電腦是不小的挑戰;尤其當群體較龐大時,純靠單體動作捕捉程式顯然不敷使用。另一方面,鑑於單一鏡頭難以捕捉手部動作全貌,加上相對身體、表情等動作缺乏已標註過的影像資料庫,手勢辨識顯得更為棘手。為此,該新技術的研發主要借助於CMU的Panoptic Studio多重攝影系統完成–此圓頂攝影棚具備超過500顆影像感測器,包含30個高畫質攝影機,可360度辨識棚內所有人的動作。

Sheikh表示,Panoptic Studio可同步強化肢體、臉部與手部的辨識訓練,模型由2D轉3D亦有助於自動建立家住過的影像資料。藉此,該研究團隊由上而下,先單獨定義影像場景中出現的各個身體部分,諸如手臂、腿部與臉部等,最終將所有部分接合起來為特定個體,以利電腦進行辨識;至於較棘手的手勢辨識,則透過該系統加速建立資料庫,令電腦單憑部分手部影像即可連結其他500多個相關角度,以此較精準地判斷鏡頭內個體的手部動作。

此辨識技術賦予機器理解人類行為的能力,應用上具有不少潛力,諸如協助自動駕駛車輛監控周遭行人的行為,藉此預測其動向、強化安全性;以運動賽事分析來說,則可判斷各球員的場上位置、當下的動作,進一步推斷其目前甚至未來的行動;未來甚至可望針對特定病徵協助進行診斷、復健等醫療相關作業,比方自閉症、憂鬱症、學習障礙等。

現階段為強化推廣,Sheikh表示,其研究團隊已釋出多人、手勢判別相關的程式碼於網路上。目前該技術已被廣泛採用於諸多研究群組,並有超過20個含汽車廠商在內的商業組織對此表示興趣。

標籤
相關文章

手勢/心跳皆可偵測 140GHz MIMO雷達超有感

2019 年 05 月 29 日

NVIDIA新一代GPU助攻 資料中心機器學習能力大增

2015 年 11 月 20 日

量宏發表新款紅外線相機模組 系統功耗減少50倍

2016 年 05 月 27 日

強化AI邊緣運算性能/功耗比 賽靈思再推新方案

2021 年 06 月 17 日

從駕駛監測走向智慧座艙 ST發表混合感測器

2022 年 09 月 26 日

治理問題浮現 杰倫智能推AI生命周期管理平台

2023 年 11 月 15 日
前一篇
凌力爾特發布150V高壓側N通道MOSFET驅動器
下一篇
兼具效能與低損耗 新一代SiC二極體優化系統