搭配語音/手勢辨識技術 穿戴裝置開啟智慧新生活
根據2014年6月19日美國Google I/O開發者大會中播放的微電影,可以看見未來人類生活將處處充滿網路,從電器至一般家庭用品,現在連門鎖都可以透過穿戴裝置來開關。Google希望能達成生活中隨時都有穿戴裝置的願景,並以雲端服務為核心,使用統一系統,讓該應用能擴展到使用者所有的螢幕與家用設備當中。
利用Android可讓使用者的所有生活用品都邁向智慧化與網路化,這就是最典型直觀的智慧聯網範例。當文化越來越進步,科技越來越發達,人類的需求就會從如何生存轉變為如何活得更好更幸福,因此目前一切技術的發展都是為了讓人類活得更便利、更舒適;而要讓生活變得更便利的要素就是發展穿戴式技術,讓生活中的一切用品都能連上網路。
穿戴式裝置讓生活更便利
過去人們操作電腦時,須使用滑鼠與鍵盤做為輸入裝置;而操作電器時,則大都須要親自觸控其按鈕,有些電器具備遙控器可遠端操作,如電視、冷氣機等,但對老年人與小孩而言,遙控器的操作往往過於複雜而無法直觀使用。因此,透過穿戴式裝置來輸入、控制生活的日用品,就可以讓小孩與老年人都輕鬆使用,甚至不需要太多笨重的硬體,只要一只手環,或是一副眼鏡,就能處理生活中一切的需要。
根據資策會產業情報研究所的定義,「凡搭配特殊設計之配件與掛件,將3C產品或電子工具固定掛配於身上,提供更方便自由連續性使用的隨身應用產品」可稱之為穿戴式裝置。
穿戴式裝置能透過微機電系統(MEMS)的感測器,或是攝影機來擷取使用者發出的訊號,而這些訊號經由適當運算,可達到控制生活周遭家電用品的目的。
此處所指的運算是一種稱為「訊號辨識」的技術,訊號辨識從前述的例子中可分為兩類:使用攝影機接收影像訊號的圖像辨識或物件辨識,以及MEMS感測器擷取人體運動資訊;另外也包含利用收音裝置收取語音訊號的語音辨識技術,其應用如大家最熟悉的「Ok Google」。
由於不同的訊號有不同特性,因而能用以操作具特殊需求的生活用品,如家中的保險箱,即可利用語音訊號來控制。
因為每個人的說話速度、習慣、生理狀況、性別、年齡、地域皆不同,所以語音訊號的差異性大能用來辨識使用者身分。此外,過去須要使用鑰匙解鎖,或是輸入密碼才能開啟的生活用品,也可以透過語音辨識技術讓使用者更為便利。
除此之外,需要遙控器控制的電器也往往因遙控器操作複雜,導致並非所有年齡層的使用者都易於使用。於是Logbar團隊便開發Ring智慧戒指,使用者可利用該戒指在空中畫出頻道號碼,將電視轉至指定頻道。
用戶使用手環時,也可利用MEMS感測器偵測手部往左或往右移動,做出頻道或是音量的增減,以簡化原本遙控器的複雜操作。
上述所提訊號辨識技術的發展皆累積了一段時間,然而穿戴式裝置的崛起,可幫助使用者從原先須到目標電器旁邊才能控制電器,改為只要坐在原本位置並舉起手臂在空中做手勢或向手表下指令,便能控制電器用品。
分析人體資訊 語音/手勢辨識技術便利實用
基於語音會因音高(婦女、兒童較短較薄;男人、老人較長較厚)、音質差異(每個人皆有特別的音質)有許多不同,所以語音辨識相關技術可以用在需要安全性保護的生活用品中。
人體在運動時,係利用槓桿原理,並透過肌肉收縮的方式來完成。手臂系統由手指、手腕、手肘、肩、肩帶構成,手指的動作通常以抓、收、放為主;而手腕動作則以旋轉為主,光是這些動作的排列組合就可定義出多種不同的手勢指令。
語音辨識的流程(圖1),是先將輸入訊號做前置處理,之後再做特徵擷取,然後根據語言模型、辨識模型或樣板做出辨識動作。語音辨識的常見技術有兩個,一個是動態時間軸校準(Dyanmic Time Warping, DTW),一個是隱藏式馬可夫模型(Hidden Markov Model)。
![]() |
| 圖1 語音辨識基本流程 |
動態時間軸校準分為兩階段,其一為訓練階段,會先建立各辨識單元的樣板;其二則是使用階段,將輸入語音的特徵圖樣與各樣板進行比對,最接近者即為辨識結果。這個方法雖然可以用在不同長度的圖樣比對,但是所得到的樣板卻無法反應語音訊號的差異性。
隱藏式馬可夫模型的訓練階段是在建立各辨識單元之統計模型,第二階段會先計算由各模型產生輸入語音的機率大小,再取其最大者做為辨識結果。相較於動態時間軸校準技術,隱藏式馬可夫模型能利用機率分布來描述語音的差異性,因此可得到較佳的辨識率,但模型訓練與辨識演算法就複雜許多。跟語音辨識類似,手勢影像辨識(圖2)的第一階段也是對輸入資料的前處理,包含背景分離、膚色與邊緣的偵測、手部定位、手掌偵測,以及此階段最後的影像正規化。
![]() |
| 圖2 以影像辨識為基礎的手勢辨識演算法流程圖 |
接著會進入辨識階段,此處以階層式時序記憶(Hierarchical Temporal Memory, HTM)演算法為例,該階段係利用機器學習的方式,進行各類別手勢模型的學習與辨識。HTM演算法以網路型態組成,包含四種性質的處理節點:
感測節點位於HTM網路最底端,能將感測到的資料轉成能用的資料格式,並傳到下一節點。
HTM節點是主要運算節點,可根據問題複雜度形成階層網路架構,各HTM節點進行非監督式學習,並生成時序相近的不變性特徵。
HTM頂層節點位於網路最高階位置,能將資料輸入種類節點進行分類。
種類節點是一個監督式分類器,可辨識輸入資料的類別。
以運動感測為基底的手勢辨識方式,最常見的是使用加速度計(Accelerometer)、陀螺儀等微機電系統(MEMS)感測器。
加速度計又稱為重力感測器(G-sensor),可以提供線性加速度/位移的資訊。透過MEMS技術可將加速度計元件最小化。
近年來智慧型手機大都有包含此元件;穿戴裝置如智慧手環、手錶也都有加速度計,可做為移動軌跡的手勢辨識應用。利用加速度計取得加速度值後,判斷出一個軌跡動作的開始點及結束點,之後將訊號作處理動作,此處選用Hanning Filter來平滑化訊號並對訊號做正規化。
將訊號處理完的結果利用動態時間校正演算法做分類,再根據分類結果及加速度振幅大小來辨識出我們指定的指令動作。Hanning Filter可減少訊號轉換過程及降低儀器震動所造成的誤差。由於動態時間校正具有可以處理不同長度訊號的特性,所以適合用來辨識手勢訊號,它的步驟如下:
首先從已知的分類訊號內,選一筆做為樣本;接著將待比對序列輸入時,與各類樣本都做計算,找出最高相似性的樣本,本步驟最為重要;最後再根據剛剛結果挑選相似性最高樣本做為辨識結果。
穿戴式裝置搭橋 有機運算願景近在咫尺
穿戴式裝置搭橋 有機運算願景近在咫尺
在2015年國際消費性電子展(CES)中可以發現,智慧手表應用已經結合了汽車,而大陸業者採取低價策略,也加快高規智慧表的降價速度;Google也在最近宣布「完全自動駕駛的首度完整原型」會在加州開始測試。
由這些趨勢可知,智慧聯網已經悄悄從日常生活的電器用品,拓展到汽車產業;不過值得注意的是,智慧聯網的安全性問題也將更被放大,特別是當駭客有機會遠端控制用戶的車輛或甚至鎖住煞車時,後果是無法想像的。
近期的語音辨識熱潮,讓MEMS麥克風備受矚目,其在聯網汽車的應用領域占有著一席之地,此外,亞馬遜(Amazon)近期推出的智慧家庭聲控設備,也一舉導入七顆MEMS麥克風,允許使用者在家中不同位置都可控制聯網和影音操作的語音指令。當個人電腦的顯示、儲存、運算、輸入輸出等功能,由電視、家電、手機、汽車等智慧裝置取代時,這樣的智慧聯網空間所需的人機介面,將會是穿戴式裝置最能符合人們對便利性的期待。
目前市面上的智慧穿戴裝置,多內建了加速度計與陀螺儀等慣性感測器,可以推斷配戴者的動作,來發出控制指令。
如使用者將手往上舉,便能開啟房間電燈;手機來電時,點頭便能開啟擴音通話;或將食指放到嘴前,客廳的音響就會關閉。然而,往後穿戴裝置的操作技術一定不僅限於上述所說的這幾種,未來穿戴裝置可能有機會或持續發展小面積觸控、頭部動作、眼球追蹤、四肢動作、投影觸控、腦波控制等功能。
體感介面為上述操作技術的共通點,特別是在影像類型的手勢辨識中。
如工研院已利用智慧眼鏡上的3D攝影機來做感測,創造出空中觸控虛擬畫面的操作方式,智慧眼鏡商SpaceGlasses也在2014年推出內建空中手勢辨識技術的3D智慧眼鏡。
英特爾(Intel)也在2014年發表RealSense3D攝影機技術,讓個人電腦、平板電腦等資訊產品,達成臉部辨識、情緒追蹤、十指空中手勢辨識等功能。憑藉Intel在業界的力量,未來每台個人電腦都有可能會直接內建此技術,以大幅降低辨識空中手勢技術的成本。
穿戴裝置上的慣性感測器可以感知人類的四肢動作,而頭戴裝置上的3D攝影機能偵測手勢動作;另外,靠近頭部的穿戴裝置所內建的麥克風則可以接收語音指令。
當穿戴裝置已能感知人類所有身體動作的時候,人類最基本的自然訊號:口語語言與身體語言便會成為最後的人機介面。
當穿戴裝置以上述最自然的方式發出控制指令,操弄任何智慧聯網上的裝置,原本要坐在電腦前的行為,只要揮手、說話就能達成,這樣的情境稱為「有機運算」。
「有機運算」是指人類身邊大量具感測器的智慧裝置,其具自動感測數據、互相連結、主動運算與分析等功能,還能自動執行相關指令,有如人體的運作模式;而穿戴裝置在這樣的情境中將扮演關鍵的人機介面角色。雖然這樣的未來還有許多技術尚待克服,但相信憑著目前資通訊科技(ICT)產業強大的技術研發能力,定能加速實現。

