實現儀表板智慧化 LSTM助攻車用語音辨識

作者: Jesus Garza
2021 年 07 月 26 日

RNN紀錄時間序列

首先,需考量數據會隨時間推移而擴展。例如,在影像中追蹤人的軌跡,當目標人移動位置時,影像會記錄不同的畫面。而一些神經網路,例如典型的目標檢測網路,所面臨的問題是它們不記得之前的推斷發生了什麼,所以在連續兩個幀中檢測一個人,並不意味它會記住這是同一個人。這表示,在某些情況下,需要注意發生在不同時間點的數據,因為它會影響結果。由於語音辨識也是一個時間序列的任務,將使用特殊類型的神經網路來因應此挑戰,也就是遞歸神經網路(RecurrentNeuralNetwork,RNN)。

為了記住過去發生的事情,RNN會保持HiddenState,這是對過去資訊的示意,允許數據透過推論流動,並對輸出產生影響。除了需要的數據,以一段語音為例,它還會被更新,以便之後能夠使用它。如此,在特定時間執行的數據會對先前處理過的數據有一定的瞭解。然而,這些網路受到短期記憶的影響,在處理短期數據時效果更好。

LSTM處理音訊

長短期記憶網路是特定類型的RNN,在處理長數據序列時效能更好。它們有一個具備附加操作的單元,這些操作決定要忘記哪些資訊、保留哪些資訊以及更新哪些資訊。在模型中,CellState的額外輸出傳回,除了隱藏狀態之外,還被用作下一個推理的輸入。圖1是展示資料如何在網路中流動的概覽。

圖1 網路中的資料流動

在LSTM中發生的操作可以透過廠商如Imagination的神經網路加速器來加速,在此案例中,使用它來執行網路的靜態實現,其已映射為NNA可以讀取的格式。數據的預處理和後處理可以分別在GPU或CPU上完成。

對於音訊輸入源,可以使用麥克風即時數據串流或音訊檔。但神經網路期望的是音訊以梅爾倒頻譜係數(MFCC)的序列,因此數據需要經過一系列的變換,例如將其切割成多個幀,計算每幀的短時傅立葉變換(STFT)的頻譜圖,將其映射到梅爾刻度(MelScale),最後得到MFCC系數作為頻譜映射(Mel-mapped)對數的離散餘弦變換(DCT)。完成這些步驟之後,由於使用的是RNN的靜態版本,因此需要沿著時間維度移動預處理數據,以針對每次執行網路提供足夠的數據。

除了來源音訊檔之外,還需要兩種狀態來維護資訊,分別是CellState(StateC)和HiddenState(StateH)。因此,與音訊數據一起,這些States也被用作輸入,在執行期間,CellState和HiddenState更新並返回推理的實際輸出,它們可以在下一輪推理中使用。總之,每個推理需要三次輸入,並返回三次輸出,如此便可隨時間流動維持數據資訊。

一個推斷的輸出包含字母表中每個字元在特定時間發生的概率,只有一個最高概率。在NNA返回所有MFCC係數的所有輸出之後,最終得到了需要進行後處理的內容。為了將概率轉換成實際文字,使用了CTC解碼演算法,其也可透過調整來提高特定句子的準確識別。

在此案例中,使用解碼後的文字來類比汽車語音助理。在OpenGLES的協助下,其具備類似於汽車數位集群的使用者介面,透過麥克風輸入音訊源,可以說出包含增加音量、檢查電池電量或顯示導航等指令,語音助理將識別這些指令,然後顯示相應的結果(圖2)。

圖2 汽車語音助理可辨識語音指令

在效能方面,網路的每次推理可以處理20毫秒的音訊片段。如果使用即時音訊串流,便必須在1秒內處理50段音訊。在這個速率下,因為8TOPSNNA執行一次推理(可以並行處理一個或最多16個音訊通道)需要1.22毫秒,所以僅占用了6.1%的效能。當占用NNA100%的效能時,它可以並行處理多達262個獨立通道。如果以0.8TOPS的算力運行,推理時間是4.90毫秒,進行即時音訊處理時占用了24.5%的效能,或者在100%的占用下工作時可以並行處理多達65個通道(表1)。

隨著技術的進步,人工智慧系統變得更加複雜,使得語音控制的需求也不斷增加。Imagination的NNA效能使其成為運行這些網路的有效工具,協助開發人員能創建可處理語音辨識的互動式軟體,而在未來,這將獲得廣泛地採用。

 

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

嵌入式AI應用持續成長 深度學習大顯神威(1)

2024 年 06 月 18 日

嵌入式AI應用持續成長 深度學習大顯神威(2)

2024 年 06 月 18 日

嵌入式AI應用持續成長 深度學習大顯神威(3)

2024 年 06 月 18 日

傳統SoC效能有瓶頸 MPSoC驅動AI多元應用

2019 年 01 月 24 日

AIoT應用含苞待放 邊緣推論晶片迎來戰國時代

2020 年 06 月 04 日

優化系統操作 HMI設計確保行車安全不馬虎

2022 年 03 月 05 日
前一篇
雲端運算提高電力/算力比 資料中心力拼高效電源方案
下一篇
凌華加入O-RAN聯盟 加速5G網路互通