低故障率設計架構 FPGA關鍵任務成功達陣

作者: Jim Tavacoli
2021 年 06 月 24 日

MPU vs.FPGA

如今的關鍵任務系統可能要求相當大的運算能力。其中一種運算解決方案就是採用微處理器單元(MPU),例如PC和工作站。儘管這種處理器看似很強大,但實際上它們只執行簡單的任務,例如將兩個數字相加或者比較兩個數字的大小。同樣,它們看似很快,是因為系統時脈以2.4GHz或者更高頻率執行。

問題的關鍵在於,儘管MPU可以很穩定處理決策任務,但在執行很多資料處理任務時就沒那麼有效率了。因此,MPU在執行此類任務時往往功耗更大,產生熱量更多。

在嵌入式應用中實現訊號和資料處理的更有效方法是採用FPGA。FPGA受益於自身的並行架構,能以低延遲並存執行資料處理操作。如業者萊迪思半導體(Lattice)撰寫的專欄文章「FPGA基礎知識:FPGA是什麼?為什麼需要FPGA?」所述,任何FPGA的核心都在於其可程式化架構,它以可程式化邏輯模組陣列的形式出現。每個邏輯模組都包含多個要素:一個尋找表(LUT)、一個多路開關和一個暫存器,所有要素都可以設定(程式化設計)執行使用者所需的功能(圖1)。

圖1 通用FPGA可程式化設計架構

一種更為形象化的描述方法是將可程式化設計邏輯視為可程式化設計互連這片「海洋」中的「島嶼」。可程式化設計邏輯模組群組可以經過設定執行所需的邏輯功能,而可程式化設計互連則將邏輯模組相互連接,並且連接到主要的通用輸入/輸出介面(GPIO)。

需要注意的是,以上描述只是極端簡化的情況。除了可程式化設計架構之外,FPGA還可以包含相當於數兆RAM的記憶體模組以及大量數位訊號處理器(DSP)單元。同樣,除了通用I/O外,FPGA還可以包括支援十億位序列介面的高速SerDes模組以及與外部記憶體連接的高速介面。

FPGA廣為人知的一個主要原因是其可程式化設計邏輯可以設定為以大規模並行方式執行相應的資料處理演算法,這不僅比MPU快幾個數量等級,而且功耗較低,與演算法「凍結在晶片中」的SoC不同,FPGA的設計可以隨時重新配置。此外,FPGA也與SoC及ASIC不同,在製造時不包含任何使用者IP,其IP是由終端使用者自行程式化設計的。這一重要的價值使FPGA能夠在不受保護的供應鏈中,也不會造成用戶IP被盜竊或篡改的可能。因此,FPGA是包括工業機器人和通訊基礎設施設備在內的關鍵任務系統較理想的選擇。

輻射的挑戰

為了拓展容量、提高效能、降低功耗和成本,每一代新晶片的電晶體都變得越來越小。如今晶片中製造的結構大小僅為幾十奈米(nm)(一奈米等於一公尺的十億分之一)。這些結構非常微小,可能會受到地球上輻射的影響。

此外,關鍵任務應用的系統一般都部署在持續高水準輻射的環境中,包括高緯度地區甚至太空。

對於這類應用而言,有兩種輻射效應影響最為嚴重:單粒子事件效應(SEE)和總游離劑量效應(TID)。

SEE是指由單個游離粒子(電子、質子、離子、光子等)在整合電路中引起的即時效應。處理SEE需要在輻射發生時能夠快速恢復。相比之下,由於長期暴露在輻射下不斷累積,TID最終會導致半導體晶格老化。典型的TID效應包括電晶體開關臨界值偏移、漏電流增加、效能下降以及最終導致功能故障。因此,解決TID需要長時間抵禦輻射並能從中恢復。

單粒子翻轉(SEU)是SEE的一種情形,指高能粒子撞擊微電路中的敏感節點並引起狀態變化。例如,SEU可能導致暫存器單元或記憶體單元從邏輯0翻轉為邏輯1或由1到0。與TID引起的問題不同,SEU被定義為「軟錯誤」,因為它可以被校正(圖2)。

圖2 順序邏輯中的單粒子翻轉(SEU)

不幸的是,製程越來越先進會導致多單元翻轉(MCU)的趨勢愈來愈嚴重。這意謂著,由於晶片中的結構排列非常緊密,SEU實際上可能會使多個記憶體元件發生邏輯翻轉。此外,多位翻轉(MBU)是指一種在同一資料的字或幀內出現的MCU,可能會對系統的校正能力產生負面影響。SEE的另一種形式是單粒子瞬態(SET),它是指輻射粒子影響一部分組合邏輯而形成脈衝,其也稱為突波或尖峰(圖3)。

圖3 組合邏輯中的單粒子瞬態(SET)

SET本身並不會造成太大問題,因為通常在系統其他部分偵測到之前,它就已經消失了。話雖如此,如果SET恰好發生在錯誤的時間,則可能在時脈訊號控制下進入暫存器元件或記憶體單元中,這時它就會變為SEU。

另一個潛在的問題是單粒子鎖定(SEL),SEE會可能導致CMOS電路的電源和接地軌之間產生低阻抗路徑(實際是短路)。如果發生這種情況,則需要立即對設備重啟(關閉電源然後再打開),防止對其造成嚴重損壞。不言而喻,在許多情況下重啟關鍵任務設備的電源可能會造成很多問題。

對於FPGA還需要進一步考慮。FPGA除了暫存器和RAM之外,還包括用於配置可程式化設計邏輯模組的配置單元、可程式化設計互連和可程式化設計通用I/O。並且不同的FPGA採用的設定單元技術也不盡相同。

有業者如萊迪思便提供使用SRAM的全新元件,該元件採用萊迪思Nexus FPGA技術平台開發,為實現用於執行關鍵任務應用的先進系統提供了優勢。

Nexus技術平台

上述提及的Nexus技術平台使用28奈米FD-SOI製程,為FPGA市場提供了差異化的優勢。

FD-SOI製程直接帶來兩大重要優勢。首先,由於採用全耗盡型製程,因此晶片本身具有很強的抗輻射能力。FD-SOI本質上不受單粒子鎖定的影響,這意謂著在關鍵任務應用下毋需停機,而通常則需要重啟電源才能解除這種狀態。

第二個值得注意的優勢是靈活性。透過改變載板的偏壓,用戶可以選擇採用高效能(HP)還是低功耗(LP)模式執行。此外,可以透過程式控制讓系統在兩個模式下即時切換。

例如本文之前已經討論過的,當輻射以高能粒子的形式穿過暫存器或記憶體時,就會出現單粒子翻轉,使半導體材料游離(產生電荷),形成短暫的電流脈衝,如此便可能足以干擾到儲存資料。

如圖4(a)所示的Bulk CMOS製程。輻射(深灰箭頭)穿過晶片生成一條游離路徑,隨之留下正負電荷。這些電荷隨後在入射節點處聚集(白色箭頭)。

圖4 SEU對Bulk CMOS製程(a)和FD-SOI製程(b)的影響比較

相比之下,再來觀察如圖4(b)所示的FD-SOI製程。在此情況下,由於氧化物層(灰色)下方的任何電荷都無法在敏感節點處聚集,因此,該氧化物層可以將生成的電荷隔離開來。較少的電荷意謂著瞬態電流脈衝也較弱,也就不太可能使暫存器元件或記憶體單元發生故障。

之前提到的另一個潛在問題就是MCU和MBU,這兩種情況下單個粒子可能破壞多個記憶體元件。在如圖5(a)所示的Bulk CMOS製程下,輻射(深灰色箭頭)穿過晶片生成一條游離路徑,隨之留下正負電荷。除了在入射節點處聚集(白色箭頭)外,這些電荷還可能在相鄰節點處聚集,進而導致MCU或MBU。

圖5 SEU對Bulk CMOS製程(a)和FD-SOI製程(b)的影響比較

相比之下,往下來考察一下圖5(b)所示的FD-SOI製程。除了將入射節點與大部分生成的電荷隔離開外,掩埋的氧化物層(灰色)還大幅縮小了每個單元的敏感區域,讓單個粒子軌跡很難影響到多個資料位元,進而大幅減少了MCU和MBU的發生。

關鍵任務系統和安全系統的設計人員通常使用故障率(FIT)的概念。元件的FIT是指元件在十億(109)個小時的運行中可以預期的故障次數(例如一個元件運行十億小時,1,000個元件每個執行100萬小時,一百萬個元件每個執行1,000小時,以此類推)。

就28奈米技術節點下採用Bulk CMOS製程的FPGA而言,其FIT約為100。相比之下,同樣是28奈米製程,採用Nexus平台FD-SOI製程的FPGA其FIT僅為1。這意謂著Nexus平台就將FIT降低了兩個數量等級。使用Nexus平台的FPGA便提供較詳細的SEU描述報告,可用於估算輻射效應導致的故障率。

Nexus平台憑藉自身優勢,讓使用該技術的FPGA真正脫穎而出,更易於服務醫療、汽車、安全防禦以及航太等領域。然而這僅僅是開始,因為本文的目標是將FIT降低到趨近於為零,這可以透過強化FD-SOI製程以及下面討論的技術實現。

Nexus FPGA

錯誤代碼校正(ECC)記憶體是一種資料儲存方式,它可以偵測和校正任何內部資料損壞,例如由輻射引起的資料損壞。由於SEU被稱為「軟錯誤」,進而有了軟錯誤偵測(SED)和軟錯誤校正(SEC)的概念。

同時,記憶體刷洗(Memory Scrubbing)是指從每個儲存位置讀取資料,使用錯誤代碼校正位元錯誤(如果有),然後將校正後的資料寫回到同一位置。記憶體刷洗通常用於關鍵任務和安全系統以及易受高輻射環境影響的系統。

設計人員通常必須自己來實現記憶體刷洗功能,但這會消耗寶貴的可程式化設計邏輯資源。相比之下,Nexus FPGA已經包括了專用的IP模組,能夠在後台自動執行使用ECC的記憶體刷洗功能。

此外,Nexus FPGA在設定記憶體中還內建了SED/SEC模組,進而在不需要外部電路的情況下逐幀進行快速偵測和錯誤校正。儘管此類錯誤很少見,但理論上仍是有可能的。如果輻射以某種方式導致設定單元狀態翻轉,此專用IP會將其翻轉回去。

因此在Nexus FPGA中尚未觀察到不可校正的SEU。底層製程將理論FIT降低為1,這意謂著仍有可能會遇到位元發生錯誤的情形,但受到影響的位元幾乎會立即恢復正常。

雖然如此,但依然可能出現內部SED/SEC引擎可能無法校正錯誤的情況。第一種情況是出現多個單獨的SEU,其中兩個或多個粒子隨機擾亂同一資料幀內的多個位元。第二情況是出現MBU,單個粒子使同一資料幀內的兩個或多個位元出現異常。

在分析Nexus平台抵禦MCU和MBU輻射影響時,要特別注意觀察這些效應。這些測試證實了上述技術優勢,表明單個粒子很少會影響到多個單元。此外,由於文中提及的記憶體陣列設計,所有觀察到的MCU都出現在不同的資料幀中,進而可以透過SED/SEC引擎進行校正。

除了使用真實輻射源測試Nexus FPGA外,這些元件還提供能讓系統開發人員自行注入類比輻射的機制。實際上,開發人員可以同步或非同步輸入單位元和多位元錯誤。透過這些機制,開發人員可以驗證記憶體刷洗功能和SED/SEC引擎的運作,以及元件是否正常執行並生成正確的資料,這樣可以確保元件和設計即便處於輻射密集的惡劣環境中也能夠如預期工作。

低故障率適用於關鍵/安全應用

與所有電子元件一樣,FPGA可能會受到輻射的負面影響,隨著晶片中結構的不斷縮小,這種影響也變得更加明顯。本文中的Nexus技術平台使用28奈米FD-SOI製程,能讓使用者選擇高效能或低功耗模式運行,並透過程式控制即時做出更改。此外,由於FD-SOI製程本身具有抗輻射性,因此其故障率FIT僅為1,與同一技術節點下的標準CMOS FPGA相比,提高了兩個數量等級。

出於以上原因,本文中的Nexus FPGA較適合用於商業、工業、通訊、安全防禦和汽車等領域的關鍵任務和安全應用。

(本文作者為萊迪思半導體資深產品行銷總監)

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

PCI-E專欄:帶動PC演進的新介面 PCI Express普及化超乎想像

2005 年 09 月 15 日

雙相位鎖定迴路助力 數位中頻系統擺脫時鐘抖動

2013 年 02 月 24 日

無回饋通道突破電壓限制 返馳控制器空間大精省

2020 年 01 月 07 日

窄脈寬/高電流/低寄生電感兼具 eGaN推進車用光達應用

2020 年 06 月 01 日

革新傳統返馳式架構 新電源轉換器無縫多工傳輸

2022 年 02 月 12 日

電大尺寸問題分析不易 先進求解技術滿足5G模擬需求

2020 年 09 月 24 日
前一篇
三大要素決定IoT應用成敗
下一篇
Power Integrations新Qspeed矽二極體實現高速切換設計