製造半導體晶片的瓶頸之一,是開發電晶體和記憶體儲存單元的化學電漿製程所需的成本越來越高。這些製程仍然是由訓練有素的工程師以人工方式進行開發,透過尋找機台上的參數組合,以便在矽晶圓上產出可接受的結果。
(承前文)實驗團隊執行製程虛擬遊戲,將該製程的模擬參數化,然後使用基於物理和經驗的關係將輸入機台參數組合「配方」與虛擬晶片上的輸出蝕刻結果相關聯,將其從現有資料校準到專有的特徵輪廓模擬器中。該遊戲的目的是找到一種配方,使此配方能夠產出符合目標的輸出指標,並最小化達成此目標的成本。
人類基準測試
接續上篇的虛擬製程遊戲,在人類基準測試的目標成本的基準是由人類玩家決定的。志願者包括六名擁有物理科學博士學位的專業製程工程師:三位擁有七年以上經驗的資深工程師,和三位擁有不到一年經驗的助理工程師。
工程師們根據他們之前對製程趨勢和電漿參數依賴關係的瞭解,利用機械性假設來設計其實驗。選擇一個平均為四個配方的批次規模,在95%的配方選擇中使用單變數或雙變數參數變換。作為參考,三名無相關製程經驗的人員也參與其中。
製程工程師的軌跡如圖2所示。其軌跡定性地顯示出相似的路徑,漸進式地朝著目標推進。將其表徵為兩個階段:粗略調整和精細調整。粗略調整指的是最初朝著目標的方向快速改進,而精細調整指的是在軌跡末端的緩慢推進,工程師們努力同時滿足所有輸出指標。要取得相同的進度,資深工程師所需的成本大約是助理工程師的一半。獲勝的人類參與者是1號資深工程師,目標成本為105,000美元,如圖2的插圖所示。這是團隊中的「專家」人類基準。
電腦演算法基準測試
參加這場比賽的電腦演算法為貝氏最佳化演算法,這是一種適合於昂貴黑盒函數的常用機器學習方法[12-14]。這類演算法已經在半導體產業的其他應用中進行了研究[15-17]。團隊選擇了三種不同的貝氏最佳化:(1)Algo1使用馬可夫鏈(Markov chain)蒙地卡羅抽樣[18],一個可補償抽樣高計算成本的多變數線性代理模型,以及一個預期改進(EI)函數。(2)Algo2來自一個開源軟體,使用樹狀結構Parzen Estimator和EI擷取函數[19、20]。(3)Algo3使用高斯過程模型[21]和信賴區間下限擷取函數。這些演算法均使用標度歐氏距離作為目標函數,並且在沒有任何訓練和使用無資訊先驗的情況下開始[22]。
這些演算法被程式設計為使用輸出指標而不使用輸出輪廓圖片,因此實際上忽略了這些圖片。每個批次僅使用一個配方,這是貝氏最佳化的預設做法[23]。考慮到由於貝氏最佳化的概率特性而導致的目標成本的內在隨機性,將軌跡重複100次以獲得統計學上的相關性。為了節省計算時間,如果軌跡在105,000美元的專家基準之前未達到目標,則被截斷。團隊將「成功率」定義為目標成本低於專家的軌跡的百分比。作為參考,僅從純隨機的角度來看, 成功率估計不到0.2%(基於先前提到的每個配方的0.003%的機率)。
演算法以一個拉丁超立方體中隨機生成的32個配方的種子開始每個軌跡,然後再生成每個批次的單一配方。結果在圖3的面板上標記為「無人類」。成功率較低,Algo1低於1%,Algo2低於2%,Algo3低於11%。在300次嘗試中,總共只有13次(低於5%)擊敗了專家。作為參考,團隊允許Algo2的一條軌跡超過截斷限制,最終以739,000美元的成本達到目標,這比專家的成本高出近一個數量級。整體來說,單靠演算法無法在與人類專家的比賽中獲勝。
人先機後策略
團隊認為,這些演算法之所以失敗,是因為它們在沒有先前知識的情況下浪費了實驗,以便能在廣大的製程空間中探索。相比之下,團隊推測製程工程師借助其經驗和直覺在最初的探索中做出了更合理的決策。因此,團隊決定測試一種混合策略,在人先機後(HF–CL)的情境下,由專家指導演算法。在這種實施方案中,專家提供收集到圖2中標記為A到E的轉移點的實驗數據,而不是隨機抽樣,同時還提供受專家限制的搜尋範圍。
基於2700個隨機樣本中每個配方達到目標的機率為0.27%,作為參考,在這個「受限制」搜尋範圍內找到目標的成功率估計為13%。在HF–CL策略中,一旦電腦接管了決策,專家就實際上放棄了控制權,因此在實驗設計中不再有進一步的作用。和以前一樣,為獲得統計學上的相關性,將每個條件重複100次。
在HF–CL策略中,轉移點A從專家到電腦演算法提供的數據量最少。在這一點上,HF–CL的目標成本中位數仍然持續高於單獨專家的目標成本,Algo1的成功率僅為20%,Algo2的成功率為43%,Algo3的成功率則為42%。儘管這些值高於單純的電腦結果,但低於50%的成功率顯示,成本更有可能增加而不是減少。因此,儘管某些初步指導提高了電腦演算法的效能,但HF–CL在A點統計上是失敗的。
圖3顯示了提供給電腦演算法的數據逐漸增多時的HF-CL結果。團隊觀察到目標成本對專家數據量的V形依賴關係。從A點到C點,隨著演算法效能的提高,對更多專家數據的存取降低了總體目標成本。
然而,這一趨勢在C點之後發生了逆轉,這時對更多專家數據的存取會增加成本,但對演算法沒有明顯的好處。所有演算法的HF–CL的最優效能均出現在C點。Algo3優於其他演算法,這歸因於高斯過程模型的彈性或其不同的擷取函數,因為信賴區下限演算法已被證明優於EI函數[23]。採用Algo3的HF-CL設立了一個新的基準,其目標成本中位數為52,000美元,這僅僅是單獨專家所需成本的一半以下。
因此,透過可靠地降低開發電漿蝕刻製程的目標成本(相對於專家基準),採用與Algo3結合的專家HF–CL策略贏得了比賽。第3篇將接續說明實驗結果。
參考資料:
[12] Greenhill, S., Rana, S., Gupta, S., Vellanki, P. & Venkatesh, S. Bayesian optimization for adaptive experimental design: a review. IEEE Access 8, 13937–13948 (2020).
[13] Shao, K., Pei, X., Grave, D. B. & Mesbah, A. Active learning-guided exploration of parameter space of air plasmas to enhance the energy efficiency of NOx production. Plasma Sources Sci. Technol. 31, 055018 (2022).
[14] Shahriari, B., Swersky, K., Wang, Z., Adams, R. P. & De Freitas, N. Taking the human out of the loop: a review of Bayesian optimization. Proc. IEEE 104, 148–175 (2016).
[15] Lang, C. I., Jansen, A., Didari, S., Kothnur, P. & Boning, D. S. Modeling and optimizing the impact of process and equipment parameters in sputtering deposition systems using a Gaussian process machine learning framework. IEEE Trans. Semicond. Manuf. 35, 229–240 (2021).
[16] Chen, Z., Mak, S. & Wu, C. F. J. A hierarchical expected improvement method for Bayesian optimization. Preprint at https://doi.org/10.48550/arxiv.1911.07285 (2019).
[17] Guler, S., Schoukens, M., Perez, T. D. & Husakowski, J. Bayesian optimization for tuning lithography processes. IFAC-PapersOnLine 54, 827–832 (2021).
[18] Foreman-Mackey, D., Hogg, D. W., Lang, D. & Goodman, J. emcee: the MCMC hammer. Publ. Astron. Soc. Pac. 125, 306 (2013).
[19] Akiba, T., Sano, S., Yanase, T., Ohta, T. & Koyama, M. in Proc. 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining 2623–2631 (ACM, 2019).
[20] Bergstra, J., Bardenet, R., Bengio, Y. & Kégl, B. in Proc. 24th International Conference on Neural Information Processing Systems (Curran Associates, 2011).
[21] Rasmussen, C. E. & Williams, C. K. I. Gaussian Processes for Machine Learning (MIT Press, 2006).
[22] Fortuin, V. Priors in Bayesian deep learning: a review. Int. Stat. Rev. 90, 563–591 (2022).
[23] Liang, Q. et al. Benchmarking the performance of Bayesian optimization across multiple experimental materials science domains. NPJ Comput. Mater. 7, 188 (2021).
AI人機協作降半導體製程開發成本(2)