講座報(bào)告主題:面向穩(wěn)健大語(yǔ)言模型訓(xùn)練的優(yōu)化器
專(zhuān)家姓名:黃田進(jìn)
日期:2025-07-18 時(shí)間:14:30
地點(diǎn):計(jì)算機(jī)學(xué)院221會(huì)議室
主辦單位:計(jì)算機(jī)科學(xué)與通信工程學(xué)院
主講簡(jiǎn)介:黃田進(jìn)博士,現(xiàn)任英國(guó)埃克塞特大學(xué)計(jì)算機(jī)科學(xué)系助理教授,主要從事人工智能與大模型優(yōu)化相關(guān)研究。此前,他在荷蘭埃因霍溫理工大學(xué)(TU/e)任博士后研究員,并于2023年在該校數(shù)學(xué)與計(jì)算機(jī)科學(xué)系獲得博士學(xué)位。 黃博士已在ICML、NeurIPS、ICLR、LoG、Information Fusion等國(guó)際頂級(jí)會(huì)議與期刊發(fā)表論文三十余篇,并在2022年Learning on Graphs(LoG)大會(huì)上榮獲最佳論文獎(jiǎng)。研究專(zhuān)長(zhǎng):主要從事人工智能與大模型優(yōu)化相關(guān)研究。
主講內(nèi)容簡(jiǎn)介:本報(bào)告將圍繞如何實(shí)現(xiàn)更穩(wěn)健的大語(yǔ)言模型訓(xùn)練展開(kāi),重點(diǎn)揭示訓(xùn)練過(guò)程中普遍存在的梯度突刺(gradient spike)現(xiàn)象,以及其對(duì)模型和最終性能帶來(lái)的影響。此外,報(bào)告將從優(yōu)化器設(shè)計(jì)與梯度調(diào)控機(jī)制的角度切入,介紹SPAM(Spike-Aware Moment regularization)方法如何通過(guò)瞬態(tài)梯度突刺的檢測(cè)與裁剪,有效緩解異常梯度放大效應(yīng),抑制由不均衡動(dòng)量累積導(dǎo)致的訓(xùn)練震蕩,顯著改善大模型的訓(xùn)練。在此基礎(chǔ)上,報(bào)告進(jìn)一步介紹Stable-SPAM,該方法通過(guò)引入自適應(yīng)突刺識(shí)別閾值與動(dòng)態(tài)縮放策略,可以更為穩(wěn)定的進(jìn)行大語(yǔ)言模型的低精度訓(xùn)練。
歡迎師生參加!