您現(xiàn)在的位置是:探索 >>正文
里程碑時(shí)刻!螞蟻推出業(yè)內(nèi)首個(gè)100B擴(kuò)散語言模型
探索69384人已圍觀
簡介12月12日消息,“螞蟻開源”公眾號(hào)發(fā)文,螞蟻技術(shù)研究院正式推出LLaDA2.0系列離散擴(kuò)散大語言模型dLLM),并同步公開技術(shù)報(bào)告。這一發(fā)布打破了行業(yè)對(duì)擴(kuò)散模型難以擴(kuò)展的固有 ...
12月12日消息,刻螞擴(kuò)散“螞蟻開源”公眾號(hào)發(fā)文,蟻推語螞蟻技術(shù)研究院正式推出LLaDA2.0系列離散擴(kuò)散大語言模型(dLLM),出業(yè)并同步公開技術(shù)報(bào)告。內(nèi)首
這一發(fā)布打破了行業(yè)對(duì)擴(kuò)散模型難以擴(kuò)展的模型固有認(rèn)知,實(shí)現(xiàn)了參數(shù)規(guī)模與性能的刻螞擴(kuò)散雙重重大突破。
LLaDA2.0系列包含基于MoE架構(gòu)的蟻推語16B (mini) 和里程碑式的100B (flash) 兩個(gè)版本,首次將擴(kuò)散模型的出業(yè)參數(shù)規(guī)模成功擴(kuò)展至百億量級(jí)。
尤為引人注目的內(nèi)首是,該模型在代碼、模型數(shù)學(xué)及智能體任務(wù)上的刻螞擴(kuò)散性能超越了同級(jí)別的自回歸(AR)模型。
通過螞蟻創(chuàng)新的蟻推語Warmup-Stable-Decay (WSD) 持續(xù)預(yù)訓(xùn)練策略,LLaDA2.0能夠高效繼承現(xiàn)有AR模型的出業(yè)知識(shí)儲(chǔ)備,顯著避免了從頭訓(xùn)練的內(nèi)首巨大成本。
在訓(xùn)練優(yōu)化方面,模型LLaDA2.0結(jié)合了置信度感知并行訓(xùn)練(CAP)和擴(kuò)散模型版DPO,不僅保障了生成質(zhì)量,更充分發(fā)揮了擴(kuò)散模型并行解碼的先天優(yōu)勢。最終,模型實(shí)現(xiàn)了相比AR模型高達(dá)2.1倍的推理加速。
LLaDA2.0的成功有力證明:在超大規(guī)模參數(shù)下,擴(kuò)散模型不僅完全可行,更能展現(xiàn)出比傳統(tǒng)自回歸模型更強(qiáng)的性能與更快的速度。
Tags:
相關(guān)文章
SpaceX通知員工進(jìn)入IPO前靜默期:禁止就上市計(jì)劃進(jìn)行任何宣傳
探索12月17日消息,據(jù)媒體報(bào)道,SpaceX已正式進(jìn)入首次公開募股IPO)前的監(jiān)管靜默期,向著計(jì)劃于明年啟動(dòng)的上市進(jìn)程邁出關(guān)鍵一步。根據(jù)美國證券交易委員會(huì)SEC)的相關(guān)規(guī)定,公司已明確要求員工不得就上市 ...
【探索】
閱讀更多特斯拉滿血FSD即將入華!馬斯克為了天價(jià)薪酬拼了
探索11月7日凌晨,特斯拉年度股東大會(huì)傳來重磅消息,現(xiàn)場以超過75%的支持率批準(zhǔn)了馬斯克最高可達(dá)1萬億美元的“天價(jià)”薪酬方案。他本人非常激動(dòng),剛上臺(tái)就與機(jī)器人跳起了熱舞。根據(jù)這項(xiàng)計(jì) ...
【探索】
閱讀更多銳龍7 9800X3D網(wǎng)游、酷睿Ultra 9 285K對(duì)比:Intel搭配頂級(jí)8400MHz內(nèi)存依然差距巨大
探索一、前言:搭配頂級(jí)內(nèi)存的Ultra 9 285K網(wǎng)游性能能否戰(zhàn)勝銳龍7 9800X3D酷睿Ultra 9 285K可能是Intel有史以來第一款游戲性能出現(xiàn)倒退的旗艦級(jí)桌面處理器!由于第一次在桌面上采 ...
【探索】
閱讀更多