国产办公室秘书无码精品99_免费无码中文字幕A级毛片_AA区一区二区三无码精片_久久青青草原亚洲av无码app

您的當(dāng)前位置:首頁 > 焦點(diǎn) > 全面戰(zhàn)勝ReAct!斯坦福全新智能體推理框架 性能提升112.5% 正文

全面戰(zhàn)勝ReAct!斯坦福全新智能體推理框架 性能提升112.5%

時間:2025-12-19 04:59:47 來源:網(wǎng)絡(luò)整理 編輯:焦點(diǎn)

核心提示

斯坦福和MIT的研究團(tuán)隊(duì)推出了一種新的AI智能體推理框架ReCAP,在長上下文任務(wù)中全面超越了現(xiàn)有的主流框架ReAct,性能提升顯著。ReCAP通過獨(dú)特的遞歸樹結(jié)構(gòu)和三大機(jī)制,解決了大語言模型在復(fù)雜任

斯坦福和MIT的全面全新研究團(tuán)隊(duì)推出了一種新的AI智能體推理框架ReCAP,在長上下文任務(wù)中全面超越了現(xiàn)有的戰(zhàn)勝智主流框架ReAct,性能提升顯著。斯升ReCAP通過獨(dú)特的坦福體推遞歸樹結(jié)構(gòu)和三大機(jī)制,解決了大語言模型在復(fù)雜任務(wù)中常見的理框目標(biāo)漂移、上下文斷層和成本爆炸等問題。架性在多項(xiàng)基準(zhǔn)測試中,全面全新ReCAP均取得了大幅領(lǐng)先的戰(zhàn)勝智成績,展現(xiàn)出強(qiáng)大的斯升通用性和穩(wěn)定性。盡管計(jì)算成本略有增加,坦福體推但其在關(guān)鍵任務(wù)中的理框表現(xiàn)使其成為極具潛力的新一代通用推理架構(gòu)。

自2022年ReAct框架提出以來,架性AI智能體推理領(lǐng)域便進(jìn)入了百家爭鳴的全面全新時代,各種復(fù)雜架構(gòu)如雨后春筍般涌現(xiàn)。戰(zhàn)勝智

然而,斯升這些架構(gòu)大多曇花一現(xiàn),因其復(fù)雜的結(jié)構(gòu)導(dǎo)致在更換評測基準(zhǔn)時需要大幅修改示例,表現(xiàn)遠(yuǎn)不如ReAct穩(wěn)定泛用,這也使得ReAct在過去三年中,成為了該領(lǐng)域事實(shí)上的主流與標(biāo)桿。

但是,我們真的不能再做得更好了嗎?

面對大模型在長上下文任務(wù)中走幾步就忘的短期記憶頑疾,業(yè)界是否只能止步于此?

來自斯坦福大學(xué)與MIT的研究團(tuán)隊(duì)給出了肯定答案,正式發(fā)布的AI Agent推理新框架——ReCAP(遞歸上下文感知推理與規(guī)劃),從真正意義上統(tǒng)一了序列推理和層級推理,在多種任務(wù)中全面戰(zhàn)勝了ReAct,且繼承了ReAct示例簡單、高通用性,和即插即用的優(yōu)勢。

在嚴(yán)格遵循 pass@1(一次通過)的評測原則下,ReCAP在長序列具身任務(wù)Robotouille上相比ReAct基線取得了84.2%(同步)和112.5%(異步)的巨大性能提升。

長上下文任務(wù)的三大「死穴」

團(tuán)隊(duì)指出,當(dāng)今大語言模型在執(zhí)行復(fù)雜任務(wù)時普遍有三種問題:

目標(biāo)漂移(Goal Drift):執(zhí)行幾步后就逐漸忽略了原本的目標(biāo),使得執(zhí)行結(jié)果與期望不符。

上下文斷層(Context Loss):高層的規(guī)劃信息在長序列執(zhí)行中丟失,導(dǎo)致高層思考與低層執(zhí)行不協(xié)調(diào)。

成本爆炸(Prompt Explosion):每次遞歸都重新鋪開上下文示例和提示詞,推理成本指數(shù)增長。

簡單說,LLM就像一個短期記憶型天才,而主流推理框架各有局限:

序列推理(例如Chain of Thoughts,ReAct)雖然上下文連貫,但常常因?yàn)槿蝿?wù)太長導(dǎo)致目標(biāo)漂移;

層級推理(例如ADaPT,THREAD)將任務(wù)分解為子任務(wù)來明確目標(biāo),但給子任務(wù)單獨(dú)分配上下文示例和提示詞,導(dǎo)致上下文斷層和成本爆炸。

ReCAP

讓序列推理和層級推理有機(jī)結(jié)合

ReCAP的核心在于將一個有記憶、有反饋的遞歸樹結(jié)構(gòu)作為模型的工作記憶區(qū),其三大機(jī)制環(huán)環(huán)相扣:

計(jì)劃前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一個完整的子任務(wù)列表,但只執(zhí)行第一個子任務(wù),完成后再動態(tài)優(yōu)化后續(xù)計(jì)劃。

結(jié)構(gòu)化父任務(wù)再注入(Consistent Multi-level Context and Structured Injection):整個執(zhí)行流程只有一個上下文,由所有任務(wù)共享。每次子任務(wù)遞歸返回時,父任務(wù)會將自身的思考和計(jì)劃再次注入上下文,使父任務(wù)在重新計(jì)劃時可以參考上次的思維和執(zhí)行結(jié)果,規(guī)劃出能真正達(dá)成任務(wù)目標(biāo)的底層操作。

滑動窗口記憶(Sliding Window and Scalable Memory Efficiency):通過滑動窗口機(jī)制,在統(tǒng)一上下文中只保留最新關(guān)鍵歷史,實(shí)現(xiàn)了內(nèi)存占用可控的深度遞歸,從根本上杜絕了成本爆炸。

實(shí)驗(yàn)結(jié)果

長上下文任務(wù)性能大幅躍升

團(tuán)隊(duì)在多個典型長上下文推理基準(zhǔn)上驗(yàn)證了ReCAP的效果。結(jié)果令人矚目:

在Robotouille(同步)上取得70%成功率,較ReAct(38%)提升84.2%

在Robotouille(異步)上取得53%成功率,較ReAct(24%)提升112.5%

在ALFWorld上取得91%成功率,穩(wěn)定優(yōu)于ReAct(84%)

在SWE-bench Verified取得44.8%的成功率,優(yōu)于ReAct基線(39.58%)

值得注意的是,團(tuán)隊(duì)在實(shí)驗(yàn)中始終秉持pass@1的實(shí)驗(yàn)原則,即不使用樣本層面的重試、多數(shù)投票或者束搜索。這意味著ReCAP能在真實(shí)多步環(huán)境中,更好地保持目標(biāo)一致性與執(zhí)行連貫性——不僅「想得對」,還能「做得穩(wěn)」。

ReCAP是除ReAct之外,又一個能夠在具身推理、以及代碼編輯這兩種截然不同的任務(wù)上都取得穩(wěn)健表現(xiàn)的通用推理架構(gòu)。

論文中排除了THREAD、Reflexion等其他基線,因其在實(shí)驗(yàn)設(shè)置中難以穩(wěn)定復(fù)現(xiàn)或與 pass@1 協(xié)議不兼容,這進(jìn)一步凸顯了ReCAP作為新一代通用推理基線的潛力。

優(yōu)勢與成本的權(quán)衡

任何強(qiáng)大的能力都伴隨著成本。團(tuán)隊(duì)對此進(jìn)行了透明分析:ReCAP的總計(jì)算成本約為ReAct的三倍。這主要來自于其核心的計(jì)劃前瞻分解機(jī)制所額外需要的LLM調(diào)用。

然而,考慮到其在關(guān)鍵任務(wù)上帶來的性能巨幅提升與目標(biāo)一致性,這種成本的增加在對準(zhǔn)確性要求高的實(shí)際應(yīng)用中是可以接受的。這為開發(fā)者提供了一個清晰的性價比權(quán)衡選項(xiàng)。

遞歸,是通往通用智能的鑰匙?

從人類思維到圖靈機(jī),遞歸始終是智能的底層邏輯。ReCAP的提出,可視為AI邁向通用推理系統(tǒng)的關(guān)鍵一步。

其潛力遠(yuǎn)不止于論文所驗(yàn)證的任務(wù)范疇。任何依賴復(fù)雜決策回路與長期上下文記憶的大型任務(wù),都是ReCAP的理想應(yīng)用場景。

例如在深度研究中自主遍歷文獻(xiàn)、整合多源信息并生成洞察報(bào)告;或在復(fù)雜軟件工程中管理龐大代碼庫與依賴關(guān)系,推進(jìn)需多步驗(yàn)證的系統(tǒng)項(xiàng)目。

長遠(yuǎn)來看,ReCAP的遞歸規(guī)劃能力可以與空間智能相結(jié)合,解決更為復(fù)雜的現(xiàn)實(shí)世界問題。李飛飛教授近日指出,空間智能——即理解、推理并與三維世界交互的能力,是AI的下一個前沿。

ReCAP可以為具身智能機(jī)器人規(guī)劃復(fù)雜的長期任務(wù)序列,而空間智能模型則負(fù)責(zé)處理實(shí)時感知與動作控制,二者結(jié)合實(shí)現(xiàn)機(jī)器人在動態(tài)環(huán)境中的自主規(guī)劃與可靠執(zhí)行。

隨著代碼的開源,一個更擅長長期規(guī)劃、穩(wěn)健執(zhí)行的AI時代或許即將到來。

作者介紹

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均為斯坦福大學(xué)工程學(xué)院計(jì)算機(jī)系碩士研究生

Alex Pentland教授,麻省理工學(xué)院媒體實(shí)驗(yàn)室 創(chuàng)始人之一,美國國家工程院院士,Toshiba Professor at MIT,斯坦福大學(xué) HAI Fellow。

Jiaxin Pei博士,斯坦福大學(xué)博士后研究員,研究興趣集中在大語言模型、人機(jī)交互、Agentic AI,即將前往得克薩斯大學(xué)奧斯汀分校任教。

国产办公室秘书无码精品99_免费无码中文字幕A级毛片_AA区一区二区三无码精片_久久青青草原亚洲av无码app

      国产精品久久成人免费观看| 一本大道熟女人妻中文字幕在线 | 亚洲一区 在线播放| 超碰97人人射妻| 久久天天东北熟女毛茸茸| 精品免费国产一区二区| 喜爱夜蒲2在线| 日本中文字幕精品—区二区| www.日本在线播放| 亚洲AV无码成人精品一区| 国产精品少妇在线视频| 欧美视频在线第一页| 97超碰人人看| 9l视频白拍9色9l视频| 男人天堂1024| cao在线观看| 国产激情片在线观看| 久久久国产精华液999999 | 国产特级淫片高清视频| 亚洲视频在线不卡| 免费看a级黄色片| 亚欧无线一线二线三线区别| 少妇大叫太大太粗太爽了a片小说| 亚洲欧美手机在线| 天天综合网日韩| 日韩一级免费在线观看| a在线视频观看| 97干在线视频| 97超碰在线视| 欧美一级爱爱视频| 国产人妻互换一区二区| 想看黄色一级片| 日韩高清第一页| 久久这里只精品| 日日噜噜夜夜狠狠| 最近中文字幕一区二区| 少妇激情一区二区三区| 日本成人在线免费视频| 日韩视频在线免费看| 好吊妞无缓冲视频观看| 精品视频在线观看一区| 欧美 日韩 国产 高清| 免费无码毛片一区二三区| 国产 日韩 亚洲 欧美| 免费看黄在线看| 久久国产亚洲精品无码| 免费观看精品视频| 国产精品秘入口18禁麻豆免会员 | 中文字幕第一页在线视频| 亚欧美在线观看| 性猛交ⅹ×××乱大交| 一本一道久久a久久综合蜜桃| 色91精品久久久久久久久| 污网站在线免费| 欧美aaa在线观看| 九九久久九九久久| 国产美女主播在线| 秋霞无码一区二区| 无码精品国产一区二区三区免费| 99久久激情视频| 91制片厂毛片| 一级片黄色免费| 国产成人免费高清视频| 很污的网站在线观看| 99热成人精品热久久66| 在线观看国产一级片| 永久av免费在线观看| 九九久久九九久久| 欧美日韩黄色一级片| 国产精品视频分类| 黄色高清视频网站| 国内精品在线观看视频| 色一情一乱一伦一区二区三区日本| 欧美精品性生活| 亚洲五月激情网| 野外做受又硬又粗又大视频√| 国产午夜福利视频在线观看| 色一情一区二区三区| 8x8x华人在线| 超碰97人人射妻| 尤物网站在线看| 精品久久久久久无码中文野结衣 | 无套内谢丰满少妇中文字幕| www.国产在线播放| 一区二区在线播放视频| 中文字幕av久久| 1024av视频| 亚洲色图偷拍视频| 妞干网在线观看视频| 欧美成人三级在线播放| 久久久久99精品成人片| 午夜精品在线免费观看| 激情五月六月婷婷| 黄色aaa级片| 国产精彩视频一区二区| 蜜臀一区二区三区精品免费视频| 男人添女荫道口女人有什么感觉| 最近中文字幕一区二区| 真人抽搐一进一出视频| 国产日韩欧美久久| 精品少妇人妻av免费久久洗澡| 亚洲美女性囗交| 欧美精品一区免费| 男人的天堂成人| 动漫av免费观看| 免费日韩在线观看| 91小视频网站| 激情综合在线观看| japanese在线播放| 一区二区在线播放视频| 日韩一级性生活片| 国产精品igao网网址不卡| 无码人妻h动漫| 99久久久精品视频| 色91精品久久久久久久久| 黄色免费观看视频网站| 97久久国产亚洲精品超碰热| 亚洲精品20p| 99免费视频观看| www.99热这里只有精品| 路边理发店露脸熟妇泻火| 性生活免费在线观看| 国产精品秘入口18禁麻豆免会员| 欧美一级中文字幕| 久久久精品视频国产| 牛夜精品久久久久久久| 久久久久久久久久久福利| 97视频在线免费| www.18av.com| 少妇高潮大叫好爽喷水| 手机版av在线| 欧美日韩在线观看不卡| 久草精品在线播放| 中文字幕无码精品亚洲资源网久久| 99热这里只有精品7| 五月花丁香婷婷| 91亚洲免费视频| 天天操天天爱天天爽| 欧美精品第三页| 黄色国产精品视频| 男女高潮又爽又黄又无遮挡| 人妻少妇精品无码专区二区 | 亚洲精品久久久中文字幕| 久久久免费视频网站| 男人用嘴添女人下身免费视频| 中文字幕日韩精品无码内射| 免费成人深夜夜行网站视频| 国产美女视频免费看| 中文字幕在线综合| 亚洲综合欧美激情| 日本xxxx黄色| 91高清国产视频| 激情黄色小视频| 午夜免费一级片| a级网站在线观看| 国产日韩欧美大片| 欧美大黑帍在线播放| 亚洲熟妇无码av在线播放| 欧美久久久久久久久久久久久久| 免费网站永久免费观看| 国产www免费| 久久成人免费观看| a√天堂在线观看| 精品少妇无遮挡毛片| 亚洲视频在线观看一区二区三区| www.色偷偷.com| 天堂在线一区二区三区| 日本人69视频| 日韩精品视频网址| 91大学生片黄在线观看| 国产日韩欧美精品在线观看| 国产精品va无码一区二区| 免费国产成人av| 三上悠亚在线一区| 国产奶头好大揉着好爽视频| 99久久免费观看| 哪个网站能看毛片| 色国产在线视频| 波多野结衣激情| aa视频在线播放| 国产福利影院在线观看| 亚洲精品mv在线观看| www插插插无码免费视频网站| 亚洲熟妇av一区二区三区漫画| 日本成人黄色网| 四虎免费在线观看视频| 日韩黄色短视频| 九九热在线免费| 黄色a级在线观看| 内射国产内射夫妻免费频道| 欧美成人黄色网址| 老司机午夜免费福利视频| 久久美女福利视频| 亚洲制服中文字幕| 熟女少妇在线视频播放| 色www免费视频| www.av91| 天堂在线中文在线| 成人免费毛片在线观看| www.日本一区|