日韩精品中文字幕无码一区,国产亚洲精品无码成人,久久av高潮av无码av喷吹

當前位置：首頁 > 探索 > 短視頻刷多了AI也會變蠢！“年度最令人不安的論文” 正文

短視頻刷多了AI也會變蠢！“年度最令人不安的論文”

時間：2025-11-21 04:13:21 來源：企業錄(www.zj28.net)-公司信息發布,網上買賣交易門戶

你知道有個全球年度詞匯叫“腦損傷”（Brain Rot）嗎？短視多A度最的論

特指那些因人長期接觸碎片化、低價值網絡信息而逐漸變得記憶紊亂、頻刷注意力下降的蠢年情況（俗稱短視頻刷多了）。在2024年，令人這個詞一度被選為牛津年度詞匯。不安

然鵝！短視多A度最的論最新研究結論顯示，頻刷AI也一樣。蠢年大模型灌多了垃圾內容也會變蠢降智腦損傷，令人而且后面變不回來了。不安

就在最近，短視多A度最的論幾個AI研究者找來了幾個月的頻刷高流行但低價值的Twitter數據（現），統統“喂”給大模型后發現：

模型推理能力下降了23%；

模型長上下文記憶下降了30%；

模型性格測試顯示，蠢年其自戀和精神病態的令人現象激增。

更可怕的不安是，即使后來又在干凈、高質量的數據上進行重新訓練，這些已經造成的損傷，無法完全修復。

好嘛，本來以為只是簡單的“輸入壞數據→輸出壞數據”（種瓜得瓜也不難理解），結果你告訴我一次錯誤就會造成永久性的認知漂移。（os：AI貌似比人類更慘？）

細思極恐，“這可能是2025年最令人不安的AI論文了”。

以及諸多討論之中，“垃圾進垃圾出”這一計算機習語也再度被頻頻提及（doge），堪稱“計算機第一性原理”了。

所以這個研究怎么進行的？又究竟說了什么？

提出并驗證“LLM腦損傷假說”

概括而言，論文想要探究一個核心問題：

大語言模型（LLM）持續接觸垃圾數據后，是否會像人類一樣出現認知衰退？（即“LLM腦損傷假說”）

要想搞清這個問題，第一步就是要定義：對于LLM來說，什么是“垃圾數據”？

之前的研究僅關注“惡意數據”（如后門、有毒的文本等），而這項研究聚焦于生活中更普遍的“非惡意低質量數據”，也就是短平快的熱門推文、標題黨內容等，以此來填補“日常化數據質量如何影響LLM認知”這一空白領域。

具體而言，研究人員從兩個維度（避免單一標準偏差）來定義“垃圾數據”，這些數據均源自平臺上的公開內容，而且通過讓“垃圾組”與“對照組”的token數量一致來排除數據量差異的干擾：

M1（參與度維度）：把“短文本+高熱度”的內容歸為垃圾數據，具體是指長度小于30 token+點贊/轉發/回復大于500，然后把“長文本+低熱度”定義為對照數據。

M2（語義質量維度）：用GPT-4o-mini結合人工驗證，把含標題黨語言（如 “WOW”“TODAY ONLY”）、陰謀論、無論斷依據的文本歸為垃圾數據；對照組則是事實準確、有教育價值或深度分析的內容，比如含專業知識、邏輯推理的推文。

基于上述兩類數據，然后進行模型訓練。

研究人員選了4個不同的大語言模型（Llama3-8B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-0.5B-Instruct、Qwen3-4B-Instruct），給每個模型分別“喂”這兩類數據，讓它們持續預訓練。

等預訓練結束，接著讓所有模型統一再進行指令微調，以此來確保模型最后輸出的“垃圾內容”不是因為格式問題導致的（排除其他因素，只留下“認知損傷”這一種可能）。

然后，研究人員從四個認知維度來測試這些大模型的核心能力：

ARC（檢測推理能力）：基于網格的視覺程序歸納謎題，用于測試概念抽象能力。

RULER（檢測記憶與多任務處理能力）：用于評估長上下文理解能力，以及從長上下文中檢索多個查詢結果。

HH-RLHF&AdvBench （檢測道德規范）：測試大語言模型是否會遵循有害指令，評估其安全性。

TRAIT（檢測AI人格特質）：經過心理測量學驗證的小型人類問卷，用于評估模型類似人類的人格傾向。

結果得出了以下發現——

真·垃圾進垃圾出！且損傷不可逆

首先，大模型確實和人類一樣存在“腦損傷（Brain Rot）”問題。

整體上M1和M2兩種維度上的“垃圾數據”均會導致模型認知下降，但需要注意的是——

M1所帶來的負面影響更為顯著，尤其在安全性和人格層面（M1會導致安全性評分下降，同時自戀/精神病特質明顯增強）。

而且，這一損害明顯存在“劑量效應”，即垃圾數據攝入越多，AI認知損傷越嚴重。

至于導致AI認知受損的背后原因，研究人員也做了一番探查。

結果發現，主要原因竟是“思維跳躍”（俗稱AI懶得一步步思考）。

具體而言，研究人員通過分析ARC題的錯誤答案，發現失敗多源于模型要么直接給答案不解釋，要么規劃了推理步驟卻跳過關鍵環節（如解數學題漏了公式推導）。

尤其是M1組，70%以上的錯誤都是“無思考直接回答”，就好像人類刷多了短視頻后“不愿意再深度思考”。

與此同時，相比人類可以通過其他措施來緩解類似的認知下降問題，AI卻對此“束手無策”。

研究嘗試了兩種修復方法，結果都無法讓其恢復如初：

其一是外部反思。研究人員用GPT-4o-mini給受損模型提錯誤反饋，雖然6輪下來“思維跳躍”這一錯誤誘因減少了，但推理準確率仍差基線17.3%。如果換成讓模型自我反思糾錯，則模型還會因為“認知不足”而判斷錯誤，導致誤差更高。

其二是大規模微調。研究人員把指令微調數據從5k增至50k，雖然修復效果優于“持續對照數據預訓練”，但即使使用4.8倍于垃圾數據量的指令數據，仍無法恢復基線性能。

這說明，即使事后進行大量指令微調或使用高質量數據進行重新訓練，也都無法完全恢復模型的初始性能。

一句話，只能緩解無法根治。

整體而言，這項研究給行業帶來了以下幾點新的啟發：

1、首次把“持續預訓練的數據篩選”歸為“訓練時安全問題”，提醒行業不能只關注“訓練后對齊”（如安全微調），更要在源頭把控數據質量。

2、給大模型加上“認知體檢”非常重要，建議部署大模型時使用ARC、RULER等基準測試AI認知，避免AI長期接觸低質量數據導致能力退化。

3、類似“熱度”這樣的指標比文本長度更能判斷數據質量，未來篩選訓練數據時，可優先排除“短+高傳播”的碎片化內容，尤其是社交平臺數據。

背后團隊：華人含量爆表

最后說一下這項研究的背后團隊——一共8人，其中7人為華人。

兩位共同一作分別為Shuo Xing和Junyuan Hong（兼通訊作者）。

Shuo Xing（邢朔），目前是得克薩斯A&M大學計算機科學博士，寧夏大學本科、南開大學碩士。

研究方向為多模態大語言模型、機器學習、可信人工智能、具身智能等，剛好目前也在谷歌實習（方向為多模態基礎模型）。

Junyuan Hong，個人主頁顯示即將赴任新國立電子與計算機工程系助理教授，之前曾在麻省總醫院和哈佛醫學院工作。

更早之前，他還在IFML機器學習基礎研究所從事博士后研究，一直對健康和可信人工智能感興趣。

另一位通訊作者是Zhangyang Wang，他之前是德克薩斯大學奧斯汀分校錢德拉家族電氣與計算機工程系（簡稱Texas ECE）的終身副教授。

從2024年5月開始，他選擇暫時離開學界，全職出任全球頂尖量化交易公司XTX Markets的研究總監，主導算法交易與深度學習交叉領域的研究工作。

個人主頁顯示，他還是中國科學技術大學校友，2012年獲得該校電子信息系統學士學位。

此外，兩位核心貢獻者分別為Yifan Wang和Runjin Chen。

Yifan Wang，現普渡大學四年級博士生，論文唯一外國作者Ananth Grama是其指導老師。

本科畢業于中國科學技術大學電子信息工程系，同時輔修人工智能專業。

自本科埋下對AI的好奇心后，目前對大模型后訓練、如何提升模型訓推效率感興趣。

（hhh，頭像一看就是標準的90后或00后）

Runjin Chen，目前是德克薩斯大學奧斯汀分校二年級博士生，導師為前面提到的Zhangyang Wang教授。

本碩均畢業于上海交通大學，而且她從今年3月起擔任Anthropic研究員。

個人研究方向為大語言模型的安全、對齊和推理。

其余三位支持者分別為Zhenyu Zhang、Ananth Grama和Zhengzhong Tu。

Zhenyu Zhang，目前是德克薩斯大學奧斯汀分校電氣與計算機工程系在讀博士，導師也是前面提到的Zhangyang Wang。

本碩均畢業于中國科學技術大學，研究興趣主要集中在生成式模型的訓推方面。

Ananth Grama，這項研究唯一的外國作者。

目前是普渡大學信息科學中心副主任，同時也是該校計算機科學領域的杰出榮譽教授。

他的研究重點為并行和分布式計算，致力于將其應用于復雜物理系統的建模、設計、先進制造、機器學習等領域。

Zhengzhong Tu，目前是得克薩斯A&M大學計算機科學與工程系助理教授，也是論文一作邢朔的導師。

同時，他還兼任該校可信、自主、以人為本與具身智能研究組（TACO-Group）負責人一職。

個人主頁顯示，他至今已發表30多篇國際期刊/會議論文，而且曾擔任超18個國際期刊/會議的技術審稿人。

整體看下來，這又是一場典型的老師帶學生、同事帶同事的合作典范。

One More Thing

其實“垃圾進垃圾出”這一習語，計算機早期時代就有了。

十九世紀，計算機先驅查爾斯·巴貝奇（曾提出著名差分機與分析機的設計概念）就意識到了這條編程的基本原則：

我曾兩度被問到：“請問巴貝奇先生，如果給機器輸入錯誤的數字，它能得出正確的結果嗎？”我完全想不透，思維何等混亂的人才問得出這種問題。

瞧瞧他的用詞，只有思緒混亂之人才會對這個問題感到疑惑，觀點不可謂不鮮明。

在這之后，在一篇1957年介紹美國陸軍數學家所做的計算機工作的報紙文章中，其中一位軍隊專家也曾表示：

計算機自己不能思考，因此輸入粗劣的數據將不可避免地產生錯誤的輸出。

后來相關理論不斷被提出、被熱議，并逐漸誕生了“Garbage in, garbage out”這一習語。

實際上，在前AI的時代，這句話是計算機原理也是一種“以機為鏡”的哲學思考，對于計算機和人類，物種不同，但殊途同歸。

但AI開始進入智能涌現階段后，這個命題變得更加值得思考。

現階段的大模型垃圾喂多了“腦損傷”后難以修復……那有沒有方法和手段改變？

而人類發展進化歷史里充滿了“浪子回頭”、“痛改前非”的故事，又是否代表著另一種高級的智能機制，幫助人類個體實現自我革新和凈化？

你說呢……

馬云和劉強東都用上了iPhone 17 Pro Max 這些明星也在用

山海同輝夢想同行——第十五屆全國運動會開幕式上的新疆印記

（粵港澳全運會）開幕式文體展演：月照灣區，心歸同圓

十五運會開幕后首金誕生江蘇隊奪得賽艇男子四人雙槳金牌

本地化引擎智領增長：2025派克漢尼汾全國分銷商會議圓滿落幕

于東來自曝談戀愛曾自殺過兩次但為愛而付出不后悔很值

這款AI寫作神器讓數百網文作者月入過萬

同心燃炬珠江之畔如何奏響融合強音？——寫在十五運會開幕之際

大定已破9萬！全新問界M7上市57天交付突破30000臺

中國激光設備被外商搶購市場規模占全球超50%

上一篇：從添加益生元的奶粉排名里挖到寶！佳貝艾特悅白這幾點太圈粉了
下一篇：美國務院批準向烏出售“愛國者”防空系統維護設備

国产办公室秘书无码精品99_免费无码中文字幕A级毛片_AA区一区二区三无码精片_久久青青草原亚洲av无码app

短視頻刷多了AI也會變蠢！“年度最令人不安的論文”