AI進化成人的速度 可能比你想象的還慢
吹了這么久AI,進化到底嘛時候才能超越人類啊?成人 其實,圈內人對 AI 都有一個終極期望,速度可的還就是想象實現 AGI (通用人工智能),說白了,進化就是成人造出“和人一樣聰明的AI”。 咱去馬斯克的速度可的還社交平臺上逛一圈,會發現他三句不離AGI。想象。進化 OpenAI的成人奧特曼也在瘋狂預言,AGI即將到來,速度可的還也就這三五年的想象事兒了。 但這玩意,進化到底咋衡量呢?成人俗話說得好,人和人的速度可的還區別,比人和豬的區別還大。。到底啥水平,才能和人一樣聰明啊? 就連天天為了AGI吵架的大佬們,也根本說不出來,AGI到底是個啥。。 合著都在這虛空對線是吧。 所以最近,一幫頂尖大佬看不下去了,幾十號人聯手發了篇論文,作者還是全明星陣容,包括圖靈獎得主、谷歌前 CEO 等等,他們聯合起來,給出了目前為止第一個 AGI 的量化定義。 他們也順便用GPT模型做了個測試,結果顯示,如果AGI是100分,GPT-5只有58分,不及格的水平。 這幫大佬的核心觀點是:AGI,就是一種能達到“一個受過良好教育的成年人”的能力的人工智能。 他們把心理學中一個最權威的理論,CHC 理論,給AI搬過來了。 CHC 的觀點,簡單來說,就是智力這玩意,不是一個單一的標準能衡量的東西,需要多維度考察。 說白了,這就和高考差不多。一門課強根本不夠,你得門門都強,才證明你厲害。 所以,他們把 AI 的能力分成了 10 個核心能力,每個占了 10% 的分。它們分別是: (K) 通識知識、(RW) 讀寫能力、(M) 數學能力、(R) 即時推理、(WM) 工作記憶、(V) 視覺處理、(A) 聽覺處理、(S) 反應速度、(MS) 長期記憶存儲、 (MR) 長期記憶檢索。 這里面比較抽象的,可能就是工作記憶和長期記憶了。 工作記憶,其實就是短期記憶,就是說我剛剛提過的東西,你現在還能記得起來;而長期記憶就是,AI通過跟我的對話,永久性學到了新東西,就像你上過學,即使你畢業了,“奇變偶不變”還刻在你DNA里一樣。。 每一種能力,他們都會叫AI測試,也就是寫他們精心準備的測試題。比如(R) 即時推理這一塊,他們就專門找了些略微燒腦的問題,比如: “David認識張先生的朋友Jack,Jack認識David的朋友林女士。認識Jack的人都有碩士學位,認識林女士的人都是上海人。所以誰既是上海人又有碩士學位?”(測試你是不是AI的時候到了) 他們找了OpenAI的兩員大將,GPT-4(2023)和 GPT-5(2025)來考試。結果,GPT-4 總分 27。 GPT-5 總分 58,合計也沒達到100分。 而且,咱來看看這成績單,有拉滿的,也有拉褲兜的,純純嚴重偏科。 比如 GPT-5,在通識(K)、讀寫(RW)、數學(M)這幾項上,直奔 9 分 10 分。所以說目前來看,這幾項是AI的強項。 而 (MS) 長期記憶存儲這項,GPT-5純純大光頭,3-4分的也有一堆。而GPT-4更不用說,好幾項都是0分。 這一項其實考的是, AI 能不能持續學習獲得信息。因為論文發現,現在的 AI 根本就是個健忘癥,你今天教它的東西,明天它就忘得一干二凈。 他們做測試的方法,就是第一天跟AI講一些東西,然后第二天單開一個對話,再讓AI回想。 都不用猜,包想不起來的,大伙用過都知道,新開窗口就會清空記憶,那得分不是0就怪了。。 有的人會反駁,現在的AI早就有永久記憶了。但文章中其實譴責了這一點,現在AI的記憶,根本不是真正的記憶,他們只是在假裝自己有記憶。 作者們把這招叫做 “能力扭曲” ,即利用某些領域的優勢來彌補其他領域的嚴重弱點,創造出一種“AI真有能力”的錯覺。像現在的AI記憶,其實就是在瘋狂卷上下文長度,或者通過知識庫來實現,實際上就是外掛,模型本身是一點記憶都沒有。 除了記憶力,長期記憶檢索ai們也很拉,說白了,就是檢測幻覺,別睜眼說瞎話。 當然,還有一項大伙都很拉的功能,(V) 視覺處理。 GPT-4是0分, 而GPT-5進化過后,也只來到4分。 它考的不是簡單的“這圖里有啥”,考的是視覺推理。這對大模型來說,可就難多了。比如說,咱來試一道: “下面這 4 個 2D 展開圖里,哪一個不能折成左邊那個立方體?” 還真有點難度,但我們人類稍加思索,還是能做出來的。我也去求證了下Gemini,結果確實是無法戰勝。 這也說明,AI的眼睛和腦子,目前配合的不是很好,還沒有人類這種,邊看邊想就解決問題的能力。 當然,這份報告,肯定還是不夠完美的。除了這十個維度,人腦還有聯想等其他難以名狀的能力,人類可太復雜了,不是幾道題就能測明白的。 但它最大的價值,是給當下的 AI 做了一次全面診斷:AI現在還是瘸腿,在一些人類最基本的認知能力上,仍然有嚴重的缺陷。 而且,現在的 AI 廠商會還用一些捷徑,來掩蓋這些弱點。 因此,這篇文章也在給大家敲警鐘:這樣搞出來的 AI,是到不了 AGI 的。 但奧特曼在前一陣的直播里還說了,AGI在路上了,我只能說,走著瞧了。 當然,俺覺得,這套標準本身也有不小的槽點。 人家AGI ,憑啥非要模仿人類啊?它很可能是一種完全不同的智能。硬拿人類的 CHC 理論去套 AGI,是否有點刻舟求劍的意味了。 而且,這標準定得也有點高了。講實話,AI 要能達到一個“沒受過教育的小孩”的水平,就已經無敵了。更別提有相當一部分人類,自己都通不過這個測試。。 不過,不管怎么吐槽,有人提出標準就是好事。 它最大的意義,是終于把 AGI 這個話題從玄學的范疇,拉回到了一個可以討論的具體問題上。 就算這個標準不完美,它也會逼著整個行業開始思考,我們到底在追求什么,以及我們到底缺了什么。 這總比大家都在吹牛,說自己快要實現 AGI要強得多。
- 最近發表
- 隨機閱讀
-
- 智能終端將更加多樣化 高通李儼:AI與用戶的直接交互將是輕量級的
- (粵港澳全運會)十五運會射擊(飛碟)項目比賽在廣州開賽
- “智慧全運”背后的億級數據:大到每個重點區域,小到每個觀眾坐席
- Intel銳炫B390 Xe3顯卡最新跑分:與RTX 3050 Ti移動版相當!
- 首批物流無人車在全運會持證上崗 效率暴漲50%
- 中新健康丨我國進入呼吸道傳染病流行季 專家提醒:警惕疊加感染
- 嗶哩嗶哩第三季度營收76.9億元 經調凈利潤7.9億元
- 中國男籃新一期集訓名單公布 以亞洲杯陣容為班底備戰世預賽
- (粵港澳全運會)云南隊選手蔣發坤十五運會男子10000米決賽奪金
- (粵港澳全運會)十五運會射擊(飛碟)項目比賽在廣州開賽
- 中國工程院院士鄔賀銓:5G除速度比4G快用戶感受不明顯 6G模式變革一覽
- 啄木鳥集團旗艦店:加絨加厚休閑棉衣到手99元(新低)
- 魅族總部大樓要出售 官方回應:不搬 租期還很長
- 哈爾濱推出“紅腸公交卡” 300余個城市通用
- 榮耀500 Pro核心規格確定:同檔最強驍龍8至尊版 主打2億主攝
- 平均日賺6.86億!騰訊三季度盈利超預期 國外游戲收入首破200億
- 谷神星一號遙十九運載火箭發射失利原因確認:已通過歸零評審
- AMD FSR重大更新Redstone終于來了!《使命召喚》中首秀:可惜只有一個功能
- 荷蘭安世仍未向中國供應晶圓 全球汽車產線幾周內或將停產
- 福建漳州黃氏宗親赴臺歸來 感嘆“親情割不斷”
- 搜索
-