您現在的位置是:綜合 >>正文
節省近50%GPU計算!通義百聆開源新一代語音交互模型
綜合573人已圍觀
簡介12月24日消息,阿里通義百聆家族近日開源新一代語音交互模型Fun-Audio-Chat-8B。新模型兼具高智商和高情商,具備出色的共情能力,與之對話,仿佛與懂你的人聊天。在OpenAudioBenc ...
12月24日消息,節省近G計算交互阿里通義百聆家族近日開源新一代語音交互模型Fun-Audio-Chat-8B。通義
新模型兼具高智商和高情商,百聆具備出色的開源共情能力,與之對話,新代仿佛與懂你的語音人聊天。
在OpenAudioBench、模型VoiceBench、節省近G計算交互UltraEval-Audio、通義MMAU、百聆MMSU、開源SpeechFunctionCall等權威基準測評中,新代Fun-Audio-Chat-8B斬獲SOTA,語音超過同量級開源模型。模型
目前,節省近G計算交互百聆家族成員包括“會說話”的語音轉文字模型Fun-ASR、“聽得懂”的文字轉語音模型Fun-CosyVoice3。
最新開源的模型Fun-Audio-Chat-8B主打語音對語音功能——“能聽會說”。
用戶可與模型音頻對話,適用于語音聊天、情感陪伴、智能設備和語音客服等多種場景。
無任何情緒標簽或提示詞情況下,它能通過語義、語氣、語速、停頓、重音等細微信號,感知對方的情緒狀態,并給出恰到好處的關切、安慰或鼓勵式回應。
此外,用戶可嘗試角色扮演,量身定制語音的情緒、說話風格、語速、高低音和音量等。
而模型能保持“原有智商”,主要得益于兩個創新的音頻模型訓練模式。
一是采用 Core-Cocktail兩階段訓練策略,先快速學新本事,再把“新本事”和“老底子”融合起來,為了避免學新東西把原來的能力忘掉(災難性遺忘),第一階段訓練得到的模型和原始的純文本大模型參數合并后,再進行微調。
二是與人類偏好對齊。通過多階段和多任務的后訓練設計,模型在真實對話場景中能更好地理解用戶語音內容與情緒線索,作出更自然、更符合人類期望的回應。
值得注意的是,新模型通過壓縮-自回歸-解壓縮的雙分辨率端到端設計,音頻幀率降到業界最低的5Hz,在保證語音質量的同時節省近50% GPU計算。
目前,用戶可在魔搭社區、HuggingFace和GitHub下載模型自行體驗。
Tags:
相關文章
ROG X870主板 極限之地CS亞洲公開賽官方指定主板
綜合12月18日至21日,2025極限之地CS亞洲公開賽火熱開啟,來自各大賽區的12支頂尖戰隊齊聚上海,共同角逐2025極限之地亞洲總冠軍。最終蒙古戰隊Chinggis Warriors在決賽中展現超強韌 ...
【綜合】
閱讀更多德國、意大利強力反對!歐盟考慮將2035內燃機禁令推遲5年
綜合12月12日消息,據報道,在以意大利,波蘭和德國為代表的汽車國家的強大壓力下,歐洲聯盟正在考慮將其對內燃機的2035年禁令延后五年。歐洲委員會預計將會在12月16日公布新的汽車政策方案,該方案可能會在 ...
【綜合】
閱讀更多Snapdragon Ride Flex加速艙駕融合落地 多款新車型集中發布
綜合隨著汽車智能化水平不斷提升,行業正邁向以汽車架構優化和系統協同為核心的發展方向。艙駕融合被普遍視為邁向多域融合乃至中央計算的重要一步,它不僅推動電子電氣架構從分布式向集中式演進,也為構建軟件定義汽車架 ...
【綜合】
閱讀更多