您現在的位置是：綜合 >>正文

節省近50%GPU計算！通義百聆開源新一代語音交互模型

綜合573人已圍觀

簡介12月24日消息，阿里通義百聆家族近日開源新一代語音交互模型Fun-Audio-Chat-8B。新模型兼具高智商和高情商，具備出色的共情能力，與之對話，仿佛與懂你的人聊天。在OpenAudioBenc ...

12月24日消息，節省近G計算交互阿里通義百聆家族近日開源新一代語音交互模型Fun-Audio-Chat-8B。通義

新模型兼具高智商和高情商，百聆具備出色的開源共情能力，與之對話，新代仿佛與懂你的語音人聊天。

在OpenAudioBench、模型VoiceBench、節省近G計算交互UltraEval-Audio、通義MMAU、百聆MMSU、開源SpeechFunctionCall等權威基準測評中，新代Fun-Audio-Chat-8B斬獲SOTA，語音超過同量級開源模型。模型

目前，節省近G計算交互百聆家族成員包括“會說話”的語音轉文字模型Fun-ASR、“聽得懂”的文字轉語音模型Fun-CosyVoice3。

最新開源的模型Fun-Audio-Chat-8B主打語音對語音功能——“能聽會說”。

用戶可與模型音頻對話，適用于語音聊天、情感陪伴、智能設備和語音客服等多種場景。

無任何情緒標簽或提示詞情況下，它能通過語義、語氣、語速、停頓、重音等細微信號，感知對方的情緒狀態，并給出恰到好處的關切、安慰或鼓勵式回應。

此外，用戶可嘗試角色扮演，量身定制語音的情緒、說話風格、語速、高低音和音量等。

而模型能保持“原有智商”，主要得益于兩個創新的音頻模型訓練模式。

一是采用 Core-Cocktail兩階段訓練策略，先快速學新本事，再把“新本事”和“老底子”融合起來，為了避免學新東西把原來的能力忘掉（災難性遺忘），第一階段訓練得到的模型和原始的純文本大模型參數合并后，再進行微調。

二是與人類偏好對齊。通過多階段和多任務的后訓練設計，模型在真實對話場景中能更好地理解用戶語音內容與情緒線索，作出更自然、更符合人類期望的回應。

值得注意的是，新模型通過壓縮-自回歸-解壓縮的雙分辨率端到端設計，音頻幀率降到業界最低的5Hz，在保證語音質量的同時節省近50% GPU計算。

目前，用戶可在魔搭社區、HuggingFace和GitHub下載模型自行體驗。

Tags：