12月24日消息,節省近G計算交互阿里通義百聆家族近日開源新一代語音交互模型Fun-Audio-Chat-8B。通義
新模型兼具高智商和高情商,百聆具備出色的開源共情能力,與之對話,新代仿佛與懂你的語音人聊天。
在OpenAudioBench、模型VoiceBench、節省近G計算交互UltraEval-Audio、通義MMAU、百聆MMSU、開源SpeechFunctionCall等權威基準測評中,新代Fun-Audio-Chat-8B斬獲SOTA,語音超過同量級開源模型。模型
目前,節省近G計算交互百聆家族成員包括“會說話”的語音轉文字模型Fun-ASR、“聽得懂”的文字轉語音模型Fun-CosyVoice3。
最新開源的模型Fun-Audio-Chat-8B主打語音對語音功能——“能聽會說”。
用戶可與模型音頻對話,適用于語音聊天、情感陪伴、智能設備和語音客服等多種場景。
無任何情緒標簽或提示詞情況下,它能通過語義、語氣、語速、停頓、重音等細微信號,感知對方的情緒狀態,并給出恰到好處的關切、安慰或鼓勵式回應。
此外,用戶可嘗試角色扮演,量身定制語音的情緒、說話風格、語速、高低音和音量等。
而模型能保持“原有智商”,主要得益于兩個創新的音頻模型訓練模式。
一是采用 Core-Cocktail兩階段訓練策略,先快速學新本事,再把“新本事”和“老底子”融合起來,為了避免學新東西把原來的能力忘掉(災難性遺忘),第一階段訓練得到的模型和原始的純文本大模型參數合并后,再進行微調。
二是與人類偏好對齊。通過多階段和多任務的后訓練設計,模型在真實對話場景中能更好地理解用戶語音內容與情緒線索,作出更自然、更符合人類期望的回應。
值得注意的是,新模型通過壓縮-自回歸-解壓縮的雙分辨率端到端設計,音頻幀率降到業界最低的5Hz,在保證語音質量的同時節省近50% GPU計算。
目前,用戶可在魔搭社區、HuggingFace和GitHub下載模型自行體驗。