Meta AI最近發布了一款名為Voicebox的通用語音生成AI模型,該模型具有突出的性能,并且可以合成六種語言的語音,支持多種語音功能。本文將介紹Voicebox的特點和應用領域,并探討了語音生成技術的潛在濫用風險。
一、Meta 發布語音生成 AI 模型 Voicebox
最近,Meta AI在生成式AI語音模型領域取得了重大突破,發布了一款名為Voicebox的通用語音生成AI模型。這個模型具有突出的性能,并且無需專門訓練即可適應多種語音生成任務。Meta AI的研究人員分享了多個音頻樣本和一篇詳細介紹他們方法和成果的研究論文。
Voicebox類似于圖像和文本生成系統,可以創建多種樣式的輸出。不同之處在于,Voicebox不是生成圖片或文本,而是直接生成高質量的音頻片段。該模型可以合成六種語言的語音,包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語,并且可以執行噪聲去除、內容編輯、風格轉換和多樣化樣本生成等任務。
在Voicebox發布之前,生成式AI語音模型需要經過精心準備的訓練數據,并接受特定任務的訓練。Voicebox采用了一種新方法,可以直接從原始音頻和隨附的轉錄結果中進行學習。與只能根據給定音頻片段續寫結尾的自回歸模型不同,Voicebox可以修改給定樣本中的任意部分。
Voicebox具有出色的性能,可以執行各種任務,包括以下幾個方面:
1.結合上下文的文本到語音合成:
通過使用僅兩秒長的輸入音頻樣本,Voicebox可以匹配樣本的音頻風格,并根據此生成文本到語音的輸出。這個功能將有望為無法說話的人提供語音支持,或者幫助游戲中的NPC和虛擬助手快速生成對話語音。
2.跨語言風格轉換:
給定一段語音樣本和英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本,Voicebox可以生成對應語言的朗讀音頻。這種能力令人興奮,未來可以幫助母語不同的人們以自然真實的方式進行交流。
3.語音降噪與編輯:
Voicebox通過上下文學習具備強大的語音生成能力,可以無縫編輯音頻中的片段。它可以重新合成被噪聲干擾的語音部分,或者替換錯誤的詞,而無需重新錄制整段語音。用戶可以找到語音中被噪聲(如狗叫聲)干擾的原始片段,剪切出來,并指示模型重新生成。將來,這種能力還可以用于音頻的清洗和編輯,使用起來與目前流行的圖像編輯工具一樣簡單便捷。
4.多樣化語音采樣:
通過使用多樣化的真實數據進行訓練,Voicebox可以生成與真實對話高度吻合的六種語言對話音頻。這個功能將來可以用于生成合成數據,以提高語音助手模型的訓練效果。研究結果顯示,基于Voicebox生成的合成語音訓練的語音識別模型在性能上幾乎與使用真實語音的模型相當,錯誤率降低了1%。與以往的文本到語音模型相比,使用合成語音數據進行訓練的錯誤率降低了45%至70%。
Voicebox的發布標志著生成式AI研究在音頻領域邁出了重要的一步。具備任務泛化能力的可擴展生成式AI模型已經在文本、圖像和視頻生成等方面引起了人們對跨任務應用潛力的濃厚興趣。Meta AI希望在音頻領域也能掀起同樣的潮流,并繼續深入挖掘和探索,關注其他研究人員如何在Voicebox的基礎上尋求新的突破。
Voicebox的問世將為語音生成領域帶來更多可能性,為語音技術的發展和應用創造新的機會。隨著AI技術的不斷進步,我們有理由期待語音生成能力的進一步突破和創新,為人們的日常生活和工作帶來更多便利和可能性。
二、Flow Matching 技術背后的 Voicebox
目前,現有的語音合成工具存在一個主要限制,就是只能通過專門任務配備的數據進行訓練。這些數據往往單調而干凈,數量也相對有限且難以獲取,因此導致輸出結果也變得單調。
為了克服這個問題,Meta AI 的研究人員開發了一項名為 Voicebox 的技術,它基于 Flow Matching 技術,是 Meta 在非自回歸生成模型領域的最新突破。Voicebox 能夠準確地捕捉到文本到語音之間高度不確定的映射關系。非確定性映射是非常關鍵的,因為它使得 Voicebox 能夠從各種語音數據中學習,而無需對各種變化要素進行詳細標注。換句話說,Voicebox 能夠在更加多樣化和規模更大的數據上進行訓練。
與目前最先進的英語模型 VALL-E 相比,Voicebox 在可懂度(即單詞錯誤率)和音頻相似度方面表現更強。在單詞錯誤率方面,VALL-E 的錯誤率為 5.9%,而 Voicebox 僅為 1.9%。在音頻相似度方面,VALL-E 的得分為 0.580,而 Voicebox 達到了 0.681。此外,Voicebox 的速度還比 VALL-E 快了 20 倍。在跨語言風格遷移方面,Voicebox 也優于領先的模型 YourTTS。Voicebox 能夠將平均單詞錯誤率從 10.9% 降低至 5.2%,并將音頻相似度從 0.335 提高至 0.481。
為了訓練 Voicebox,研究人員使用了超過 5 萬小時的語音錄音數據,以及來自英語、法語、西班牙語、德語、波蘭語和葡萄牙語的公共有聲讀物轉錄。經過訓練,Voicebox 可以根據給定的前后語音和片段轉錄數據來預測語音片段。它還可以根據上下文自動補全語音,這使得它可以應用于其他語音生成任務,包括在無需重新生成整個輸入的情況下生成音頻的中間部分。
三、關注語音生成的濫用風險
盡管Voicebox擁有許多令人興奮的用例,但Meta AI公司也意識到其存在潛在的濫用風險,因此他們決定暫不公開Voicebox模型或代碼。Meta AI在社交平臺上公開表示:“與其他強大的人工智能創新技術一樣,我們認為這項技術也可能會被濫用,造成意外傷害。”
作為首個能夠成功執行任務的多功能、高效泛化模型,Meta AI堅信Voicebox將開創生成式AI語音模型的新時代。然而,與其他強大的AI創新成果一樣,這項技術同樣可能因誤用而引發意外危害。為了應對語音生成帶來的濫用風險,Meta AI也正在構建一款高效分類器,用于區分由Voicebox生成的音頻和真實語音,以緩解未來可能出現的各種風險。這一舉措顯示了Meta AI對濫用風險的關注和對技術發展的責任心。
四、總結
隨著Meta AI發布Voicebox模型,語音生成領域迎來了新的可能性。Voicebox的出現標志著生成式AI研究在音頻領域的重要進展,為語音技術的發展和應用創造了新的機會。然而,我們也要意識到語音生成技術的濫用風險,Meta AI對此表示關注,并采取了相應的措施來應對。隨著AI技術的不斷進步,我們期待語音生成能力的進一步突破和創新,為人們的生活和工作帶來更多便利和可能性,同時也需要明智地使用和監管這項技術,確保其正面效果的同時減少潛在風險的出現。