當前視訊！谷歌推出大模型 AudioPaLM，可支持文本及語音

2023-06-26 23:41:33 來源：ZAKER科技

近日，谷歌方面宣布推出能夠處理和生成文本及語音的大型語言模型（LLMs）AudioPaLM。據(jù)了解，AudioPaLM 將兩個現(xiàn)有的大模型、即文本大模型 PaLM-2 和語音大模型 AudioLM，融合到一個統(tǒng)一的多模態(tài)架構中，并利用該架構處理和生成文本和語音。

據(jù)谷歌方面透露，AudioPaLM" 繼承 " 了 PaLM-2 模型的語言知識，以及 AudioLM 模型保留副語言信息（例如說話者身份和語調(diào)）的能力，從而能夠更全面地理解和生成文本和音頻，使得其能夠適用于語音識別、語音翻譯、語音轉(zhuǎn)文字的多種應用場景。

據(jù)了解，AudioPaLM 使用了一個聯(lián)合詞匯表，可使用有限數(shù)量的離散標記表示語音和文本。并將這個聯(lián)合詞匯表與標記化的任務描述相結合，此外 AudioPaLM 還可以在各種聲音和基于文本的任務上訓練單個解碼器模型，這也意味著傳統(tǒng)需要單獨模型來處理的語音識別、文本轉(zhuǎn)語音合成和語音到語音翻譯等任務，可統(tǒng)一到一個架構和訓練過程中。

谷歌方面透露，經(jīng)試驗表明，AudioPaLM 在語音翻譯方面的表現(xiàn)明顯優(yōu)于現(xiàn)有模型。同時 AudioPaLM 還展現(xiàn)了對語言組合執(zhí)行零樣本語音到文本翻譯的能力，也就是說這款大模型可以準確地將陌生語言的語音翻譯成文本。

此外，AudioPaLM 還可基于簡短的口語提示在語言之間進行聲音轉(zhuǎn)換，并捕捉和重現(xiàn)不同語言中的獨特聲音，以實現(xiàn)語音轉(zhuǎn)換和適應。

對此谷歌方面表示，" 我們證明，用純文本大語言模型的權重初始化 AudioPaLM 可改善語音處理，也成功地利用了預訓練中使用的大量文本訓練數(shù)據(jù)來幫助語音任務。所得模型在語音翻譯任務方面明顯優(yōu)于現(xiàn)有系統(tǒng)，并且能夠?qū)τ柧氈形窗l(fā)現(xiàn)輸入 / 目標語言組合的許多語言，執(zhí)行零樣本語音到文本的翻譯。AudioPaLM 還演示了音頻語言模型的功能，例如基于簡短的語音提示跨語言傳輸語音。"

【本文圖片來自網(wǎng)絡】

關鍵詞：

[責任編輯：]