欧美日韩电影精品视频_亚洲天堂一区二区三区四区_亚洲欧美日韩国产综合_日韩精品一区二区三区中文_為您提供優質色综合久久88色综合天天

您的位置:首頁 > 消費 >

當前視訊!谷歌推出大模型 AudioPaLM,可支持文本及語音

2023-06-26 23:41:33 來源:ZAKER科技

評論


(資料圖片僅供參考)

近日,谷歌方面宣布推出能夠處理和生成文本及語音的大型語言模型(LLMs)AudioPaLM。據(jù)了解,AudioPaLM 將兩個現(xiàn)有的大模型、即文本大模型 PaLM-2 和語音大模型 AudioLM,融合到一個統(tǒng)一的多模態(tài)架構中,并利用該架構處理和生成文本和語音。

據(jù)谷歌方面透露,AudioPaLM" 繼承 " 了 PaLM-2 模型的語言知識,以及 AudioLM 模型保留副語言信息(例如說話者身份和語調(diào))的能力,從而能夠更全面地理解和生成文本和音頻,使得其能夠適用于語音識別、語音翻譯、語音轉(zhuǎn)文字的多種應用場景。

據(jù)了解,AudioPaLM 使用了一個聯(lián)合詞匯表,可使用有限數(shù)量的離散標記表示語音和文本。并將這個聯(lián)合詞匯表與標記化的任務描述相結合,此外 AudioPaLM 還可以在各種聲音和基于文本的任務上訓練單個解碼器模型,這也意味著傳統(tǒng)需要單獨模型來處理的語音識別、文本轉(zhuǎn)語音合成和語音到語音翻譯等任務,可統(tǒng)一到一個架構和訓練過程中。

谷歌方面透露,經(jīng)試驗表明,AudioPaLM 在語音翻譯方面的表現(xiàn)明顯優(yōu)于現(xiàn)有模型。同時 AudioPaLM 還展現(xiàn)了對語言組合執(zhí)行零樣本語音到文本翻譯的能力,也就是說這款大模型可以準確地將陌生語言的語音翻譯成文本。

此外,AudioPaLM 還可基于簡短的口語提示在語言之間進行聲音轉(zhuǎn)換,并捕捉和重現(xiàn)不同語言中的獨特聲音,以實現(xiàn)語音轉(zhuǎn)換和適應。

對此谷歌方面表示," 我們證明,用純文本大語言模型的權重初始化 AudioPaLM 可改善語音處理,也成功地利用了預訓練中使用的大量文本訓練數(shù)據(jù)來幫助語音任務。所得模型在語音翻譯任務方面明顯優(yōu)于現(xiàn)有系統(tǒng),并且能夠?qū)τ柧氈形窗l(fā)現(xiàn)輸入 / 目標語言組合的許多語言,執(zhí)行零樣本語音到文本的翻譯。AudioPaLM 還演示了音頻語言模型的功能,例如基于簡短的語音提示跨語言傳輸語音。"

【本文圖片來自網(wǎng)絡】

關鍵詞:

[責任編輯:]

相關閱讀