欧美日韩电影精品视频_亚洲天堂一区二区三区四区_亚洲欧美日韩国产综合_日韩精品一区二区三区中文_為您提供優質色综合久久88色综合天天

您的位置:首頁(yè) > 消費(fèi) >

當(dāng)前視訊!谷歌推出大模型 AudioPaLM,可支持文本及語(yǔ)音

2023-06-26 23:41:33 來(lái)源:ZAKER科技

評(píng)論


(資料圖片僅供參考)

近日,谷歌方面宣布推出能夠處理和生成文本及語(yǔ)音的大型語(yǔ)言模型(LLMs)AudioPaLM。據(jù)了解,AudioPaLM 將兩個(gè)現(xiàn)有的大模型、即文本大模型 PaLM-2 和語(yǔ)音大模型 AudioLM,融合到一個(gè)統(tǒng)一的多模態(tài)架構(gòu)中,并利用該架構(gòu)處理和生成文本和語(yǔ)音。

據(jù)谷歌方面透露,AudioPaLM" 繼承 " 了 PaLM-2 模型的語(yǔ)言知識(shí),以及 AudioLM 模型保留副語(yǔ)言信息(例如說話者身份和語(yǔ)調(diào))的能力,從而能夠更全面地理解和生成文本和音頻,使得其能夠適用于語(yǔ)音識(shí)別、語(yǔ)音翻譯、語(yǔ)音轉(zhuǎn)文字的多種應(yīng)用場(chǎng)景。

據(jù)了解,AudioPaLM 使用了一個(gè)聯(lián)合詞匯表,可使用有限數(shù)量的離散標(biāo)記表示語(yǔ)音和文本。并將這個(gè)聯(lián)合詞匯表與標(biāo)記化的任務(wù)描述相結(jié)合,此外 AudioPaLM 還可以在各種聲音和基于文本的任務(wù)上訓(xùn)練單個(gè)解碼器模型,這也意味著傳統(tǒng)需要單獨(dú)模型來(lái)處理的語(yǔ)音識(shí)別、文本轉(zhuǎn)語(yǔ)音合成和語(yǔ)音到語(yǔ)音翻譯等任務(wù),可統(tǒng)一到一個(gè)架構(gòu)和訓(xùn)練過程中。

谷歌方面透露,經(jīng)試驗(yàn)表明,AudioPaLM 在語(yǔ)音翻譯方面的表現(xiàn)明顯優(yōu)于現(xiàn)有模型。同時(shí) AudioPaLM 還展現(xiàn)了對(duì)語(yǔ)言組合執(zhí)行零樣本語(yǔ)音到文本翻譯的能力,也就是說這款大模型可以準(zhǔn)確地將陌生語(yǔ)言的語(yǔ)音翻譯成文本。

此外,AudioPaLM 還可基于簡(jiǎn)短的口語(yǔ)提示在語(yǔ)言之間進(jìn)行聲音轉(zhuǎn)換,并捕捉和重現(xiàn)不同語(yǔ)言中的獨(dú)特聲音,以實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換和適應(yīng)。

對(duì)此谷歌方面表示," 我們證明,用純文本大語(yǔ)言模型的權(quán)重初始化 AudioPaLM 可改善語(yǔ)音處理,也成功地利用了預(yù)訓(xùn)練中使用的大量文本訓(xùn)練數(shù)據(jù)來(lái)幫助語(yǔ)音任務(wù)。所得模型在語(yǔ)音翻譯任務(wù)方面明顯優(yōu)于現(xiàn)有系統(tǒng),并且能夠?qū)τ?xùn)練中未發(fā)現(xiàn)輸入 / 目標(biāo)語(yǔ)言組合的許多語(yǔ)言,執(zhí)行零樣本語(yǔ)音到文本的翻譯。AudioPaLM 還演示了音頻語(yǔ)言模型的功能,例如基于簡(jiǎn)短的語(yǔ)音提示跨語(yǔ)言傳輸語(yǔ)音。"

【本文圖片來(lái)自網(wǎng)絡(luò)】

關(guān)鍵詞:

[責(zé)任編輯:]

相關(guān)閱讀