聚集全球科技和數(shù)字領(lǐng)域的精英,共同探討云計(jì)算和人工智能的未來發(fā)展趨勢,2023云棲大會(huì)于2023年10月31日至11月2日舉行。喜馬拉雅將在本次大會(huì)上展示其最新的自研語音技術(shù)成果,包括喜馬拉雅珠峰語音生成式大模型和第二代智能語音交互系統(tǒng),為參會(huì)者展示AIGC與文娛音頻產(chǎn)業(yè)深度融合的最新成果。

據(jù)悉,喜馬拉雅珠峰語音生成式大模型是一項(xiàng)創(chuàng)新性技術(shù),具備快速實(shí)現(xiàn)語音音色和風(fēng)格定制的能力。這一技術(shù)支持豐富場景下的音色實(shí)時(shí)轉(zhuǎn)換,為聲音賦予了創(chuàng)造性的”變聲"能力,宛如給聲音涂上不同的“畫皮”。此前,喜馬拉雅珠峰實(shí)驗(yàn)室團(tuán)隊(duì)已通過AIGC方式創(chuàng)作了超過3.7萬部有聲書專輯,而AIGC作品的每日播放時(shí)長已超過250萬小時(shí)。
據(jù)喜馬拉雅首席科學(xué)家、珠峰實(shí)驗(yàn)室負(fù)責(zé)人盧恒介紹,“喜馬拉雅語音生成式大模型目前已經(jīng)取得了顯著的突破,在音色定制方面實(shí)現(xiàn)了5秒內(nèi)的‘極速克隆’聲音。通過極少量的數(shù)據(jù),該模型能夠克隆出具有90%相似度的基本音色,并在短短的10秒內(nèi)快速生成定制音頻。未來,這項(xiàng)技術(shù)在短視頻創(chuàng)作、數(shù)字人配音、人機(jī)交互對話、名人IP復(fù)刻等領(lǐng)域有望發(fā)揮出巨大的潛在價(jià)值,有效解決商業(yè)場景中的溝通需求痛點(diǎn)?!?/p>
喜馬拉雅珠峰實(shí)驗(yàn)室資深產(chǎn)品專家呂睿韜現(xiàn)場介紹到:該語音大模型采用基于語音向量和語義標(biāo)記的新型語音編解碼器,其中語音向量包含用于高保真語音重建的聲學(xué)細(xì)節(jié),而語義標(biāo)記則側(cè)重于語言建模的語音的語言內(nèi)容,最終實(shí)現(xiàn)高效生成最富有語言表現(xiàn)力和最高保真度的語音(對話)內(nèi)容。應(yīng)用場景上,該語音大模型可應(yīng)用于語音內(nèi)容生成、口語對話、語音音色實(shí)時(shí)轉(zhuǎn)換、說話風(fēng)格遷移、語音到語音跨語種翻譯、說話人匿名化等各種任務(wù)。
記者了解到,喜馬拉雅還將在云棲大會(huì)上展示其第二代智能語音交互系統(tǒng),這一系統(tǒng)以阿里云的“通義千問”大模型為基礎(chǔ),以喜馬拉雅兒童形象代言人“波波”為中心,增強(qiáng)了他的自然連貫對話能力,凸顯了“波波”這一IP形象的特征。該智能語音交互系統(tǒng)已通過喜馬拉雅兒童APP和喜馬拉雅提供服務(wù),波波球?yàn)榧彝ビH子用戶提供陪伴對話功能。
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。


- 2023“創(chuàng)客中國”上海市中小企業(yè)創(chuàng)新創(chuàng)業(yè)大賽
- “震撼來襲!全新普拉多越野車,下月首發(fā)!”
- 試駕“方盒子”哈弗猛龍,開啟城市+越野兩棲生活
- 1.9秒破百的千匹猛獸昊鉑SSR,售價(jià)128.
- 白酒消費(fèi)漸趨年輕化,五糧液濃香酒創(chuàng)新玩法圈粉Z
- 沿大運(yùn)河山東城市體育發(fā)展聯(lián)盟飛盤比賽在曲師大完
- 買混動(dòng)家轎?長安啟源A05:選我不后悔
- 中國人壽鄉(xiāng)村振興十年巡禮暨天使工程項(xiàng)目捐贈(zèng)儀式
- 蘭州大學(xué)2024屆生化醫(yī)藥類行業(yè)雙選會(huì)在城關(guān)校
- 近鄰共建齊創(chuàng)文明