亞馬遜的Alexa、Google助手和其他人工智能助手的聲音遠遠居于老式的GPS設備前列,但它們仍然缺乏節奏、音調和聽上去讓人感覺真實的品質,NVIDIA公司在Interspeech 2021會議上宣布,該公司已經公布了新的技術和工具,可以通過讓你用自己的聲音訓練AI系統來捕捉這些自然的語音品質。
為了改進其人工智能語音合成,NVIDIA的文本-語音研究團隊開發了一個名為RAD-TTS的模型,這是NAB廣播大會上開發逼真化身的比賽的獲勝作品。該系統允許個人用自己的聲音訓練文字轉語音模型,包括節奏、音調、音色等等。
RAD-TTS的另一個特點是語音轉換,它可以讓用戶用另一個人的聲音來傳遞一個說話者的話語。該界面可以對合成的聲音的音調、持續時間和能量進行精細的、幀級的控制。
利用這項技術,NVIDIA的研究人員為自己的《我是人工智能》系列視頻創造了更多聽起來像對話的語音解說,使用的是合成的聲音而不是人的聲音。其目的是讓解說詞與視頻的語氣和風格相匹配,這是迄今為止許多人工智能解說視頻中沒有做到的。結果仍然有點像機器人,但比我聽過的任何人工智能解說都好。
"有了這個界面,我們的視頻制作人可以錄下自己閱讀視頻腳本的過程,然后用人工智能模型將他的語音轉換為女解說員的聲音。"NVIDIA公司寫道:"利用這一基線旁白,制作人可以像配音演員一樣指揮人工智能--調整合成的語音以強調特定的詞語,并修改旁白的節奏以更好地表達視頻的基調。"
NVIDIA公司正在分發這項研究的一部分--當然是為了在NVIDIAGPU上有效運行而進行的優化--通過用于GPU加速的對話式人工智能的NVIDIA NeMo Python工具包(可在該公司的容器和其他軟件的NGC中心獲得),向任何想要嘗試的人開放源代碼。其中幾個模型是在NVIDIA DGX系統上用數萬小時的音頻數據訓練出來的。開發人員可以針對他們的使用情況對任何模型進行微調,利用NVIDIA Tensor Core GPU上的混合精度計算加快訓練速度。
(原標題:NVIDIA的最新技術使人工智能的聲音更具表現力和真實感)
版權與免責聲明:
凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。
本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。
鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:1271141964@qq.com。