近日,中科院和阿里安全的研究者讓AI掌握通過聲音找到“主人”的任務。經驗證,相較于人類67%的正確率,AI的準確率接近90%。在“1對N”的匹配實驗中,AI還能對聲音歸屬人臉的“可能性”進行排序。
該技術是一種自適應的學習框架,用來挖掘和學習人臉與聲音的潛在聯系,該論文研究成果隨即也被CVPR 2021接收。
現有研究表明,人臉和聲音受到年齡、性別、生理結構、語言習慣等共同因素的影響,兩者的聯系強烈而復雜多樣。該研究第一作者、中科院計算所博士研究生溫佩松介紹,中科院和阿里安全的研究團隊將公開數據集中兩種類型的數據在共享空間中表示,從而達到跨模態匹配的目的,在學習策略上利用了數據集的局部和全局信息,提高了模型的學習效率和效果。
通俗來看,即聲音可能是音頻格式,人臉是圖片格式,兩類信息以不同的格式存儲,難以比較,所以研究者將聲音和人臉“翻譯”成了同一種格式的信息,讓AI模型可以對兩種信息之間的關聯自行學習。AI學會了兩種信息的關聯性之后,就能幫聲音找到人臉,或者幫人臉找到聲音。因此,AI的這項技能不僅可以“聽音識人”,還能“見人知聲”。
溫佩松介紹,該研究進行了三類實驗,第一種,給定一段聲音和僅含有一張正確人臉的若干張人臉圖片,AI匹配聲音和人臉的正確率最高可達87.2%;第二種,給定一段聲音和一張人臉,詢問AI這是否屬于同一個人,準確率最高可達87.2%;第三種,給定一段聲音和含有若干張正確人臉的圖片,要求AI把所有人臉排序,使得正確的人臉盡可能靠前,AI也能準確完成任務。該實驗在公開測試集上一共測試了20076張人臉和21850段音頻,AI的表現都令人驚喜。
在相同的任務上,如果待鑒別對象不限制性別,人類判斷的準確率達81.3%,在限制性別的情況下,準確率僅為57.1%,性別因素對AI的影響卻非常小,準確率依然如上述結果,高于人類。
據阿里安全圖靈實驗室資深算法專家華棠介紹,該技術后續將在內容安全和賬戶安全領域探索應用,對抗偽造類視頻攻擊,保護用戶財產和信息安全。“有些人利用偽造視頻試圖騙過認證系統,AI的這項技能將進一步驗證聲音與相應真人是否匹配,防范欺詐,守護安全。”華棠說,這也是讓AI在提升安全水位上有更多用武之地。
(原標題:阿里聯手中科院研發“聽音識人”技術被CVPR收錄)
版權與免責聲明:
凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。
本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。
鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:1271141964@qq.com。