準確性大幅提升語音識別或成下一個風口

2017-10-14 09:27:14來源：騰訊創投編輯：一不做關鍵詞：語音識別語音交互人機交互閱讀量：27436

導讀：近幾年來，我們取得了巨大的技術進步。語音識別引擎的準確性已經提高了很多，現在達到了95%的準確度，略高于人類的成功識別率率。

　　【中國智能制造網市場分析】語音識別引擎的準確性已經提高了很多，現在達到了95%的準確度，略高于人類的成功識別率率。隨著這項技術的改進，語音優先的基礎設施變得越來越重要，導致亞馬遜，蘋果，谷歌，微軟和百度都迅速進行布局，發布軟件構建模塊和平臺。

　　近幾年來，我們取得了巨大的技術進步。語音識別引擎的準確性已經提高了很多，現在達到了95%的準確度，略高于人類的成功識別率率。隨著這項技術的改進，語音優先的基礎設施變得越來越重要，導致亞馬遜，蘋果，谷歌，微軟和百度都迅速進行布局，發布軟件構建模塊和平臺。語音似乎要興起了。

　　在本文中，作者總結了：我們目前掌握語音識別技術的現狀，以及基礎設施如何圍繞語音發展起來，以了解過去幾十年來這一領域發生了什么。

　　語音是自然的溝通方式，但語音并不是機器交互的主要界面。自從愛迪生發明留聲機之后，人們一直在和機器交談，但是主要為了與他人進行通信，而不是與機器本身進行通信。到了20世紀80年代，語音識別技術將口語轉化為文本的識別率開始足夠準確。2001年，計算機語音識別達到了80%的準確度。我們可以從口頭對話中提取意義，并做出回應。然而，在大多數情況下，語音技術仍然不足以提供比鍵盤等界面更好的體驗。

　　語音識別歷史

　　語音識別不是新鮮事，起源于上世紀五十年代，但多年來一直存在多種理解語音的方式。

　　個語音識別系統是基于簡單的模式匹配。這些早期系統的一個很好的例子是公用事業公司使用自動化系統讓客戶不用看儀表讀數。在這種情況下，客戶端對系統的回答是一個有限的選項列表中的一個字或數字，計算機只需要區分有限數量的不同聲音模式。它通過將每個聲音塊與其存儲器中的類似存儲模式進行比較來實現。

　　在1952年，貝爾實驗室的一個團隊設計了能夠理解口頭數字的機器Audrey。

　　1970年代

　　技術進步導致了基于模式和特征分析的語音識別系統的發展，其中每個單詞被分解成小部分并且從關鍵特征(例如它包含的元音)中被識別。這種方法涉及聲音的數字化和將數字數據轉換成頻譜圖，將其分解成聲音幀，分離單詞并識別每一個關鍵特征。為了識別可能已經說過的內容，計算機必須將每個單詞的關鍵特征與已知功能的列表進行比較。系統越來越好，因為它集成了來自用戶的反饋。這種方法比以前的方法要得多，因為口語的基本組件聲音數量相當有限。

　　從1971年到1976年，DARPA資助了五年的語音識別研究，目標是終能夠理解至少1000字的機器。該計劃導致卡耐基-梅隆大學大學創造了一個能夠理解1011個單詞的機器。

　　1980年代

　　但是此前的技術仍然不是非常的，因為言語中存在的巨大的復雜性：不同的人可以用不同的方式說出同一個詞，有許多相似的詞(例如two和too)等等。語音識別系統開始使用統計學方法。在此期間推出的關鍵技術是馬爾可夫模型(HMM)，用于建立聲學模型和隨機語言模型。

　　聲學模型代表音頻信號和語言中的語音單元之間的關系，以重建實際發出的內容(特征→音位)。語言模型基于后一個單詞預測下一個單詞(單詞→句子)，例如。“God save the“之后可能出現的單詞是Queen(天佑女王)，另外，還有一個語音字典/詞典提供關于單詞及其發音的數據，并且連接聲學模型和語言模型(音素→單詞)。終，語言模型分數與當前單詞的聲學分數相結合，以確定單詞序列的排序。

　　玩具娃娃Julie Doll在1989年將家庭語音識別技術帶到家庭中。可以幫助兒童訓練語音、說話。

　　一直到20世紀90年代，語音識別系統的速度都太慢，無法開發有用的應用程序，但是當時出現的更快的微處理器可以進行重大改進，而個語音識別商業應用開始出現。

　　Dragon公司在1990年推出Dragon Dictate，是個消費級語音識別產品。在1997年，你可以在一分鐘內說100個字。

　　2000年代

　　計算機語音識別在2001年達到了80%的準確度，但沒有多少進展。

　　2010年代

　　在過去十年中，機器學習算法和計算機性能的進步已經導致了更有效的深層神經網絡(DNN)訓練方法。

　　因此，語音識別系統開始使用DNN，更具體地說，是DNN的特殊變體，即循環神經網絡(RNN)。基于RNN的模型顯示出比傳統模型更好的精度和性能。事實上，2016年的語音識別準確度達到了90%，Google聲稱在2017年6月達到95%的準確率。

　　這是非常驚人的，要知道研究人員估計人類轉錄精度略低于95%。然而，這些公布的結果應該仔細考慮，因為它們通常在的條件下測量，例如，沒有背景噪音和英語母語的錄音。在“非無菌條件下”的準確度可能快速下降到75-80%。

　　當你需要標記數據來訓練算法時，現在面臨的挑戰是獲取現實生活中數千小時的口語音頻，以提供給神經網絡并提高語音識別系統的準確性。這就是Google，亞馬遜，蘋果和微軟正在通過將Google Now，Siri和Cortana在手機免費提供服務，以便宜的價格銷售Alexa智能音響的原因。一切都是為了獲取訓練數據！

　　語音基礎設施的開發

　　語音基礎設施開發可以分為3個必需的層次：新的應用程序出現：(1)硬件允許更多的人使用語音作為接口(2)軟件構建塊，使開發人員能夠構建相關的語音優先的應用程序(3)生態系統，以實現有效的分配和商業化。

　　語音分析公司Voicelabs將語音優先設備定義為始終在線的智能硬件，而其中主界面是語音，包括輸入和輸出。市場上語音優先的硬件是2014年底發布的智能音箱Amazon Echo。根據2017年VoiceLabs的報告，2015年發布的語音優先設備達170萬臺，2016 年將達到650萬臺，2017年將有2450萬臺設備發貨，市場總流通設備數達到3300萬臺。

　　市場上的主要智能音響是Amazon Echo(2014年11月)和Google Home(2016年11月)。然而，新玩家正在迅速進入市場：索尼推出了內置Google助手(2017年9月)的LF-S50G，蘋果即將推出Homepod(2017年12月)，三星也近宣布“即將發布”，Facebook可能會發布帶觸摸屏的智能揚聲器。Google助手還將來到一些新的智能音響，其中包括Anker的Zolo Mojo，Mobvoi的TicHome Mini和松下的GA10。

　　無疑，語音優先的硬件層正在快速發展，預計會有所增長！

　　語音優先應用程序的軟件構建門檻降低

　　從頭開始構建語音應用程序不是一件容易的事情。Nuance和其他大型公司已經向第三方開發人員提供語音識別API，但是使用這些API的成本歷來相當高昂，并沒有獲得很好的結果。

　　隨著語音識別技術開始取得更好的成果，語音優先應用的潛力越來越大，像Google，亞馬遜，IBM，微軟和蘋果以及Speechmatics這樣的大型公司開始在較低級別提供各種低價的API產品。

　　一些常用的包括2016年7月發布的Google Speech API，和2016年11月發布的亞馬遜Lex和Amazon Polly。

　　現在，大量開發人員可以以合理的成本構建語音優先的應用程序。

　　語音優先生態系統的出現

　　隨著越來越多的語音優先應用和硬件帶來越來越多的語音交互界面，平臺不僅需要解決了分發和商業化，分析和營銷自動化等第三方服務也越來越重要。

　　(原標題：為什么說語音可能是下一個Big thing？本文原作者Savina van der Straten，Point Nine Capital 的投資人，由騰股創投編譯整理。)

上一篇：新一輪投資潮悄然而至 VR市場有望復蘇

下一篇：公有云備受資本青睞 IaaS市場進入增長期

我要評論

昵稱

匿名

文明上網，理性發言。（您還可以輸入200個字符)

表情

所有評論僅代表網友意見，與本站立場無關。

中國機電一體化技術應用協會批準發布《人形機器人語音交互技術規范》等五項團體標準的公告
中國機電一體化技術應用協會批準發布《人形機器人語音交互技術規范》等五項團體標準的公告。
人形機器人語音交互
2025-01-22 16:36:04
國家重點研發計劃“機器人人機交互安全與試驗驗證”項目啟動
“機器人人機交互安全與試驗驗證”項目將針對協作機器人和外骨骼機器人人機交互安全測評缺失問題，重點突破人機交互安全測評關鍵技術，研制測評系統，構建測評體系。
機器人人機交互
2024-03-24 09:09:05
長城多款車型已完成華為HiCar 4.0適配工作
長城汽車總裁穆峰在社交平臺上透露，長城汽車與華為智行的合作已經取得了階段性的成果，HUAWEI HiCar4.0將在更多的車型上進化升級。
人機交互
2024-03-18 10:15:59
用AI重構PC，榮耀筆記本AI PC技術正式發布
榮耀公布了其領先的AI PC技術架構，榮耀筆記本將會把AI技術與用戶體驗全面融合，用AI使能智能硬件、人機交互和多端生態，開啟AI PC新時代。
AI PC技術AI使能智能硬件人機交互
2024-03-14 09:02:15
中國國際科技促進會關于《三通管液壓成形技術規范》等七項團體標準發布的公告
《城市軌道交通智能客服設備技術要求》、《多模態人機交互技術要求》、《城市軌道交通智能客服設備技術要求》等七項團體標準已經發布，現予以公告，即日起實施。
三通管測力天平人機交互
2023-12-20 14:38:47
長安馬自達與中科創達軟件達成戰略合作，邁向智能化
長安馬自達與中科創達軟件雙方將在HMI人機交互、UI設計、車內應用app等多方面進行深度合作，打造更加符合中國市場的智能座艙產品，助力車企新合資時代的汽車研發轉型。
軟件人機交互
2023-11-07 14:18:17

版權與免責聲明：

凡本站注明“來源：智能制造網”的所有作品，均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品，未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明“來源：智能制造網”。違反上述聲明者，本站將追究其相關法律責任。

本站轉載并注明自其它來源（非智能制造網）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點或和對其真實性負責，不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時，必須保留本站注明的作品第一來源，并自負版權等法律責任。如擅自篡改為“稿件來源：智能制造網”，本站將依法追究責任。

鑒于本站稿件來源廣泛、數量較多，如涉及作品內容、版權等問題，請與本站聯系并提供相關證明材料：聯系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯過行業資訊？

訂閱 智能制造網APP

一鍵篩選來訂閱

信息更豐富

今日焦點/FOCUS 更多

熱門話題/TOPICS更多

人形機器人奏響“狂歡曲”

高難度！深圳眾擎實現全球首例人形機器人前空翻

宇樹科技王興興：預計年底H1機器人跑速達10米/秒超博爾特

智能體產業正加速崛起

智能體步入實體交互時代，具身智能產業落地進入加速期

智能體全面進化！埃斯頓酷卓發布新一代人形機器人Codroid 02

精彩直播/VIDEO更多

回放

【與智造同行】走進華為AI＋制造行業峰會2025——如何讓智能制造走深走實？華為給你答案！

: 數字孿生賦能新型工業化分論壇

: 數字孿生賦能低空經濟分論壇

推薦產品/PRODUCT 更多

TOGNELLA閥 FT-291-14
TOGNELLA,控制閥,FT-291-14
品牌
其他品牌
紹興廠房通風降溫設備
廠房通風降溫設備,廠房降溫設備,夏季廠房降溫,廠房降溫空調,車間通風降溫系統
品牌
爽風
電腦GPS授時國產化
電腦gps授時,電腦gps對時,gps授時設備,gps授時裝置,gps授時產品
品牌
銳呈
ASCO阿斯卡角座閥E290A393VI\2位2通-黃銅
電磁閥,工業自動化設備,2位2通通斷,黃銅/不銹鋼,常開常閉低能耗
品牌
ASCO
希而科快速報價Wandres品牌9106255過濾器
過濾器,過濾裝置,工控產品,金屬,希而科
品牌
其他品牌
Transfluid液力耦合器15KRG
Transfluid,意大利Transfluid,Transfluid偶合器,15KRG,液力偶合器
品牌
Transfluid

大地资源网视频在线观看新浪,日本春药精油按摩系列,成人av骚妻潮喷,国产xxxx搡xxxxx搡麻豆

準確性大幅提升語音識別或成下一個風口

熱門評論

全部評論

大地资源网视频在线观看新浪,日本春药精油按摩系列,成人av骚妻潮喷,国产xxxx搡xxxxx搡麻豆

準確性大幅提升 語音識別或成下一個風口

熱門評論

全部評論

準確性大幅提升語音識別或成下一個風口