智能語音是智能時代人機交互的關鍵接口,近幾年隨著各行業場景需求爆發式增長,技術突破和應用落地不斷深入。從全球范圍來看,2022年全球智能語音產業規模將達351.2億美元,保持33.1%的高速增長。
根據德勤統計數據,2022年我國智能語音市場將達341億元,同比增長13.4%。我國智能語音產業整體發展環境積極向好。工信部信息技術發展司副司長王威偉表示,智能語音產業作為新一代信息技術和人工智能產業的重要組成部分,必將迎來更大的發展機遇。
智能語音技術,是實現人機語言的通信,包括語音識別技術(ASR)和語音合成技術(TTS)。智能語音技術的研究以語音識別技術為開端,可以追溯到20世紀50年代。隨著信息技術的發展,智能語音技術已經成為人們信息獲取和溝通最便捷、最有效的手段。
從當前的發展情況來看,語音合成技術發展最早,應用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術問題;語音識別在2012年卷積神經網絡(CNN)應用之后,準確率大幅提升,已經在C端、B端得到廣泛應用,但效果和體驗仍有待提高。
比如語音識別魯棒性問題顯著,語音識別整個過程包含語音信號處理、靜音切除、聲學特征提取、模式匹配等多個環節。由于語音信號的多樣性和復雜性,系統只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音等問題,準確率就會打折。
為了解決語音識別魯棒性問題,企業從多方面進行優化,一是在語音增強、麥克風陣列以及說話人分離等技術領域投入,并結合后端語義,促進對上下文的理解,從而提升識別效果;另一方面是從產品設計上進行優化,比如通過進一步交互,使語音識別變得更為準確。
在語音識別方面,視聽融合的多模態交互技術是技術演進的主要方向。據介紹,科大訊飛多模語音增強技術融合語音與視覺的多模感知,讓高噪音場景下的語音交互跨過實用門檻,率先在車載、會議、地鐵購票和醫療掛號等場景落地。此外,針對低資源語音識別難題,海天瑞聲和科大訊飛分別從語音數據和算法層面推動技術進步。
當前智能語音應用場景正在迅速鋪開。據德勤統計數據,預計到2030年,智能語音消費級和企業級應用市場將分別超過700億元和千億元的規模。
在汽車領域,智能語音已成人機交互關鍵環節,并從車內交互衍生車外交互,從單模交互走向多模交互,從被動交互發展為主動交互,為車企提供全棧技術賦能。思必馳此前表示,在中高端車型的車載設備中,具備語音交互能力的中控大屏能為車主帶來高清且流暢的智能體驗。
另外相對更平民化的傳統車型而言,智能網聯化成本高,中控大屏的智能化程度有限。針對更多車型智能化改造,思必馳推出了針對前裝市場的車載“智能收放機”軟硬一體化方案(聯網版、藍牙版),打造無屏版智能中控,圍繞“云+管+端+手”四個維度,分別為整車賦予智能化的改造,這將有利于擴大智能語音在汽車領域的應用。
智能語音在教育和醫療領域也已經取得較大規模的應用,比如,在教育領域,科大訊飛全球中文學習平臺已覆蓋全球183個國家,吸引300多萬海外中文學習愛好者使用;在醫療領域,2022年疫情期間,科大訊飛電話機器人助力全國31個省112個地市疫情排查,累計服務超1.1億人次;智能外呼和智醫助理可用于獨居老人、留守兒童的日常關愛和兜底保障。
除此之外,智能語音在城市和工業領域也有很好的應用前景。姚建銓院士此前指出,智能語音與建設智慧城市的要求吻合,可以實現各種語音高效轉換和智能處理,為智慧城市進一步建設帶來新的機遇。在工業領域,我國打造了包括國家智能語音創新中心在內的一批語音技術創新國家隊, 開展工業聲學、多語種、AI語音芯片等關鍵共性技術研究工作。
可想而知,隨著智能語音關鍵技術的不斷突破,以及各企業、研究團隊在各行業各領域的應用探索,未來智能語音的將會在更多場景中實現規;瘧,市場規模也將隨之增長。