(資料圖片僅供參考)
近日,SpeechIO TIOBE評測(簡稱“評測”)第三季度結果公布,喜馬拉雅自動語音識別技術(簡稱“ASR”)在本次評測中榮獲第一名。喜馬拉雅這一技術已在喜馬拉雅App的“AI文稿功能”中廣泛應用,為讀者帶來邊聽邊看、聽看一體的內容消費體驗。
SpeechIO TIOBE評測是國內較為權威的行業公開評測項目,旨在客觀評估并記錄各個公共語音識別服務在不同領域的識別準確率,以字準確率為測試指標。該評測每個季度進行一次,喜馬拉雅ASR技術在今年第三季度的評測中脫穎而出,以2.16%的超低錯誤率榮獲冠軍。參與此次評測的其他公司還包括依圖、騰訊、Bilibili、阿里、微軟、訊飛、百度等。
喜馬拉雅ASR技術是喜馬拉雅智能語音實驗室所研發的一項重要語音技術,該技術可以對喜馬拉雅平臺中無文稿的聲音內容進行語音轉寫,并輸出相應的文字,從而便于聽眾更好地理解聲音內容。隨著語音識別功能使用率的提高,細節上的極致優化成為技術產品制勝的關鍵。喜馬拉雅在研發時,基于WeNet開發了自研的“端到端”語音識別框架,并在數據讀取、模型結構、訓練方式、熱詞增強、部署流程等全鏈路進行了深度優化,不斷嘗試新的論文方案,融合吸收到自研框架當中,從而有效降低了錯誤率,達到行業領先水平。
喜馬拉雅ASR技術現在已經廣泛應用到了喜馬拉雅App的AI文稿功能上,能有效識別無文稿聲音內容,為無文稿聲音內容生成文稿。同時,對于已經有原始文稿的聲音內容,喜馬拉雅AI文稿功能則應用超長音頻與文本的對齊技術,將聲音與文稿進行時間戳對軌,在聲音播放的同時,對相應文字進行同步高亮,讓用戶能更便捷地享受邊聽邊看的內容消費體驗。
近期,喜馬拉雅即將上線全新版本的AI文稿功能,全面提升用戶體驗,大家敬請期待。
喜馬拉雅已在AI語音技術領域潛心鉆研多年,并在內部專門成立了喜馬拉雅智能語音實驗室這一核心部門,長期專注于語音合成、語音識別、語音信號處理、編解碼以及智能音效的研究和開發。除了ASR技術,喜馬拉雅的TTS(語音合成)技術也處于行業前列,并已經廣泛被運用于評書、新聞、小說等多種內容的制作中,正助力喜馬拉雅在現有的“UGC+ PGC+ PUGC”內容生態之外,進一步拓展AIGC的可能性。同時,今年喜馬拉雅自研的跨語言語音合成創新技術論文,以及和中國科學技術大學合作的說話人日志技術相關論文,先后兩次被國際音頻頂級會議ICASSP(International Conference on Acoustics, Speech, and Signal Processing,國際音頻、語音與信號處理會議)錄用,展現了喜馬拉雅在語音技術領域強大的實力。
未來,喜馬拉雅將繼續用科技賦能文化,提升內容消費體驗,豐富內容生態,用技術加持聲音、用聲音服務生活。