進軍智能語音賽道 漢王科技發布首款智能語音應用“漢王語音王”
8月8日,漢王科技2024新品發布會圓滿舉行,首款智能語音應用——漢王語音王App正式發布,致力于讓所有人都可以無障礙地進行語言記錄、交流溝通,構建智能時代“通天塔”,讓世界文明共享、共謀新發展。
漢王科技在人工智能技術上堅持原始創新三十余載,在感知智能、認知智能以及具身智能領域持續深耕和廣域布局,進一步完善從“看懂”、“聽懂”、到“讀懂”,再到“表達”的人工智能和機器人核心技術體系。漢王語音王正是在此技術體系下孕育而生,依托多模態天地大模型、OCR等全棧AI技術賦能,將在蓬勃發展的智能語音賽道上開辟出屬于自己的天地。
漢王語音王是基于漢王自研多模態天地大模型,自主研發的一款集AI語音記錄、智能翻譯與同聲傳譯于一體的智能語音旗艦應用,支持AI精準轉寫、拍錄同步(自動裁邊)、話稿整理、智能總結及不間斷實時翻譯等功能,用戶可以即聽即用,幫助跨越語言障礙,提高日常辦公、學習、會議、旅游等場景應用效率和便捷性。
AI語音記錄:精準識別拍錄同步
AI語音記錄支持實時語音轉錄和語音文件轉錄兩種方式,具備錄音速記、拍錄同步(自動裁邊) 、語音轉文字、說話人精準識別、智能總結、AI話稿整理等多種智能功能,滿足用戶不同場景的語音記錄應用需求。
漢王科技自研高精度語音識別模型,基于多元化數據訓練、多任務聯合學習等方式提升語音準確識別的性能,并通過多項模型優化技術對性能進一步完善和提升,確保在多種復雜的聲學場景下都能得到語音識別的高準確性,隨時隨地滿足用戶對語音記錄準確性的要求。
實際測試時,漢王科技語音識別具備高準確率、多語言支持、動態修正和自然交流等特點。在行業廣泛使用的開源中文語音識別數據集上測試,錯誤率低至1.94%,處于行業領先水平。
漢王語音王可以自動修正錯誤文本,內容規整后無須二次編輯,也支持自動生成標題、總結記錄要點等,省心省力,同時更提升工作效率和學習效果。
值得一提的是拍錄同步功能,在錄音轉寫的同時拍照,通過強大的原研OCR技術,在錄音類產品中首創照片自動裁邊和內容智能排版功能,為用戶直接提供一份聲、圖、文并茂的多媒體記錄文檔,重要信息一點不落。
在會議、頭腦風暴等多人對話場景中,準確分離出每個人的身份以及內容具有非常大的挑戰,聲紋識別成為關鍵。聲紋和掌紋等類似都是人類生物特征,漢王科技聲紋識別技術具備在不限定用戶說話內容的情況下,最短2秒準確識別說話人的能力。
為解決場景中的各種環境噪聲和回響,以及說話人語速和情感變化等復雜情況下的識別準確性問題,漢王科技隨機對語音數據進行了速度變化,添加環境噪聲、回響等模擬復雜場景,通過持續訓練迭代,最終在復雜場景下得到穩定的準確識別率。同時,漢王科技也引入聚類算法等實現了結合聲紋和語義特征,進一步提高識別的準確性,杜絕“張冠李戴”的情況出現。
當整理好會議紀要、演講內容等后,漢王語音王能與電紙本一鍵分享,將語音文本一體化傳輸到電紙本上進行高效閱讀辦公操作,構建成一個多端互聯、共享的應用生態。
對話翻譯:自然準確林籟泉韻
對話翻譯具備實時翻譯和語音合成兩大能力,可以精準捕捉每一句對話,即時翻譯,讓大家可以跨越語言界限,適合辦公、教育和旅游等場景下無障礙交流溝通。
基于漢王自研天地大模型的對話翻譯,具備更好的語義理解和上下文聯系能力,以及自適應語言風格和行業領域,提供更準確和自然的翻譯內容,表達更清楚、交流更順暢。
漢王科技自研的語音合成系統不僅具有卓越的多音字準確識別能力,還能處理各種復雜多變的語音現象,能輕松應對日常溝通交流、教育輔助朗讀和客戶服務等應用場景。
為了進一步提升語音自然度、準確性和合成效率,漢王科技自研高自然度聲學模型,并引入了恒Q變換等多項先進技術,讓合成語音能更加高效和精準地還原人類語音特性,帶來林籟泉韻的聽覺體驗。
同聲傳譯:長時間不間斷實時同傳
在AI語音記錄和對話翻譯的能力基礎上,漢王語音王又更進一步拓展,推出了同聲傳譯功能。這對語音識別的實時準確度、轉寫、糾正和翻譯能力都提出了更高的要求。
漢王語音王具備長時段不間斷即時翻譯能力,實時雙語對照文字記錄更能準確表達專業術語和詞句表達,加上領先的配錄同步功能,跨越語言的障礙,讓聲音也能看得見,幫助用戶輕松解決超長時間國際會議、學術研討的內容記錄難題,為辦公、學習等全面提質增效。
通用人工智能浪潮興起,對人工智能技術和產品產生了巨大推動,更是成為行業智能應用的革命性工具,為各行各業開啟“人工智能+”變革之門。
漢王科技此刻恰逢其會,發布智能語音應用——漢王語音王,一方面源于自研天地大模型的多模態智能涌現,另一方面智能語音市場將進入一個新的爆發增長期。在技術和商業雙輪驅動下,漢王語音王必將在智能語音市場上頂天立地,開辟出一片屬于自己的嶄新未來。