打破語音邊界,大模型泛化語音語料資源平臺的創新之路
為了持續優化產品的交互效果,企業通常會開展大量的測試工作。在此過程中,語音語料資源扮演著至關重要的角色。然而,現階段對于大部分企業來說,獲取高質量、高覆蓋度的語音語料資源仍面臨著成本高、質量參差不齊、場景語料泛化能力弱以及資源調用復雜等挑戰。因此,行業亟需一個高效、靈活且可拓展的語音語料資源管理平臺,以支撐智能語音技術發展,甚至推動行業整體技術創新。
面向行業發展迫切需求,國家智能語音創新中心針對性開展了語音語料資源技術攻關。從數據生成、存儲到管理,平臺整合了人工智能通用大模型的多種能力,通過聲音復刻、文本生成泛化、語音合成、語料資源管理等核心技術加持,創新性地構建了一站式、全流程的大模型泛化語音語料資源平臺,實現了高質量、高適應性場景語料資源批量生成,功能強大。
聲音復刻:平臺可以根據上傳的音頻或實時錄制音頻進行聲音復刻,通過少量的音頻文件,即可訓練出個性化發音人,形成個性化發音人模板庫。
文本泛化:平臺接入通用大模型,在語料泛化技術與大模型生成技術的雙重加持下,高效實現所需場景的文本語料的生成與泛化。根據語料邏輯、對話邏輯、使用場景等相關需求,平臺可一次性輸出至少25條聯想泛化結果。
語音合成:平臺支持文本語料與發音個性化組合,可以批量合成語音語料資源,還可以對合成后的音頻文件進行音量、音調、語速等方面進行調節。
語音及語料資源管理:對于用戶生成或上傳的語音語料資源,平臺可進行統一化、標簽化管理,利用集成工具即可實現語料獲取與分配,大幅節省語料獲取時間。
同時,平臺還可以進行用戶管理、數據統計及分析,在幫助企業管理資源、優化業務流程以及提升測試效率等方面具有諸多優勢。
更靈活:實時語料定制,可快速定制生成測試用數據,提升開發速度與靈活性。
更高效:集成化資源管理,簡化資源獲取與分配工作,大幅度節省時間成本。
更準確:通過先進的算法,豐富語料多樣性,提升語料質量,進一步保障測試全面性與準確性。
更便捷:平臺配置API接口,可支持跨系統功能集成,程序間資源調用更簡單。
更兼容:支持跨行業應用,可覆蓋家電、汽車、金融等多行業特定測試需求,覆蓋率更廣,延伸度更高,兼容性更強。
大模型泛化語音語料平臺以其高效生成高質量、高覆蓋度場景語音語料,以及其他綜合功能優勢,將進一步助力提升人工智能產品的語音識別準確度和交互效率,從而幫助企業提升核心競爭力。
當前,大模型泛化語料平臺已在智能家電領域實現落地驗證,為智能家電產品測試與調優提供定制化語音語料解決方案。未來,中心將持續優化平臺性能,接入更多模型與能力,為更多領域、更多產品提供更優質、更全面的語料資源服務,為行業整體技術創新發展增添助益。