首页 — 企业动态 — 新闻中心 — 文章详情

十方融海创新突破 AI 语音核心技术 复杂场景识别成果助力百万设备智能升级

发布时间:2026-03-31 作者:十方融海 浏览量: 7467

在数字经济与人工智能深度融合的背景下,AI 语音交互已成为智能终端的标配功能,市场规模持续扩大,用户需求不断升级。深圳十方融海科技有限公司紧跟行业发展趋势,坚持自主创新与产学研结合双轮驱动,近日成功完成复杂场景说话人智能识别技术研发项目验收,实现多项核心技术突破。该技术已全面接入十方融海小智 AI 生态,助力超 120 万台智能设备实现交互能力升级,以技术创新推动 AI 语音行业高质量发展,为千万用户带来更精准、更智能的交互体验。

本次产学研项目是十方融海聚焦 AI 语音交互核心技术攻关的重要布局,由子公司新智未来与广东工业大学联合实施。项目瞄准复杂家庭场景说话人识别这一行业共性难题,历经多轮研发与测试,最终全部技术指标达标,核心精度指标超额完成。此次突破不仅提升了十方融海在 AI 语音领域的技术竞争力,更为整个行业解决落地难题提供了全新方案,推动语音识别技术从实验室走向规模化应用。

当前,智能家居行业进入快速普及期,语音控制成为主流交互方式,但真实使用场景中的诸多问题制约行业发展。传统说话人识别技术在噪音环境、小样本录入、相似语音区分、未知用户干扰等方面存在明显短板,导致智能设备经常出现识别错误、响应迟钝、隐私风险等问题,用户体验不佳。如何在复杂场景下实现精准、快速、安全的说话人识别,成为 AI 语音企业必须攻克的核心关卡。

十方融海以用户需求为核心,以技术创新为抓手,联合高校资源开展专项攻关。研发团队深入分析家庭场景特征,针对噪音干扰、小样本学习、声学特征相似、开放集拒识四大痛点,从算法模型、推理流程、硬件适配等方面进行全方位优化。经过不懈努力,项目取得显著成效:5 人注册场景下等错误率降低近 8%,远超预期 5% 目标;42 毫秒端到端推理时间,保障实时流畅交互;3-5 条语音即可完成用户注册,降低使用门槛;93.86% 的未知用户拒识准确率,提升使用安全性。这些数据充分证明,十方融海已掌握复杂场景说话人识别的核心技术,达到行业领先水平。

技术创新的背后,是三大核心算法的协同突破。团队研发的融合熵置信度正则化动态可学习嵌入表示矩阵,有效解决极少样本下模型识别不准的问题;引入 AM-Softmax 损失函数,强化用户语音特征区分度,让相似语音也能精准识别;优化高采样率音频推理流程,适配 L20 高性能显卡,实现精度与速度双优。三大创新技术形成合力,让十方融海在复杂场景语音识别领域建立起独特优势。

技术落地是检验创新价值的核心标准。目前,该先进技术已成功集成至十方融海小智 AI 系统,应用于 “小智 - ESP32” 系列产品后端服务。小智 AI 作为新智未来自主研发的开源 AI 语音交互系统,自上线以来便备受行业关注,迅速登顶 GitHub Trending 榜首,吸引超 10 万名开发者参与生态建设,成为国内最具活力的 AI 语音开源项目之一。截至目前,小智 AI 接入设备量突破 120 万台,日均处理对话量 900 万条,覆盖智能家居、智能教育、智能硬件等多个领域。2025 年 12 月,小智 AI 凭借突出的开源贡献与技术实力,成功入选深圳市人工智能先锋城市项目扶持计划,获得官方专项奖励,成为深圳 AI 产业的优秀代表。

随着复杂场景说话人识别技术的接入,小智 AI 实现功能升级。系统能够精准识别不同家庭成员的声音,根据用户身份自动适配交互模式,为儿童提供趣味互动、知识问答,为成人提供生活服务、信息查询,为老人提供简洁操作、贴心提醒,真正实现 “千人千面” 的个性化智能交互。这一升级不仅提升了用户使用体验,更推动智能设备从 “被动响应” 向 “主动服务” 转变,拓展了 AI 语音交互的应用边界与商业价值。

此次技术突破,是十方融海长期坚持研发创新的必然成果。企业始终重视技术研发投入,构建起完善的产学研创新体系,将高校科研优势与企业产业优势深度结合,加速技术成果转化。同时,企业坚守 “技术服务用户” 的理念,所有技术研发均围绕真实场景需求展开,确保每一项创新都能转化为用户可感知的优质产品。

未来,十方融海将继续以创新为核心动力,持续深耕 AI 语音交互领域,不断优化复杂场景说话人识别技术,推动技术在更多场景落地应用。同时,企业将持续壮大小智 AI 生态,吸引更多开发者参与共建,完善产品矩阵,提升服务能力。依托技术创新与生态优势,十方融海将进一步巩固行业地位,助力我国 AI 语音产业实现更高水平发展,为用户打造更智能、更便捷、更有温度的数字生活。