华盛顿大学研发“空间语音翻译”技术:多人同时发言也能精准识别

内容摘要IT之家 5 月 24 日消息,美国华盛顿大学的一项研究提出了一种可穿戴式“空间语音翻译”技术,能够通过双耳耳机在多人交谈环境中实时翻译,并可以保留每位发言者的声音特征与方位感。据 ITMedia News 昨日报道,借助这项技术,耳机能将

联系电话:400-962-3929

IT之家 5 月 24 日消息,美国华盛顿大学的一项研究提出了一种可穿戴式“空间语音翻译”技术,能够通过双耳耳机在多人交谈环境中实时翻译,并可以保留每位发言者的声音特征与方位感。

据 ITMedia News 昨日报道,借助这项技术,耳机能将每个人的话实时翻译成你的母语,同时保留每个人的声音个性和方向信息,让你清楚分辨谁在说什么。

与现有翻译工具相比,这项技术解决了两大难题:一是支持多人同时发言场景,二是翻译结果不再千篇一律,而是保持每个说话者独特的声音风格与方向。研究结合了音源分离、空间定位、实时翻译与双耳渲染等技术,构建出完整系统。

IT之家从报道中获悉,研究团队的三大技术突破包括:

通过将空间细分为多个角度区域,并用神经网络识别每个区域内的潜在发言者,实现准确的音源分离与定位;

构建可在 Apple 芯片上实时运行的语音翻译模型,能保留说话者的音质与情感;

开发出双耳渲染方法,让翻译后的语音从原说话者方向传来,增强沉浸感。

在实际测试中,研究人员使用市售降噪耳机和双耳耳机,在苹果 M2 芯片上完成了从法语、德语、西班牙语到英语的实时翻译。10 名受试者在多种环境下测试后,系统展现出较强的通用性。

进一步的评估表明,29 名参与者普遍认为,新系统在多人交流场景中的表现优于传统翻译工具,不仅提升了翻译质量,也更易分辨说话者。此外,在空间感知实验中,用户能准确判断翻译语音的方向,与原声几乎无异。

研究成果:

10.1145/3706598.3713745

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1

免责声明

本网站(以下简称“本站”)提供的内容来源于互联网收集或转载,仅供用户参考,不代表本站立场。本站不对内容的准确性、真实性或合法性承担责任。我们致力于保护知识产权,尊重所有合法权益,但由于互联网内容的开放性,本站无法核实所有资料,请用户自行判断其可靠性。

如您认为本站内容侵犯您的合法权益,请通过电子邮件与我们联系:675867094@qq.com。请提供相关证明材料,以便核实处理。收到投诉后,我们将尽快审查并在必要时采取适当措施(包括但不限于删除侵权内容)。本站内容均为互联网整理汇编,观点仅供参考,本站不承担任何责任。请谨慎决策,如发现涉嫌侵权或违法内容,请及时联系我们,核实后本站将立即处理。感谢您的理解与配合。

合作联系方式

如有合作或其他相关事宜,欢迎通过以下方式与我们联系: