语音模式有迅速成为对话式人工智能的旗舰功能,让用户感到轻松并允许他们以最自然的方式(通过语音)进行交互。 OpenAI 不断开拓创新,推出了延迟低于 500 毫秒的实时 AI 语音代理。这一成就背后的技术现已开源,提供了无与伦比的工具访问权限,使构建高质量的响应式语音代理成为可能。
OpenAI 并没有采取任何行动。当他们为 ChatGPT 开发语音功能时,他们引进了顶尖的选角和导演人才,以确保声音具有身临其境的感觉,同时又让他们看起来像是属于自己的。随后,400 名试镜者被削减至今天的 5 名。这并不是说一切都是一帆风顺的。不是当公司不得不搁置“天空”,因为它与斯嘉丽约翰逊惊人的相似。
但真正令人兴奋的是最新的发展:能够在本地利用这项技术。想象一下,在您自己的 GPU 上进行实时语音到语音处理,延迟低于 500 毫秒。这不再是一个遥远的梦想:系统现已完全开源。
它是如何工作的?为了实现如此小的延迟,AI 管道被分为不同的组件,每个组件都经过优化为了速度和效率:
1。语音活动检测 (VAD)管道从 Silero VAD v5 模块开始,负责检测用户何时结束讲话。它是触发下一阶段处理的“看门人”。
2.实时转录(语音到文本)这部分流程使用一些更复杂的模型(例如 Whisper 或 DeepSpeech)将用户的语音转录为文本。例如,Whisper 是实时运行的,系数为 0.5;因此,它可以以两倍于实时速度的速度处理语音,并在大约 100 毫秒内提供准确的转录。
3.响应生成随着转录的进行,大型语言模型(LLM)开始同时预测可能的响应。在 200 毫秒内,系统可以生成相关的基于文本的回复。
4.语音合成(文本到语音)使用快速语音合成器立即将生成的响应转换为语音,这还需要 200 毫秒才能产生高质量的音频。
通过并行提高效率处理这种令人印象深刻的速度的秘密在于并行处理。与顺序处理组件或一次处理一项任务相比,系统同时进行转录、响应生成和语音合成。这种端到端的设计保证了流程的各个部分协同工作,极大地减少了完成用户交互所需的总体时间
例如,当系统检测到语音结束时,系统会启动转录过程。当转录完成时,语言模型已生成响应,随后立即开始语音合成。这种任务并行处理确保从用户语音到 AI 响应的整体交互在 500 毫秒内完成。
结论:解锁语音 AI 的未来AI 语音代理 down人机交互延迟达到500ms,是无缝人机交互的重大发展。该技术的使用是通过实时转录、快速响应生成和语音合成,同时提供超响应的对话体验。
这意味着,随着整个管道开源,可以集成此技术技术融入您的项目。开发人员可以针对各种应用程序微调和定制其语音代理,包括语音助手甚至实时游戏化身。
这不仅仅是向前迈出的一步;这是构建对话式人工智能未来的邀请。那么,你会用它创造什么?
以上就是未来说话:超低延迟的实时人工智能语音代理的详细内容!