8人团队历时半年打造开源版GPT-4o，零延迟演示引爆全网！人人可免费使用！

01 Moshi

02 背后技术揭秘

GPT-4o可能要等到今年秋季才会公开。

然而，由法国8人团队开发的原生多模态Moshi，已经达到了接近GPT-4o的水平，现场演示几乎没有延迟，吸引了大量AI专家的关注。

令人惊讶的是，开源版的GPT-4o来得如此之快！

01 Moshi

昨晚，来自法国AI实验室kyutai的团队展示了首个实时原生多模态Moshi，效果媲美5月发布的GPT-4o。

例如，在一个演示中，Moshi作为助手帮助Alexa小哥进行太空探索，让人仿佛置身《流浪地球》中的Moss情景。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

值得注意的是，这个由8人团队在仅仅半年的时间里，从零开始完成了模型的训练。

Moshi目前处于实验原型阶段，设计目的是理解和表达情感，支持听、说、看三种功能，并能够用70种不同的情绪和风格说话，甚至随时打断。

其最突出的能力是可以同时处理两个音频流，实现“听”和“说”同步进行。

这种实时互动的实现基于文本和音频混合的联合预训练，使用Helium中的合成文本数据，训练出70亿参数的模型。

Moshi的端到端延迟最低可达160ms。最小版本的Moshi还可以在笔记本电脑或消费级GPU上运行。

许多人认为这是最接近GPT-4o的模型，Moshi的惊艳表现赢得了LeCun、Karpathy等AI大佬的转发。

Moshi这个名字来源于日语中的“もしもし”（接电话时的问候语）。接下来，Patrick邀请了四位同事上台展示Moshi的强大语音能力。

02 背后技术揭秘

Moshi在技术上有哪些创新，才能具备对标GPT-4o的实力？随后，同事们介绍了当前语音AI的一些限制，例如“听”使用自动语音识别技术，“想”使用大模型，“说”使用文本-语音技术。

这些分门别类的技术会导致语音AI出现较多延迟。

他认为，最明显的事实是——GPT-4o的语音功能尚未推出，而Moshi已在发布后上线。

此外，他还提到了几个值得关注的技术要点：

像kyutai这样的小型团队在6个月内构建出Moshi，表明其训练流程和架构非常简单且具有巨大的可扩展性，合成数据也起到了重要作用。

Moshi专注于本地设备的部署，这将使其迅速流行并无处不在。相比之下，像GPT这样的模型由于盈利需求，不太可能推动本地运行。

在保持答案质量达到Llama 8B或以上水平的同时，将延迟降低到300ms以下是实现互动的关键因素。

那么，如何将这些步骤整合到单一的语音模型中呢？这正是kyutai的目标所在。

多模态Moshi不仅能够听和说，同时在语音输出时进行思考。

理论上，Moshi可以实现最低延迟为160毫秒，创造了世界新纪录。