文 | 阿尔法公社
在iPhone引领的多点触控“统治”移动设备交互方式近20年后,什么是下一代智能硬件的交互方式?
有一家创业公司将语音作为探索方向,并初步证明了自己方向的正确性。它们的语音模型在发布几天内就有超过百万人次的使用,并累计产生了超过五百万分钟的对话,它们还将推出一款全天候的智能眼镜作为语音交互界面的承载硬件。
这家由虚拟现实设备先驱Oculus联合创始人创办的公司名叫Sesame,近日获得了Sequoia Capital和Spark Capital联合领投的2.5亿美元B轮融资,在2025年2月,它还获得Andreessen Horowitz、Spark Capital和Matrix Partners的一笔金额未披露的早期融资,这些机构都是Oculus VR的重要投资方。
Oculus联合创始人,拉着原班人马探索AI时代的自然语音交互
Sesame由Oculus的前CEO兼联合创始人Brendan Iribe、Ubiquity6(AR托管平台)的前CTO兼联合创始人Ankit Kumar,以及Meta Reality Labs的前研究工程总监Ryan Brown(也在Oculus干过)联合创立。
Brendan将成功打造了Oculus这个智能VR硬件平台,并以数十亿美元的价格出售,而Ankit Kumar曾是Discord 公司Clyde AI项目的工程负责人,在将语言和语音模型进行规模化产品部署方面,拥有第一手经验。
公司创立后,他们还将自己的老同事Nate Mitchell(Oculus联合创始人,现Sesame的CPO),Hans Hartmann(Oculus前COO,现Sesame的COO),以及在Facebook和Meta任职多年资深高管的Angela Gayles,一起拉进了核心团队。
这个团队里的每个人,都具有丰富创业经验,而且在智能硬件领域已经有十年以上的经验。
从指令式到对话式,语音交互还差临门一脚
在AI的浪潮下,新一代的AI原生硬件如雨后春笋般涌现,但是大家对于什么是最适合AI原生硬件的交互方式,还没有共识,各自都在探索中。
从命令行(大型机),GUI(键盘+鼠标,PC),多点触控(智能手机),人机交互界面不断进化。一方面,它变得越来越直观,另一方面,它又要始终保证操控的精确性。
语音对于人类来说是最直观的交互方式,人类的语言,先诞生于直观的语音交互,之后才有更抽象的书面文字。
2011年苹果在iPhone 4S上推出了Siri,是语音交互在To C智能设备上应用的起点。此后,智能音箱,智能家电等Iot设备崛起,像小米都有了智能家居全家桶,它们也不约而同的把语音作为交互界面。
但在这个阶段,智能家居其实不够智能,它只能够听懂人类的简单要求,例如开关灯,播放某些曲目,完成某些功能,它的背后是既定的程序。语音交互,也是指令式的,它不能与用户对话,也无法满足个性化的需求。
在大语言模型引领的生成式AI浪潮爆发后,音频模型又一次迎来了发展。一方面,出现了Suno(AI音乐生成),ElevenLabs(AI语音克隆)这样的语音模型创业公司。另一方面,语音再一次作为交互界面,出现在了各主流Chatbot中,例如ChatGPT的高级语音模式。
这一次,人们可以用语音和AI真正的交谈了,它能够真正理解你的意思,理解你的情绪,并且能够几乎实时的做出回应。你既可以和它单纯聊天,也可以让它完成任务。
但是,这时候的AI语音交互仍然有一个问题,就是它能“理解”人的理性意思,可以“感受”人的情绪,但是它输出的内容,只带有理性意思,它很难“表达”情绪。因为人性化的语音交互确实挑战艰巨,语调、口音和呼吸的细微变化都会影响我们对说话者的感知。这些差异或许在潜意识层面影响我们,使我们能清晰地意识到“这听起来像个机器人”,就仍然具有“恐怖谷”效应。
用模型构建语音临场感,用AI眼镜承载语音界面
Sesame就是要补全目前语音交互最后的短板——情绪表达和个性化。他们提出了一个叫“语音临场感”(voice presence)的概念:让AI的口头互动,更真实,让与AI语音交流时,感觉被理解和被重视。
这种体验包含一系列关键要素,包括:
情感智能: 解读并回应情感语境。
对话动态: 自然的节奏、停顿、打断和强调。
语境感知: 根据情境调整语气和风格。
个性一致: 保持连贯、可靠且得体的形象。
Sesame推出了两种语音助手Maya和Miles ,在实际测试中(它的投资人以及媒体评测),它们能够恰当地回应问题,能够察觉到用户的情绪,并能够回应和安抚用户的情绪。
与过往的语音交互体验不同,Sesame并非简单地将大语言模型的输出结果转换为音频,而是直接生成语音,精准捕捉了真实对话的节奏、情感与表现力。它的语音助手Maya和Miles能让人感觉到鲜明的性格与个性,与它们的互动,感觉就像真人一样。
![]()
在与实际测试中,很难分辨Sesame模型的语音以及人类语音(来源:Sesame)
Maya和Miles的背后,是一个叫对话式语音模型(Conversational Speech Model, CSM)的技术,它是一个端到端的、多模态的文本与语音模型。它旨在解决传统文本转语音(TTS)模型缺乏语境感知能力的问题,从而创造出能够实时理解并适应对话语境、感觉上更具互动感的 AI 语音。
在能力上,这个模型能够利用之前的对话信息(包括文本和音频)来决定当前语音的语调、节奏和韵律。
它还能同时进行文本理解和语音理解(这是之前的语音模型缺失的部分)。文本理解能够理解人类对话中的意思,语音理解能够感受人类语音中的情绪,并且在多轮对话中保持发音的一致性。
当然,更重要的是它能生成高度自然,饱含情绪的语音,在实测中,人类听众无法明确区分其与真实人类录音的差别。
在技术实现上,CSM 使用了两个自回归的Transformer模型,这两个模型具有分工。其中一个模型是多模态主干网络,负责处理交错输入的文本和音频数据;另一个模型是音频解码器,它比主干网络更小,负责根据主干网络的表征,对语音进行建模,从而重建出完整的语音。
Sesame的Maya和Miles ,在发布几天内,就吸引了超过百万人次的使用,累计产生了超过500万分钟的对话。
此外,为了构建一个无处不在、能感知用户周遭世界环境的界面,它们还正在打造自己的AI眼镜,作为AI语音界面的承载体,同时也将通过这个硬件平台,不断地打磨自研地AI语音模型。
据称,这款AI眼镜专为全天候佩戴而设计,是一款即便没有科技加持,人们也会乐于佩戴的眼镜。
除了革新交互方式,AI原生硬件的机会还有哪些?
随着生成式AI的崛起,手机、平板等随身的消费电子设备都内置了AI功能(或者你至少可以装一个AI应用在手机里),但它们都不算是AI原生硬件,因为AI的能力还是被困在了屏幕内,它们对于物理世界的感知能力和影响能力还很弱,交互的方式也不够直观。
生成式AI之后的下一个浪潮是物理AI(Physical AI),它主要是AI原生硬件,这些硬件具有感知和影响物理世界的能力,例如具身智能,自动驾驶,智能可穿戴设备,都属于这一类。
但是在现阶段,物理AI仍然属于早期阶段。一方面,生成式AI的LLM,不能直接为它提供智能,AI原生硬件的模型,需要理解和作用于物理世界,现阶段还非常不成熟(受限于数据的数量和质量);另一方面,它的形态也还没收敛到一个确定的状态,无论是大厂还是创业公司,都在试错和探索;最后,什么是最适合AI原生硬件的交互界面,目前也都仍在探索中。
但是,可以确定的是,AI原生硬件的交互界面,会比以往的交互方式更直观,更简单。而多模态的交互方式,例如语音,是一个相对确定,相对有潜力的方向。
对于AI原生硬件,除了交互方式外,数据和操作系统也很重要。在数据上,相对于生成式AI主流的语言和视觉模型,物理AI模型所需要的数据在数量上很少,而获取的成本却很高(可以想一想自动驾驶),现在的数据量级,还不支持训练出真正强大的模型。
在操作系统上,其实AI原生硬件,并不是在硬件里塞入AI模型那么简单。真正具有解决复杂能力的AI原生硬件,内部可能不止有模型,还有各种Agent,甚至要考虑到端侧和云端的算力分配,端侧的电力控制等问题,它需要一个AI原生的操作系统来作为大脑,综合性的调度和解决这些问题。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论