我们终于从语音转文本转向环境转上下文了!! 标准的语音助手使用ASR(语音识别)管道,这会剥离90%的声学上下文。OpenHome展示的内容可能使用原生音频变换器或CLAP(对比语言-音频预训练)嵌入,持续处理原始音频频谱图。它检测声学事件(AED)和副语言线索(叹息、语调),而不仅仅是单词。 现在再加入一个始终在线的摄像头视频流与视觉变换器,你就给你的代理赋予了与其空间听觉相匹配的视觉能力。 真正的多模态传感器融合可能会使手动提示变得过时。 只是值得思考的事情。