一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们终于从语音转文本转向环境转上下文了！！标准的语音助手使用ASR（语音识别）管道，这会剥离90%的声学上下文。OpenHome展示的内容可能使用原生音频变换器或CLAP（对比语言-音频预训练）嵌入，持续处理原始音频频谱图。它检测声学事件（AED）和副语言线索（叹息、语调），而不仅仅是单词。现在再加入一个始终在线的摄像头视频流与视觉变换器，你就给你的代理赋予了与其空间听觉相匹配的视觉能力。真正的多模态传感器融合可能会使手动提示变得过时。只是值得思考的事情。