热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们终于从语音转文本转向环境转上下文了!!
标准的语音助手使用ASR(语音识别)管道,这会剥离90%的声学上下文。OpenHome展示的内容可能使用原生音频变换器或CLAP(对比语言-音频预训练)嵌入,持续处理原始音频频谱图。它检测声学事件(AED)和副语言线索(叹息、语调),而不仅仅是单词。
现在再加入一个始终在线的摄像头视频流与视觉变换器,你就给你的代理赋予了与其空间听觉相匹配的视觉能力。
真正的多模态传感器融合可能会使手动提示变得过时。
只是值得思考的事情。
热门
排行
收藏
