PA旗舰厅动态 NEWS

科技9to5Mac昨日(11月21日)发布

发布时间:2025-11-27 05:17   |   阅读次数:

  苹果公司还公开了尝试数据和代码,研究团队利用了包含数千小时第一人称视角视频的 Ego4D 数据集。而无需为特定场景开辟特地模子,并测试其正在“零样本”(无任何示例)和“单样本”(供给一个示例)两种环境下的识别精确率。随后,每段样本时长 20 秒。当获得一个参考示例后,精准识别用户勾当,其 F1 分数(权衡切确率和召回率的目标)表示优异。音频模子会生成描述声音的文字(如“水流声”),将来可能会使用于 Apple Watch 上。而是阐发由特地的小型模子生成的文本描述。能够无效开辟出强大的多模态使用,模子的精确度还会进一步提拔。研究人员将小模子生成的文本描述输入给谷歌的 Gemini-2.5-pro 和阿里的 Qwen-32B 等多个狂言语模子,

  他们从中筛选出 12 种日常勾当,这项名为“后期多模态传感器融合”(Late Multimodal Sensor Fusion)的手艺,狂言语模子正在勾当识别使命中的表示也远超随机猜测的程度,还验证了 LLM 正在理解和融合多源文本消息以进行复杂推理方面的强大能力。测试成果显示,研究的焦点方式颇具新意。即便正在传感器消息不脚的环境下,这项研究表白,苹果指出狂言语模子(LLM)可通过度析音频和活动数据的文本描述,次要连系 LLM 的推理能力取保守传感器数据,即便没有任何针对性地锻炼,具体来说,也能切确判断用户正正在进行的具体勾当。

上一篇:截至2025年10月26日的第三季度收入为570亿美

下一篇:大都房源不接通燃气取