资讯公告
Meta FAIR发布五大版本,推进类人人工智能发展
发布时间:2025-04-22 发布者:FebHost

Meta FAIR发布五大版本,推进类人人工智能发展


Meta 公司的人工智能基础研究(FAIR)团队宣布了五个项目,以推进公司对高级机器智能(AMI)的追求。


Meta公司最新发布的项目主要集中在增强人工智能感知能力(即机器处理和解释感官信息的能力),以及语言建模、机器人和协作人工智能代理方面的进展。


Meta公司表示,其目标是创造出 “能够获取、处理和解释我们周围世界的感官信息,并能利用这些信息以类似人类的智能和速度做出决策 ”的机器。


这五个新版本代表了为实现这一宏伟目标所做的各种不同但相互关联的努力。


感知编码器: Meta 使人工智能的 “视觉 ”更加敏锐


新版本的核心是感知编码器(Perception Encoder),它被描述为一种大规模视觉编码器,旨在出色地完成各种图像和视频任务。


视觉编码器就像人工智能系统的 “眼睛”,使其能够理解视觉数据。


Meta 强调了构建编码器以满足高级人工智能需求所面临的日益严峻的挑战,要求编码器具备连接视觉和语言的能力,能有效处理图像和视频,并在包括潜在对抗性攻击在内的挑战条件下保持稳健。


Meta 公司认为,理想的编码器应该能够识别各种概念,同时分辨出微妙的细节,并列举了一些例子,如发现 “钻入海底的黄貂鱼,识别图像背景中的一只小金翅雀,或在夜视野生动物相机上捕捉到一只窜来窜去的 Agouti”。


Meta公司称,感知编码器 “在图像和视频零镜头分类和检索方面表现出色,超越了此类任务的所有现有开源和专有模型”。


此外,据说它的感知优势还能很好地转化为语言任务。


据说,当编码器与大型语言模型(LLM)相匹配时,它在视觉问题解答(VQA)、字幕、文档理解和接地(将文本链接到特定图像区域)等领域的表现要优于其他视觉编码器。据报道,它还能提高传统上对 LLM 难以完成的任务的性能,如理解空间关系(如 “一个物体是否在另一个物体后面”)或摄像机相对于物体的移动。


“Meta 说:"随着 Perception Encoder 开始集成到新的应用中,我们很高兴看到其先进的视觉功能将如何支持更强大的人工智能系统。


感知语言模型(PLM): 视觉语言的开放式研究


与编码器相辅相成的是感知语言模型(PLM),这是一个开放的、可重复的视觉语言模型,旨在完成复杂的视觉识别任务。


PLM 采用大规模合成数据与开放式视觉语言数据集相结合的方式进行训练,显然没有从外部专有模型中提炼知识。


FAIR 团队认识到现有视频理解数据的不足,收集了 250 万个新的人类标签样本,重点关注细粒度视频问题解答和时空字幕。Meta 声称这是 “迄今为止最大的同类数据集”。


PLM 提供 10、30 和 80 亿个参数版本,以满足学术研究对透明度的要求。


除模型外,Meta 还发布了 PLM-VideoBench 这一新基准,专门用于测试现有基准经常忽略的功能,即 “细粒度活动理解和时空推理”。


Meta 希望开放模型、大型数据集和具有挑战性的基准相结合,能够增强开源社区的能力。


Meta Locate 3D:赋予机器人态势感知能力


Meta Locate 3D 是语言命令与物理行动之间的桥梁。这一端到端模型旨在让机器人根据开放词汇自然语言查询,准确定位三维环境中的物体。


Meta Locate 3D 可直接处理来自 RGB-D 传感器(如某些机器人上的传感器或深度感应摄像头)的三维点云。如果给出文本提示,如 “电视机控制台附近的花瓶”,系统会考虑空间关系和上下文,以确定正确的对象实例,并将其与 “桌子上的花瓶 ”等区别开来。


该系统由三个主要部分组成:将二维特征转换为三维特征点云的预处理步骤;三维-JEPA 编码器(一个预先训练好的模型,用于创建上下文化的三维世界表示法);以及定位三维解码器,该解码器利用三维表示法和语言查询为指定对象输出边界框和遮罩。


除模型外,Meta 还发布了一个基于指代表达的对象定位新数据集。该数据集包括来自 ARKitScenes、ScanNet 和 ScanNet++ 数据集的 1,346 个场景中的 130,000 个语言注释,实际上是该领域现有注释数据的两倍。

文章相关标签: Meta FAIR 人工智能
购物车