英伟达™(NVIDIA®)研究人员在本周于西雅图举行的计算机视觉与模式识别(CVPR)大会上展示了全新的视觉生成人工智能模型和技术。这些成果涵盖了自定义图像生成、三维场景编辑、视觉语言理解和自动驾驶汽车感知等领域。
"英伟达™(NVIDIA®)学习与感知研究副总裁扬-考茨(Jan Kautz)表示:"人工智能,尤其是生成式人工智能,代表着关键的技术进步。
"英伟达™(NVIDIA®)研究院在CVPR上分享了我们如何不断突破可能的极限--从可以为专业创作者提供超级动力的强大图像生成模型,到可以帮助实现下一代自动驾驶汽车的自动驾驶软件。
在50多个英伟达™(NVIDIA®)研究项目中,有两篇论文入围了CVPR的最佳论文奖决赛,其中一篇论文探讨了扩散模型的训练动态,另一篇论文探讨了用于自动驾驶汽车的高清地图。
此外,英伟达™(NVIDIA®)还在CVPR自动驾驶大挑战赛的 "端到端规模驾驶 "赛道中胜出,在全球450多份参赛作品中脱颖而出。这一里程碑式的成就证明了英伟达在使用生成式人工智能建立全面的自动驾驶汽车模型方面所做的开创性工作,同时也为英伟达赢得了CVPR颁发的创新奖。
JeDi是最重要的研究项目之一,这项新技术允许创作者快速定制扩散模型(文本到图像生成的主要方法),只需使用几张参考图像就能描绘出特定的物体或人物,而无需在定制数据集上进行耗时的微调。
另一项突破是FoundationPose,这是一种新的基础模型,无需对每个物体进行训练,就能立即理解和跟踪视频中物体的三维姿势。它创下了新的性能记录,可以开启新的 AR 和机器人应用。
英伟达™(NVIDIA®)研究人员还推出了NeRFDeformer,这是一种利用单个二维快照编辑神经辐照场(NeRF)捕获的三维场景的方法,而无需手动重新动画更改或完全重新创建NeRF。这可以简化图形、机器人和数字孪生应用的 3D 场景编辑。
在视觉语言方面,英伟达™(NVIDIA®)与麻省理工学院合作开发了VILA,这是一个全新的视觉语言模型系列,能够在理解图像、视频和文本方面实现最先进的性能。凭借增强的推理能力,VILA 甚至可以通过结合视觉和语言理解来理解网络流行语。
英伟达™(NVIDIA®)的视觉人工智能研究横跨多个行业,其中包括十多篇探索自动驾驶汽车感知、绘图和规划新方法的论文。英伟达™(NVIDIA®)人工智能研究团队副总裁Sanja Fidler将就视觉语言模型在自动驾驶汽车中的应用潜力发表演讲。
英伟达™(NVIDIA®)的CVPR研究范围之广,充分体现了生成式人工智能如何增强创造者的能力,加速制造业和医疗保健领域的自动化,同时推动自动驾驶和机器人技术向前发展。
上一条: 马来西亚.MY域名机构域名系统升级公告