视觉 AI 的「Foundation Model」已经成长到哪一步？丨CVPR 2024 现场直击

文章目录 [+]

编辑｜陈彩娴

2024 年美国韶光 6 月 17 日至 21 日，IEEE 国际打算机视觉与模式识别会议（CVPR）在美国西雅图召开。

视觉 AI 的「Foundation Model」已经成长到哪一步？丨CVPR 2024 现场直击视觉 AI 的「Foundation Model」已经成长到哪一步？丨CVPR 2024 现场直击智能家居

如大家预见，视觉 Foundation Model 成为今年 CVPR 除自动驾驶、3D 视觉等传统研究课题以外的核心会议主题。

（图片来自网络侵删）

此外，由于会议召开前后，海内快手「可灵」开放图生***功能火爆出圈、Runway 时隔一年推出新模型 Gen-3 Alpha，文生***也成为 CVPR 2024 的一大热词。

今年， CVPR 的两篇最佳论文都颁给了 AIGC。
从论文吸收数量的角度看，图像和***合成与天生（Image and video synthesis and generation）以329 篇论文成功霸占榜首。
而文生***也属于视觉 Foundation Model 的研究谈论范畴。

事实上，Foundation Model 在人工智能领域的最早出圈便是在打算机视觉领域。

2021 年 8 月，斯坦福大学百位学者联名揭橥 Foundation Model 综述，作者行列步队里就有多位打算机视觉领域的俊彦，如李飞飞、Percy Liang 等。
但OpenAI 凭借一己之力，在自然措辞处理领域的 Foundation Model 上率先弯道超车，通过堆参数量与拼算力，将措辞大模型做到极致，措辞基座模型的风头也在 2023 年一度盖过了视觉基座模型。

然而，由于 Sora 与可灵等事情的炫丽效果，CV 领域内关于视觉「Foundation Model」的话题又重回牌桌。

在 CVPR 2024 的大会现场，AI 科技评论拜访了多位从事过视觉基座模型的研究者，试图求解在现阶段领域内的专家人士如何看待「Foundation Model」。

我们创造：

视觉 Foundation Model 的研究思路也借鉴 OpenAI 的路线，将下一步主冲要破放在如预测下一个 visual token、扩大算力规模等思路上；

不止一位研究者认为，无论是措辞还是视觉，Foundation Model 的观点崛起后，AI 已经从一个开放的研究问题变成了一条实实在在的「工业生产线」，研究员的目标只有两个——「搞数据」与「搞算力」；

「多模态」成为视觉根本模型研究的一门显学，但视觉与措辞两派的互助通道仍未有效建立。

除了 Foundation Model，我们也访谈了自动驾驶、3D 视觉领域的干系人士。
我们也创造，诸如 CVPR 等从论文吸收截止到会议召开韶光长度超过半年的学术会议，或许已不再适用于跟踪如今变革万象、日月牙异的研究成果。

当 AI 研究中工业界与家当界的隔阂越来越小、领悟越来越多时，哪怕是一个传统的学术会议也要有跟上时期潮流的意识。

「Foundation Model」

的瓶颈与打破

事实上，基于 Transformer 开拓通用的视觉根本模型并不是 2023 年 ChatGPT 火起来后才有的研究思路。

国外从微软 Swin Tranformer 到谷歌 ViT，再到海内上海人工智能实验室的「诗人」（Intern）系列，都很早开始了通用视觉智能的探索。
只不过与 BERT 被 GPT-3 碾压的命运一样，它们都被后来涌现的 Sora 光芒粉饰；同时，由于 Sora 的技能路径独辟路子，也开始学习 Sora、借鉴 Sora。

在今年的 CVPR 上，上海人工智能实验室的通用视觉团队（OpenGVLab）展示了他们最新的视觉多模态根本模型研究成果 InternVL-1.5。
该事情凭借强大的视觉编码器 InternViT-6B、高动态分辨率，以及高质量双语数据集，在业内广受追捧。
CMU、面壁智能等国内外的多个开源比拟数据也表示，InternVL 的效果名列前茅：

上海人工智能实验室OpenGVLab「诗人」多模态大模型团队认为，视觉根本模型差异于以往事情的一个直接表示是多模态对话系统的构建。

InternVL-26B 的研究始于 2023 年 3 月。
此前，视觉根本模型的干系研究代表事情是 OpenAI 在 2021 年揭橥的CLIP。
「CLIP 作为古早的视觉根本模型，通过与 BERT 对齐，使 ViT 得到一定程度的措辞表征对齐能力，但参数量只有 300 M 旁边，规模太小，且对齐的工具不是 LLM。
（多模态对话系统的布局）必须利用更多演习数据才能进行表征对齐。
」

这启示了上海 AI Lab 团队开始研究 InternVL。
他们的目标是在保持根本模型强大性和多功能性的条件下，将其作为对话系统的 backbone，既支持图像检测、分割，也能够像 CLIP 支持多模态任务，例如图文检索。
最开始是研究了一个 6+7 的 13B 模型（即 InternVL-Chat-V1.2），但由于在对话系统的实际运用中表现一样平常，又投入大量精力优化对话功能，又得出了一个 26B 模型，即风靡一时的 InternVL-Chat-V1.5。

从 InternVL-1.5 技能报告得知，视觉根本模型研究的三个关键点是：

一，视觉模型必须接驳能力与之相媲美的措辞模型。
比如，他们一开始的 7B 措辞模型无法充分发挥 6B 视觉模型的上风，但在他们将措辞模型的规模扩大到 20B 后，问题得到了大幅改进。
InternVL-Chat-V1.5 采取的是诗人·浦语的 20B 模型，使模型具备了强大的中文识别能力；二是要适配高分辨率；三是要采取高质量数据集。

在今年的 CVPR 上，GPT-4o 团队作者首次公开分享了背后的技能路线：GPT-4o 的笔墨转图像采取了 DALL·E 路线，笔墨转笔墨是 GPT，笔墨转语音是 TTS。
InternVL 研究员评价，GPT-4o 看重不同模型间的跨模态转化，但 InternVL 的路线是专注于同一个模型上不同模态的输入与文本理解的输出。
OpenAI 路线并不是所有视觉Foundation Model 研究的威信路线。

目前领域内有一种声音认为，视觉根本模型应具备更强的离散化特性，即各个模态（包括视觉、语音和3D输入）都转换为离散表示、而非高维向量，并将其存储在同一框架下，解耦对外感知侧模型和 LLM 大脑模型，如此一来，多模态更加统一，演习更加独立，不用再关注视觉模型是否传梯度。

对此，研究员认为，「这是对原生多模态支持的一种考试测验，便于进行端到真个演习和跨模态能力的支持。
离散压缩可能会丢失一些细微但关键的信息，此技能路线还有很多关键问题有待探索。
」

针对视觉根本模型的瓶颈与打破方向，思谋科技研究员、喷鼻香港中文大学 DV Lab 实验室成员张岳晨也提出了相似的意见。

他认为，目前视觉根本模型的难点紧张在于大规模高质量数据如何网络和助力大规模的演习。
不仅如此，视觉根本模型如何跳出模型输出措辞的限定，支持原生多模态（如GPT-4o）也是接下来值得思考与研究的问题。

据 AI 科技评论理解，目前 DV Lab 自研的视觉基座 Mini-Gemini 在开源社区引起了广泛的关注和反响，一度保持 SOTA 的位置，得到了 3k+ 的 stars。
在今年的 CVPR 上，贾佳亚 DV Lab 团队的 LISA 模型、Video-P2P 等事情也得到了高度评价。

而南洋理工大学副教授张含望则认为，在视觉根本模型的研究中，大家常常忽略“理解任务”和“天生”任务实质是互斥的问题：前者是要让大模型丧失落视觉信息，而后者是让大模型尽可能保留视觉信息。
然而，在措辞大模型当中，这种互斥征象确从来没存在过。

张教授认为，症结就在于目前visual token 只是大略地把视觉旗子暗记“分块”，这种块状的空间序列和措辞的“递归构造”是有实质差异。
「如果不把图片或是***变成递归序列 token 的话，是无法接入大措辞模型的，而大措辞模型是一个很主要的推理机器。
但目前这一块，从行业来看，还没有特殊好的研究成果涌现，未来值得加大投入研究力度。
」

图注：「理解」与「天生」的差异，来自南洋理工大学张含望教授的分享

此外，不止一位研究者认为，无论是措辞还是视觉，Foundation Model 的观点崛起后，AI 已经从一个开放的研究问题变成了一条实实在在的「工业生产线」，研究员的目标只有两个——「搞数据」与「搞算力」。

靠近 OpenAI 的知情人士也称，一开始冲着OpenAI 的 AGI 光环加入的顶级高校博士毕业生在加入研究后，也发生自己在实际研究中也更多扮演着螺丝钉般的角色，比如花大量的韶光处理数据。
一句逐渐在 OpenAI 内部成为经典的 Slogan 是：

There is no magic。

自动驾驶、端侧 AI

自动驾驶在今年的 CVPR 上霸占了非常主要的位置，将措辞大模型落地到自动驾驶是特色。

个中，核心就在于如何把大模型放到自动驾驶的场景中，由于驾驶须要理解环境、预测下一个时候该如何前行，碰着边缘场景(corner case）的时候能否确保安全性等，这些都是自动驾驶领域接下来要重点研究的方向。

今年自动驾驶的一个探索趋势便是，大措辞模型为自动驾驶端到端技能的算法和infra供应了新的思路和解决方案。
以仿真平台为例，之前的仿真平台，多数因此打算机图形学的能力去做固定引擎，从而天生仿真平台，今年就有多家公司通过天生式AI的办法去做仿真平台。

CVPR 2024 自动驾驶国际寻衅赛是业界和学界都关注的主要赛事。
该比赛由上海人工智能实验室联合清华大学、图宾根大学、美团等国内外高校和科技企业共同举办，环绕当前自动驾驶领域的前沿技能、实践落地场景难题等共设置了 7 大赛道，吸引了环球近 500 支军队参赛。

寻衅赛哀求参赛者开拓一个端到真个 AV 模型，利用 nuPlan 数据集进行演习，根据传感器数据天生行驶轨迹。
据 AI 科技评论理解，端到端自动驾驶是今年 7 大赛道中竞争最为激烈的赛道之一，冠军来自于英伟达联合复旦大学的自动驾驶算法参赛团队，亚军则是来自中国的零一汽车自动驾驶研发团队。

英伟达的研究职员见告 AI 科技评论，L2++ 级别的端到端自动驾驶，其能力紧张表示于两大板块，分别是 Planning 和 Percetion。

在自动驾驶领域中非常主要的多模态数据集 nuScenes，个中有 93% 的数据只是包含直行在内的大略驾驶场景，天然无法实现工业界产品级别的自动驾驶。
这些场景多为自动跟车、自动停车，以及静态环境信息，如交通标志、道路标示线、交通灯位置等。

Perception 是自动驾驶系统中的感知部分，卖力通过各种传感器来感知周围环境的能力。
它相称于自动驾驶车辆的“眼睛”，为系统供应关于道路、车辆、行人、障碍物等元素的信息。
而 Planning 模块相称于自动驾驶系统中的“大脑”，卖力决策和方案车辆的行驶路径。
它吸收来自上游模块（如舆图、导航、感知、预测）的信息，并在当前周期内进行思考并做出判断。

英伟达团队见告 AI 科技评论，他们所作出的创新在于，在边缘场景的数据量不敷够的情形下，利用基于规则的专家（rule-based expert）作为西席，将规则知识蒸馏给神经网络方案器。
“我们认为，即便在数据量足够多的情形下，这一方法也将使得神经网络方案器变得更具有阐明性。
”

除了这些热门话题，在 CVPR 现场，还有很多厂商带来了亮眼的技能与产品，苹果便是个中一家。

从去年开始，苹果对大模型的投入力度肉眼可见地加大，尤其是天生式人工智能（GenAI）。
虽然本身并不是一家 AI 能力特殊强大的公司，但不懈的努力追赶后，苹果已然成功从一个三流水平的 AI 玩家挤进了二流水平战队。

今年 3 月，苹果正式发布多模态 LLM 系列模型，并在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中，通过构建大模型 MM1，阐述了多模态大模型预演习的方法、剖析和见地，引起大众围不雅观。

这次在 CVPR 大会上，论文的作者之一 Zhe Gan 现身大会论坛，系统先容了苹果在更好地进行多模态大模型预演习所做的最新研究进展。
他表示，大规模且与任务干系的数据对付演习高性能模型非常主要，因此，着重剖析了如何通过基于模型的过滤和更多样化的数据源，来得到高质量的预演习数据。

据 Zhe Gan 先容，在实验中，他们利用 45% 有字幕描述图像、45% 交错图像文本和 10% 的纯文本数据稠浊，作为预演习的数据稠浊，并为了评估，在各种字幕和 VQA 数据集利用 zero-shot （0-shot）和 few-shot (4-shot 和 8-shot)。

实验结果表明，交错数据对付 few-shot 和纯文本性能至关主要，而字幕数据提高了 zero-shot 性能；纯文本数据有助于提高 few-shot 和纯文本性能；精心稠浊图像和文本数据可以实现最佳多模态性能，同时保持强大的文本理解能力；合成数据有助于 few-shot 学习。

其余，Zhe Gan 表示，对付当前热门的 MoE 架构来说，可以在保持激活参数不变的情形下扩大模型总参数量，他们正在研究如何为多模态大模型设计更好的 MoE 架构。

写在末了

今年的 CVPR 是一场别开生面的盛会。

很多参会职员都向 AI 科技评论表示，相较于往年，今年 CVPR 的 AIGC 元素非常浓厚，新技能、新产品接连呈现，让人印象深刻。
但也有一些学者认为，还该当有更多更新的技能涌现。

喷鼻香港中文大学深圳（CUHKSZ）助理教授韩晓光参加完这次 CVPR 之后，认为 CVPR 的论文投稿时可以考虑设置两条轨道，一个是工程轨道，以效果作为动机驱动点，一个是研究轨道，专门以好奇心为驱动。
两条轨道都该当须要有最佳论文奖项，Sora 是贰心里工程轨道的最佳研究，而今年的「Generative Image Dynamics」则知足了他对最佳研究论文的想象。

「一贯思考 CV 的未来是什么景象，斗胆预测（或者是一种希望）未来将 from ‘virtual’ to ‘physical’，可能以各种不同的形式。
」韩晓光说道。

聚焦AI前沿研究，关注AI工程落地。
\"大众>

未经「AI科技评论」授权，严禁以任何办法在网页、论坛、社区进行转载！

公众年夜众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众年夜众号名片。

标签：模型模态