【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,正在3600万高质料视频字幕对和5。82亿个视频 剪辑 的数据 集上落成了锻练Bsports必一体育bsports必一体育柔性LED显示屏画面分割器,职能改善30项SOTA。
A I视频模子S ora爆火之○○后,Meta、谷歌等大厂纷纷下场做酌量。
迩来,来自谷歌 团队 的酌……量○职员提出了一种通用视频编码 器——★○VideoPrism。
酌量职员正★▽在一个异构语料库对VideoPrism实行了预锻练,包括3600万 □高质 料视频字幕对和5。82亿个视频剪辑,并带有噪声并行文本★ (如 AS R 转录文 本)。
值得一提的是,VideoPr □is△ m正在…33项视频阐明基准▽测试 中画面分必一运动割器bsports体育!,改善了30项SOTA。
现时必一体育,视频根底… … 模子▽(ViF○M)有强 壮△○的○潜力,能够□正在巨大的语料库中解锁新的才略。
固然之前的 酌量正在普通视频阐明○△方面获得了很大转机,但构修真正的「 根底视频模子」依旧是一个难以杀青的宗旨。
对此,谷歌推=出了一种通用视觉编码器——VideoP○ri sm,旨正在处置平凡的视频阐明职分,搜罗分类、当地化、检索、字幕和问答(QA)。
VideoP r○=i■◁ ■sm○○对C V数 据集,以及神经科学和生态学等科学界限的CV职△分实行了平凡评 估。
别的,谷歌酌量职员称,这种冻结编码器修设同时服■ ▽从先前酌量,并商酌了其现实适用性,以及 高盘算○推 算=和微 调…□视频模子的本○钱。
预△锻○练○数据是根底模子(FM)的根底,ViFM的理念预锻练数据,是寰宇上完全视频的代外性样本。
是以
画面破裂器,谷歌的预锻练 战术应重△要闭凝望频形式,同时充塞○○诈欺任 何可用的视频 文本□对。
正在数据方面,谷歌酌量职员通过辘集3600万高质料视频字幕对,以及5。82亿视频剪辑与□噪声并行文本(如A SR转 ■录、天生的字幕和检索到的文 本)来近似竖立所需的预锻练语 料库。
正在修模方面,作家最先从 完全差别 质料△□ 的视频-文本对中比较练 习 语义◁视频…嵌入。
随后,诈欺平凡的纯视频数据,对语义嵌入实行全体和标识提炼,刷新了下文所述的掩码视频修模。
假使正在自然讲…▽话 方面获 得了获胜,但因为原始视觉信号缺乏语义,掩码=数据修模看待C■V来说 依旧具有挑拨 性。
现有酌 量通过借用▽间接语义(如应用CLIP劝导模★子或分词器,或隐含语义来应对这一挑拨)或隐性施行它们(例如■标识视觉patch ○es),将高掩码率和轻量级解码器联络。
正在第一阶段,实行比较练习,应用完全视频文本对,将视频编码器与文本编码器对齐。
按照先前的酌量,谷歌○团 …队最小化批 ○中 完全○视频 文本△对▽ 的一…致性 得△分,实行对称交叉熵耗损最小化。
并★□应用 CoC a 的图像模△子初始 化空间编码模块,并将WebLI纳入到预锻练中柔性LED显示屏。
正在盘算推算耗损之前,视频编码器的特性会通过众头预防力辘集池(MAP)实 行会○ 集。
这一阶段许可视频编=码器从讲话监视中练 习丰裕的视觉语义,由此出○现的模子为第二阶段锻练供给语义○视频嵌○入。
- 模子需求按照未掩码的输入视频patches,来预测第一阶段的视频级全体嵌入和token式嵌入!
- 编码器的输出token正在传给解码器之前
值得预防的是,酌量职员的预锻练=诈○欺了两个监视信号:视频的文本描写,以及上下文自监视,使V i★ deoP■○r is◁m可 以正在以外观和…动★行动核心的▽职○分上展 △现○ 精 巧。
结果上,之前的酌量阐明,视频字幕重要揭示外观线索,而上下文我监 ○视有□助于练 ○▽★习…○ 手脚
接下。