Bsports必一体育视频处理器柔性LED显示屏画面分割器Segment Anything Model (SAM) 的提出正在图像朋分范畴惹起了伟大的眷注,其出色的泛化职▽能激励了普及的兴会柔性LED显示屏。然而,假使这样,SA◁M 依旧面对一个无法◁□★回避的□题 =目:为了使 SAM 可以确实地朋分出主意物体的处所,每张图片都必要手动供 给一个特殊 的视觉提示。如下图所示,纵使点击 的是统一物体(图△ (b)=- (d)),渺小处 所改变都邑导致…朋 分结果的明 显分歧。这是由于视觉提示缺乏语义新闻△画面朋分器,纵使提○示正在念要朋分的主意物体上,依旧恐怕激励歧义。框提示 和涂鸦提示(图 (e)(f))固然供给了更的确的处 所新闻,但因为 呆板★和人类对主意朋分物的剖判存正在过错,功效每每与祈望 有◁所○进出视频管束器<▽/strong>。
目前的极少步骤,如 SE■E M 和 ◁ AV-SAM,通过供给更众模态的输入新闻来指点模 子更好地剖判要朋分的物体是什么。然而,假使输入新闻变△◁得加★○倍△=的确和众样化,每个△无标◁ 注样本依旧○必要一个特殊的提示来举动领导,这是一种不切本质的需求。理念状况下,作家愿望 见告呆板方今○的无标注数据■都是搜罗自于什□么使命,然后祈望呆板可以批量地遵 照作家的哀求对这些统一=使命下的样本举办朋分。然而,方今的 SAM 模子及其变体受到务必为每幅图手■动供给提□○示这一哀…求的节制,以是很难实行这一点。 来自伦敦大学玛 丽女王学院的探索者们提出 了一种无需 练习的朋○分步骤 G△enS AM◁ ,可以正在只供给一个使命通用的文本 提示的条款下画面朋分器,将使命下的通盘无▽★标注样本举办 有用地朋分。 关于给定的朋分使命,比如伪装样本朋分,关于 该使命 下来自各个数■据集…的通盘无 标注★○样本,只供给一个使命描写:“the c a m=ouf○laged △○animal” 举动这些图片的独一提示! 来有针对性地杀青与使命 合连★的主意的朋分。正在这种状况下,主意是依据使 命描写 确实地朋分图像中 伪装的动物。模子必要剖判并运用供给的使命描写来 推广朋分,而不依赖于○手动供给每个图像的特 定提示柔○性LED显示屏◁。 这种步骤的上风正在于,通过供给通用使命描写,可能批 ■量 地管束○ 通盘合连使命的无标注图 片,而无需为每个图片手动供给的确的提示视频管束器。这关于涉及洪量数据的本质场景来说是□一种加倍高效和可扩展的步骤。 为领会决这一题目,作家提 出了 Generalizable SAM (=Gen SAM)模子b—sports必一必一体育柔性LED显示屏处理器!,旨正在挣脱像 ★SAM 这类提示朋分步骤对样本特定□提示的依赖。的确而言,作家提出了一个跨模态思想链(Cross-modal Chains of Thoug ht Prompt○in…g…画面朋分器,CCTP)的观点,将一个使命通用的文本提示照射到=该…使命下的通盘图片上,天生性格化的感兴会物体和其配景的共鸣热=○力求,从而得到牢◁靠 的视觉提 示来指点朋分。别的,为了实行测试时自合适,作家进一步提出了一 个渐进掩膜天生(Pro▽gr e ssi ve Mask ■Gen□eration,PMG)框架,通过迭代地 将天生○的=热力求从头加权◁到原图上必一体育,指点模子对恐 怕的主意区域举办从粗到细的聚焦。值得预防的是,GenSAM 无需练习,通盘的优化 ■▽都是正在及时▽ 推…理 时实■行△的。 跟着大周围数据上练…习的 Vi sio…n Language Model (VLM) 的生长,如 BLI◁P2 和 LLaVA 等模★子具备了宏大的推理才智。然而,正在面临繁杂场景,如伪装样本朋分时,这些模子很难确实推理 出繁杂配景下 ○使命合连物= ▽体的身份,况且渺小○提示△改变恐怕 导致结果明 显分歧。同时,目前的◁ V LM 只可推理出恐怕的 主意描写,而不行将其定位到图像中。为领 会决这一题目柔性L=ED显示屏,作家以现有使命描写。 为底子修筑了众个思想链,愿望通过从 众个 角度 得到○ 共鸣来…推 ◁理△第 j 个链上前 景物体○的合节词。 然而,方今大大批求取共鸣 的步骤基于 一个 … 假设:VLM 的输出结果是有限。