米兰体育MILAN SPORTS 中山大学搭伙鹏城现实室、好意思团推出X2SAM
米兰体育2026世界杯指定中国官网
热点资讯

米兰体育MILAN SPORTS 中山大学搭伙鹏城现实室、好意思团推出X2SAM

发布日期:2026-05-12 11:53    点击次数:148

米兰体育MILAN SPORTS 中山大学搭伙鹏城现实室、好意思团推出X2SAM

这项由中山大学、鹏城现实室与好意思团搭伙开展的商讨,以预印本时局于2026年4月27日发布在arXiv平台,编号为arXiv:2605.00891v1。感酷爱酷爱的读者可通过该编号检索圆善论文。

手机里的相机每天拍下无数张像片和视频,东说念主们早已俗例了用AI来识别像片里的猫咪、帮像片中的东说念主物换个配景,或者给视频打上自动字幕。可是,当你着实去看这些AI的"眼睛"时,会发现一件有些奇怪的事——大多数是非的AI要么只会"看图话语",要么只会"圈出主义",却很少有谁能同期把这两件事作念得既好又快,更别说同期卤莽图片和视频了。

这恰是这项商讨要责罚的问题。商讨团队开发了一个名为X2SAM的系统。这个名字里的"X2"不错探讨为"大肆到大肆"——大肆的指示,对应大肆类型的图像分割任务,既能处理静止的图片,也能处理动态的视频,且二者共用兼并套大脑。

---

一、为什么咱们需要一个"万能选手"?

在AI视觉鸿沟,有一类相等紧迫的任务叫作念"图像分割"——正常地说,等于让AI把画面中每一个像素都归类,精确地圈出"哪些像素属于猫咪"、"哪些像素属于配景"。这就好比一幅填色画,AI需要把每个区域都精确地涂上对应的脸色,而不单是是在画上贴一个标签说"这里有只猫"。

当今已有两类器用各自作念这件事。一类是特意生成高质料像素级蒙版的"分割基础模子",比如SAM和SAM2。SAM就像一把精确的好意思工刀,你用鼠标在图上点一个点,它就能把阿谁物体精确地裁出来。但问题是,它只意志鼠标点击、方框之类的"物理手势",统统不懂语言。你不成跟它说"帮我把视频里那只一直在白墙旁来去走动的东说念主圈出来"——它根底听不懂。

另一类是多模态大语言模子(不错把它探讨为"能看图的ChatGPT"),比如LLaVA、Qwen-VL等。这类模子语言探讨才能极强,你说什么它都能听懂,但它的输出是笔墨,不是精确的像素蒙版。它能告诉你"这张图里有一只橙色的猫坐在沙发上",却无法精确地圈出那只猫的每一根髯毛。

在这两类器用之间,有一批"缝合怪"式的商讨试图把二者合并,比如LISA、GLaMM等,它们让语言模子去驱动分割模子,竣事"用语言描摹、用像素呈现"的后果。可是这些模子大多只可处理静态图片,遭遇视频就无法可想;或者能处理视频,却不接济视觉教唆(也等于说,你没法用鼠标框一个区域告诉它"帮我跟踪这个东西")。

着实的痛点就在这里:莫得一个模子能同期作念到——探讨复杂语言指示、收受鼠标框选之类的视觉教唆、处理图片、处理视频,而况把统统这些任务搭伙在一个框架里,生成时刻上连贯的像素蒙版。X2SAM恰是为了填补这个空白而生。

---

二、X2SAM颖悟什么?一场秘密14种任务的"全科体检"

为了让读者有直不雅感受,不错把X2SAM想象成一位具备"全科才能"的视觉助手,它能收受各式时局的指示,然后在图片或视频上精确地圈出你眷注的本体。

这位助手能作念的事情,不错从图片和视频两个维度各列举七种才能来探讨。在图片维度,它不错作念通用分割(把图里统统东说念主、车、树都分类圈出来)、通达词汇分割(圈出大肆你说出名字的东西,包括它从没特意考试过的类别)、指代分割(把柄"左边阿谁穿红穿着的东说念主"这么的描摹圈出主义)、推理分割(把柄"能用来倒进玻璃杯里的东西"这么需要推测的描摹找到主义)、接地对话生成(一边描摹画面一边在对应的词语上标出蒙版)、交互式分割(你鼠标点一个点或画一个框,它就圈出阿谁区域)、视觉接地分割(你给它看一张参考图里的某个区域,它在主义图里找到对应物体并圈出来)。

在视频维度,这七种才能全部对应地蔓延过来,而且因为视频是连气儿的帧序列,每种才能还需要格外处理时刻上的连贯性——也等于说,第一帧圈出来的那只猫,在后续几十帧里也要被精确地合手续跟踪。

商讨团队还特意提倡了一项新任务:视频视觉接地分割(V-VGD)。这个任务的设定是这么的:你在视频的第一帧上用鼠标框出一个主义,系统需要自动跟踪这个主义,在通盘视频的每一帧里都生成精确的蒙版。这个任务莫得现成的数据集,商讨团队从两个已有的视频数据集(YT-VIS19和VIPSeg)开赴,构建了YT19-VGD和VIPSeg-VGD两个新数据集,并以此建造了V-VGD基准测试体系。

---

三、X2SAM是奈何责任的?一套协同配合的"视觉大脑"

X2SAM的里面结构不错用一个由四个中枢部件构成的团队来探讨,每个部件各司其职,却又紧密协调。

第一个部件是"全局视觉探讨大脑",由视觉编码器和大语言模子构成。商讨团队遴荐了Qwen3-VL-4B行动这个部件的基础,这是一个同期能看图和探讨语言的预考试模子。它认真把输入的图片或视频拯救成模子能探讨的语义示意,就像把一幅画翻译成一段扫视的笔墨描摹一样。当你给出一条指示——不管是"圈出左边阿谁拿雨伞的东说念主",照旧"找出视频里老是靠着白墙走来走去的阿谁东说念主"——这个大脑认真读懂你的意图,并产生一个特殊的指示信号,告诉后续的蒙版生成部件"你该去找什么"。这个指示信号等于所谓的"SEG潜在镶嵌",不错把它探讨为一张含有目口号义信息的"寻找令"。

第二个部件是"良好像素特征索要器",也等于蒙版编码器,它来自SAM2的架构。与大语言模子处理的"粗粒度"语义不同,蒙版编码器特意索要图像的高分辨率、细粒度特征——旯旮、纹理、局部时局这些信息。它就像一台高倍放大镜,特意盯着像素层面的细节,确保最终身成的蒙版旯旮裕如精确。

第三个部件是"蒙版解码器",认真把"寻找令"和像素特征合并,生成最终的二值蒙版(即每个像素属于主义照旧配景的判断)。商讨团队在这里作念了一项重要的翻新:引入了"Token-to-Image Attention"(词元到图像防备力)机制。正常地说,这个机制让语言模子产生的"寻找令"粗略平直与空间像素特征"对话",而不是只是行动一个外部条目附加进来。这么作念的后果是让语义信息和空间信息深度会通,生成的蒙版不仅时局准确,而且语义对王人更好。为了让这个新机制不破碎早期考试的老成性,商讨团队遴荐了"零开动化"战略,也等于说在考试最出手时这个机制的影响权重为零,跟着考试鼓励再渐渐阐扬作用——这就像新职工入职时先不雅察、再渐渐参与,而不是第一天就大刀阔斧地改历程。

第四个部件是本商讨最中枢的创新之一:蒙版挂念模块。这个模块特意责罚视频处理中的时刻连贯性问题。处理视频的挑战在于,视频是一帧一帧的,而且相邻帧之间的本体变化可能很奥妙,也可能很剧烈。如若每一帧都闲散处理,生成的蒙版陆续会"抖动"——前一帧把东说念主圈准了,后一帧蒙版顷刻间偏移,看起来像是在精明,极不老成。

蒙版挂念模块的责任历程分四步进行,变成一个轮回。当处理视频的某一帧时,它着手通过"挂念防备力"机制追忆如故处理过的历史帧的视觉特征,将历史信息与面前帧的视觉特征会通,生成时刻上连贯的视觉示意。接着,蒙版解码器应用这个经过时刻加权的示意生成面前帧的蒙版。蒙版生成后,"挂念编码器"把面前帧的视觉特征和蒙版瞻望终局合并,压缩成一个"劝诱视觉特征"存入挂念库。挂念库遴荐先进先出(FIFO)的战略经管存储空间——最多保存最近若干帧的信息,超出容量时自动丢弃最旧的帧。这就像一个东说念主在看连气儿剧时,脑子里会自动保留最近几集的情节来匡助探讨面前剧情,而不会无终局地记取每一集的每一个细节。

消融现实(即逐项考据各个组件后果的现实)闪现,只加入单法式的肤浅挂念特征进步有限,而加入蒙版劝诱和类别劝诱信息、以及多法式特征后,视频指代分割的J&F目的从53.6大幅跳升至65.0,视频推理分割也从36.5升至53.5。这标明,让挂念模块"记取的不单是画面,还有之前圈出来的蒙版时局和语义类别",才是时刻连贯性的着实重要所在。

此外,商讨团队还瞎想了一个"区域采样器",用于处理视觉教唆(即用户用鼠标在画面上点击或框选的区域)。它的责任旨趣是在用户指定的感酷爱酷爱区域内进行点采样,然后通过自适合池化会聚成紧凑的区域级示意,注入到大语言模子中,让模子知说念"用户关注的是这个特定区域"。这个模块莫得可学习参数,既轻量又高效。

---

四、X2SAM是奈何考试出来的?一套悉心瞎想的"搭伙考试食谱"

考试一个同期处理图片和视频、秘密14种任务的模子,濒临的最大挑战之一是缱绻资源经管。图片和视频的内存破钞互异极大——一个视频片断可能包含8帧以致更多,内存占用是单张图片的数倍。如若肤浅地把图片和视频混在一说念考试,要么内存爆炸,要么遵守极低。

商讨团队的考试分两个阶段进行。第一阶段叫作念"无类别分割器考试",目的是让蒙版解码器在战争任何语言指示之前,先学会隧说念的时局和界限感知才能。考试数据使用SAM的SA-1B数据荟萃的蒙版标注,米兰体育2026世界杯指定中国官网统统不波及任何类别标签,让解码器只关注"这个区域的概述是什么样的"。这一步就像在教一个画家先练好素描基础,再谈色和谐本体。消融现实标明,使用SAM圆善的1B数据集(而非子集或COCO数据集)考试这个阶段,能在果真统统后续任务上都赢得更好的后果。

第二阶段是中枢的"搭伙搭伙考试",在图片和视频的夹杂数据上同期考试统统14种任务。为了责罚图片和视频内存破钞不合称的问题,商讨团队瞎想了一套"维度拯救活水线":关于视频输入,将时刻维度和批次维度作念转置,把一个包含T帧的视频拆解为T张闲散的图片,用兼并套图片级接口通过蒙版编码器处理,然后通过蒙版挂念模块串联起时刻依赖相关,临了再把T帧的蒙版沿时刻维度拼接回首。这么作念的妙处在于,蒙版编码器不需要感知"它在处理视频",只需要处理一张张图片,大大裁减了工程复杂度。

批次经管上,视频数据的每开拓批次大小固定为1,图片数据则通过批次乘数蔓延为4倍,从而在疏浚的内存预算下让图片数据的GPU应用率更高。梯度积贮战略也把柄模态分开建树:图片每步更新一次,视频则积贮多步后再更新,进一步均衡内存与考试老成性。此外,一个特意瞎想的"时刻感知采样器"把时刻长度疏浚的视频片断分到兼并批次,幸免无须要的填充。

最终,搭伙搭伙考试仅需约3300 GPU小时,而对照现实中的"肤浅搭伙考试"需要约5200 GPU小时——节俭了约36.5%的考试资本,同期在视频任务上还赢得了更好的性能。

---

五、X2SAM的现实收获单:在哪些地方阐扬杰出?

商讨团队在大都基准测试上对X2SAM进行了评估,与现存的专用模子和通用模子进行对比。

在图片分割任务上,X2SAM与雷同基于图片的通用模子X-SAM比拟总体保合手竞争力。在图片通用分割(COCO全景分割PQ 54.1、实例分割mAP 45.8)和指代分割(RefCOCOg考据集cIoU 81.9,创下新的最优收获)上阐扬妥当。终点值得防备的是,在图片通达词汇分割任务上,X2SAM赢得了31.2 PQ,剖释高于X-SAM的20.9 PQ,讲明X2SAM的语言探讨才能带来了更强的泛化才能。在推理分割任务上,X2SAM以64.5 cIoU和71.1 gIoU的收获突出了HyperSeg(分离跳跃7.8和11.9个百分点),在测试集的短问题和长问题子集上都赢得了其时最优收获。

在视频分割任务上,X2SAM的上风更为显赫。在视频指代分割任务中,X2SAM在Ref-YT21数据集上赢得了78.5 J&F,在Ref-DV17数据集上赢得了79.0 J&F,突出了此前着手的UniPixel-7B分离7.5和2.6个百分点。在视频推理分割方面,X2SAM在ReVOS数据集上赢得了69.9 J&F,比HyperSeg跳跃14.2个百分点,以致突出了特意针对视频指代任务瞎想的ReferFormer-B专用模子。在视频接地对话生成任务上,X2SAM的mIoU为75.8,比VideoGLaMM跳跃21.5个百分点,差距格外显赫。

在视觉接地分割任务上,X2SAM在图片端与专用图片模子X-SAM格外(COCO点教唆AP 45.9,框教唆AP 48.5),在视频端则大幅突出了SAM2-H。具体来说,在YT-VIS19数据集的框教唆建树下,X2SAM赢得了74.4 AP,而SAM2-H仅为54.0 AP;在更复杂的VIPSeg数据集上,X2SAM赢得了57.8 AP,SAM2-H仅为40.4 AP。这一差距充分讲明,迎面对需要语言探讨和时刻跟踪双重才能的任务时,隧说念依赖初级视觉教唆的SAM2存在剖释短板。

在域外泛化测试(即用从未见过的数据集测试)中,X2SAM在gRefCOCO(包含多主义和无主义抒发式的泛化指代分割数据集)上突出了专用的非MLLM模子ReLA,也突出了PSALM和X-SAM等MLLM通用模子。在ADE20K的通达词汇分割测试中,X2SAM赢得了31.2 PQ、38.2 mIoU和20.2 mAP,全面突出ODISE和X-SAM等对比秩序。

此外,X2SAM还保留了出色的图片和视频对话才能,在MMBench、SEED-Bench等图片对话基准测试上赢得了83.5和76.0的收获,在VideoMME、MVBench、MLVU、LongVideoBench等视频对话基准测试上也阐扬优异,突出了Video-LLaVA、VideoChat2、VILA-1.5等专注对话的模子。这讲明在为模子加入良好分割才能时,团队灵验地腐朽了模子的通用对话才能退化。

---

六、X2SAM当今还有哪些不及和昔日场所?

任何商讨都有其界限,X2SAM也不例外。商讨团队在论文中坦诚地指出了三点局限性。

第一,跨模态的搭伙考试仍然缱绻支拨较大,尤其是视频数据的内存占用问题,即便有了现存的优化战略,考试资本依然不低,这关于资源有限的商讨团队来说是一个门槛。

第二,固定大小的FIFO挂念库关于超长视频来说可才能不从心。如若主义在视频中阅历了永劫刻阻滞、剧烈外不雅变化,或者散失很久后又再行出现,有限容量的挂念模块可能无法灵验保存重要的历史信息,导致跟踪失败。

第三,行动一个通用模子,X2SAM在某些高度特意化的单一任务上仍然过期于专用模子——比如专注于视频对象分割的SAM2-H,在YT-VOS19上的J&F为88.8,而X2SAM为74.0。这是通用性与专科性之间不朽的量度遴选。

商讨团队示意,昔日责任将探索更高效的考试秩序、更轻量的主干收集,以及自适合的永劫程挂念机制,以期在可蔓延性和鲁棒性上进一步进步。

---

归根结底,X2SAM这项责任的中枢价值在于解说了一件事:让AI同期看懂图片和视频、同期收受语言和视觉教唆、同期处理从通用分类到复杂推理的各式任务,并不需要七八套闲散的系统免强在一说念——一个搭伙的框架,加上悉心瞎想的挂念机制和考试战略,就不错作念到。这种"大一统"的想路,不仅在工程上更整洁,在性能上也莫得付出剖释的代价,在许多任务上反而因为跨任务的学问分享而有所增益。

对正常用户而言,这意味着昔日的AI视觉助手可能会变得愈加万能——你不错平直对着监控视频说"帮我跟踪阿谁红色背包的东说念主",或者对着一段家庭视频说"把两个孩子分离圈出来并标注他们的畅通轨迹",系统会当然地探讨你的意图并生成精确的时刻连贯蒙版,而不需要你先选模子、再选任务、再分离操作。

虽然,从商讨原型到日常可用的居品,还有格外长的路要走,但X2SAM的出现标明这条路的场所是知晓的。有酷爱酷爱深刻了解期间细节的读者,不错通过arXiv编号2605.00891查阅圆善论文,代码也已在GitHub上以wanghao9610/X2SAM的地址开源。

---

Q&A

Q1:X2SAM和SAM2有什么区别,为什么对抗直用SAM2?

A:SAM2是一个优秀的分割器用,但它只意志鼠标点击和方框这类"物理教唆",统统不睬解语言。你没法跟SAM2说"圈出视频里一直在白墙旁走动的东说念主",它听不懂。X2SAM在SAM2的基础上加入了大语言模子,能探讨复杂的笔墨描摹以致需要推理的指示,同期通过蒙版挂念模块保合手视频中的时刻连贯性。两者的适用场景不同,SAM2更像一把精确的剪刀,X2SAM更像一个能听懂指示的智能编订助手。

Q2:X2SAM的蒙版挂念模块是奈何保证视频中主义不丢失的?

A:蒙版挂念模块咨嗟着一个"曲折挂念库",保存最近若干帧(默许6帧)的视觉特征和蒙版信息。处理每一帧时,系统会先追忆这些历史记载,把历史信息与面前帧会通,生成时刻上连贯的特征,再据此生成蒙版。处理完后,面前帧的信息又被存入挂念库,最旧的帧被自动丢弃。这种"上前看历史、向后传气象"的机制灵验幸免了逐帧闲散处理时产生的蒙版抖动和主义丢失问题。

Q3:X2SAM需要若干GPU才能考试,正常商讨团队能用吗?

A:X2SAM的圆善考试在32块NVIDIA H800 GPU上进行米兰体育MILAN SPORTS,搭伙搭伙考试阶段认为约破钞3300 GPU小时。这对大多数高校现实室来说照实是不小的门槛。不外商讨团队如故开源了代码和模子权重,正常商讨东说念主员不错平直使用预考试好的模子进行推理或在少量据集上微调,不需要重新复现圆善考试历程。

开云kaiyun中国手机APP下载

首页 | 米兰首页 | 关于米兰 | 米兰体育 | 米兰电竞 | 米兰棋牌 | 米兰世界杯 | 米兰app下载 |

Copyright © 1998-2026 米兰体育2026世界杯指定中国官网™版权所有

shcfpy.com备案号 备案号: 

技术支持:®米兰体育2026世界杯 RSS地图 HTML地图