当前位置:首页焦点>智源研究院解模型Vi开源轻量级超长视频了

智源研究院解模型Vi开源轻量级超长视频了

+关注

  近来 ,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2 。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破 ,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机  。

  在技能架构方面 ,视频Video-XL-2首要由视觉编码器 、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成。智源该模型选用SigLIP-SO400M作为视觉编码器 ,研究院开源轻对输入视频进行逐帧处理,量级将每一帧编码为高维视觉特征 。超长随后  ,视频DTS模块对这些视觉特征进行交融紧缩,解模并建模其时序联系,智源以提取更具语义的研究院开源轻动态信息 。处理后的量级视觉表征经过均匀池化与多层感知机(MLP)进一步映射到文本嵌入空间,完结模态对齐 。终究,对齐后的视觉信息输入至Qwen2.5-Instruct ,以完结对视觉内容的了解与推理,并完结相应的下流使命。

  在练习战略上,Video-XL-2选用了四阶段渐进式练习的规划,逐渐构建其强壮的长视频了解能力。前两个阶段首要运用图画/视频-文本对,完结DTS模块的初始化与跨模态对齐;第三阶段则引进更大规划、更高质量的图画与视频描绘数据,开始奠定模型对视觉内容的了解能力;第四阶段 ,在大规划、高质量且多样化的图画与视频指令数据上进行微调 ,使Video-XL-2的视觉了解能力得到进一步提高与强化 ,然后能够更精确地了解和呼应杂乱的视觉指令 。

  此外,Video-XL-2还系统性规划了功率优化战略。它引进了分段式的预装填战略(Chunk-based Prefilling)  ,将超长视频划分为若干接连的片段(chunk),在每个chunk内部运用稠密注意力机制进行编码,而不同chunk之间则经过时刻戳传递上下文信息 ,显着降低了预装填阶段的计算成本与显存开支。一起,Video-XL-2还规划了依据双粒度KV的解码机制(Bi-granularity KV Decoding) ,在推理过程中 ,模型会依据使命需求 ,挑选性地对要害片段加载完好的KVs(dense KVs) ,而对其他非必须片段仅加载降采样后的稀少的KVs(sparse KVs),有用缩短了推理窗口长度 ,然后大幅提高解码功率。得益于这些战略的协同优化  ,Video-XL-2完结了在单张显卡上对万帧级视频的高效推理,显着增强了其在实践使用场景中的实用性  。

  在试验作用方面 ,Video-XL-2在MLVU 、VideoMME和LVBench等干流长视频评测基准上全面逾越现有一切轻量级开源模型 ,达到当时最早进功能(SOTA),相较第一代Video-XL完结了显着提高。特别值得重视的是 ,在MLVU和LVBench上 ,Video-XL-2的功能已挨近乃至逾越了如Qwen2.5-VL-72B和LLaVA-Video-72B等参数规划高达720亿的大模型。此外 ,在时序定位(Temporal Grounding)使命中 ,Video-XL-2也在Charades-STA数据集上取得了抢先的成果 ,进一步验证了其在多模态视频了解场景中的广泛适用性与实践价值 。

  在视频长度方面,Video-XL-2展现出显着优势 。在单张24GB消费级显卡(如RTX3090/4090)上 ,Video-XL-2可处理长达千帧的视频;而在单张80GB高功能显卡(如A100/***)上 ,模型更支撑万帧级视频输入 ,远超现有干流开源模型 。相较于VideoChat-Flash和初代Video-XL,Video-XL-2显着拓宽了视频了解的长度并有用降低了资源需求,为处理杂乱的视频使命供给了有力的支撑 。

  在速度上 ,Video-XL-2也展现出杰出功能。仅需12秒即可完结2048帧视频的预填充,其预填充时刻与输入帧数之间呈现出近似线性增加 ,表现了其超卓的可扩展性。相比之下,Video-XL与VideoChat-Flash在输入长视频条件下的工作功率显着落后于Video-XL-2 。

  得益于超卓的视频了解能力与对超长视频的高效处理功能,Video-XL-2在多种实践使用场景中展现出很高的使用潜力。例如 ,在影视内容剖析方面,它能够快速精确地了解电影情节,答复相关问题;在监控视频中 ,它能够检测反常行为并宣布安全预警;此外 ,它还能够用于影视作品的内容总结以及游戏直播内容的剖析等使命,为实践国际中的杂乱视频了解需求供给高效、精准的技能支撑 。

  现在,Video-XL-2的模型权重已全面向社区敞开 ,项目主页 、模型链接和库房链接均已发布 ,未来该模型有望在更多实践场景中发挥重要作用,推进长视频了解技能的进一步开展。

分享到

0个赞
钓友回复84条
中国移动与中兴通讯共建“联创+”自智网络敞开实验室
432小时前举报回复

中国移动与中兴通讯共建“联创+”自智网络敞开实验室

微软 Edit 1.20 编辑器发布:文件对话框主动补全称号,支撑 Ctrl+C / V 仿制整行
51527小时前举报回复

微软 Edit 1.20 编辑器发布:文件对话框主动补全称号,支撑 Ctrl+C / V 仿制整行

微软供认 6 月 Win10 累积更新导致 Surface Hub v1 开机毛病
2355小时前举报回复

微软供认 6 月 Win10 累积更新导致 Surface Hub v1 开机毛病

高考完毕换新机 三星 Galaxy S25 系列敞开硬核智能体会
165小时前举报回复

高考完毕换新机 三星 Galaxy S25 系列敞开硬核智能体会

《财富》发布 2025 我国最具影响力商界女人榜 ,董明珠 16 年来初次落选
215小时前举报回复

《财富》发布 2025 我国最具影响力商界女人榜 ,董明珠 16 年来初次落选

北京大兴瀛海镇“瀛”麦相承小麦丰盈开镰 奏响农文旅交融新乐章
4513小时前举报回复

北京大兴瀛海镇“瀛”麦相承小麦丰盈开镰 奏响农文旅交融新乐章

随时查看新帖子
安装安卓版钓鱼人安装iOS版钓鱼人
精彩渔获
国货护肤品牌林清轩IPO�
:虚伪宣扬成惯犯	,公司陷扩张窘境国货护肤品牌林清轩IPO :虚伪宣扬成惯犯 ,公司陷扩张窘境
微软 Edge 浏览器 137 稳定版更新	,新增企业级安全暗码同享功用微软 Edge 浏览器 137 稳定版更新 ,新增企业级安全暗码同享功用
思必驰 AI 技能赋能	,钉钉线下会议室更“聪明”思必驰 AI 技能赋能 ,钉钉线下会议室更“聪明”
6 月 17 日晚 8 点逛京东购联想 50 系台式电脑 享国补立省 20%6 月 17 日晚 8 点逛京东购联想 50 系台式电脑 享国补立省 20%
央视曝黄牛抢票产业链
:软件模仿真人操作,还有“速通插件”央视曝黄牛抢票产业链 :软件模仿真人操作,还有“速通插件”
杭州牵手吉祥沃飞漫空,华东区域总部项目落地萧山杭州牵手吉祥沃飞漫空,华东区域总部项目落地萧山
“扁担女孩”高考后走红网络,抖音处置 26 个仿冒账号“扁担女孩”高考后走红网络,抖音处置 26 个仿冒账号
思必驰 AI 技能赋能,钉钉线下会议室更“聪明”思必驰 AI 技能赋能,钉钉线下会议室更“聪明”
吉祥帝豪全球400万留念款行将上市吉祥帝豪全球400万留念款行将上市
岚图轿车:FREE+ 车型支撑 HSpace岚图轿车:FREE+ 车型支撑 HSpace
“佳游吧少年”佳能亲子研学营湖州站探秘航天,科技文明“印”领生长之旅“佳游吧少年”佳能亲子研学营湖州站探秘航天,科技文明“印”领生长之旅
汉酱杯东部赛区落幕 潘文君孟繁雄王浩全胜别离夺冠汉酱杯东部赛区落幕 潘文君孟繁雄王浩全胜别离夺冠
国货护肤品牌林清轩IPO	:虚伪宣扬成惯犯,公司陷扩张窘境国货护肤品牌林清轩IPO  :虚伪宣扬成惯犯 ,公司陷扩张窘境
“扁担女孩”高考后走红网络	,抖音处置 26 个仿冒账号“扁担女孩”高考后走红网络  ,抖音处置 26 个仿冒账号
苹果承认极少数 M2 Mac Mini 呈现无法开机问题,将免费供给检修服务苹果承认极少数 M2 Mac Mini 呈现无法开机问题,将免费供给检修服务
国家数据局领导莅临西井科技调研国家数据局领导莅临西井科技调研
我国工联院联合浪潮 KaiwuDB 等单位编写《工业数据库规范》系列规范�,推动工业数字底座建造我国工联院联合浪潮 KaiwuDB 等单位编写《工业数据库规范》系列规范 ,推动工业数字底座建造
国家数据局领导莅临西井科技调研国家数据局领导莅临西井科技调研
国家数据局领导莅临西井科技调研国家数据局领导莅临西井科技调研
杭州牵手吉祥沃飞漫空,华东区域总部项目落地萧山杭州牵手吉祥沃飞漫空,华东区域总部项目落地萧山
Epic游戏商城本周免费赠送《Figment》和《Backpack Hero》Epic游戏商城本周免费赠送《Figment》和《Backpack Hero》
“扁担女孩”高考后走红网络,抖音处置 26 个仿冒账号“扁担女孩”高考后走红网络,抖音处置 26 个仿冒账号
Wine 10.10 兼容层发布
:更新 Mono 引擎,修正多款游戏 BugWine 10.10 兼容层发布 :更新 Mono 引擎 ,修正多款游戏 Bug
陈思诚张小斐《歹意》曝“滨江恶母”预告 善恶回转本相难明陈思诚张小斐《歹意》曝“滨江恶母”预告 善恶回转本相难明
雷军:小米轿车已在纽北租借办公室,纽北广告牌空出来就抢雷军 :小米轿车已在纽北租借办公室,纽北广告牌空出来就抢
苹果承认极少数 M2 Mac Mini 呈现无法开机问题
�,将免费供给检修服务苹果承认极少数 M2 Mac Mini 呈现无法开机问题 ,将免费供给检修服务
降价就会质量差�? 通明竞赛性下车企竞赛谁获益谁受伤【车圈层】降价就会质量差? 通明竞赛性下车企竞赛谁获益谁受伤【车圈层】
比亚迪仰视U7正式敞开交给比亚迪仰视U7正式敞开交给
经典重演:何小鹏化身偷“芯”奸细,打造全球首款 L3 级算力轿车“小鹏 G7”经典重演:何小鹏化身偷“芯”奸细 ,打造全球首款 L3 级算力轿车“小鹏 G7”
学长学姐助阵自愿填写
:联想五重助学福利 618 惊喜敞开,最高省 4000 元学长学姐助阵自愿填写 :联想五重助学福利 618 惊喜敞开 ,最高省 4000 元
签到反馈意见向上