IT之家 4 月 23 日音讯,科技媒体 marktechpost 昨日(4 月 22 日)发布博文,报导称英伟达最新推出 Eagle 2.5,一款专心于长上下文多模态学习的视觉-言语模型(VLM)。
该模型专心于了解大规划视频和图画,特别拿手处理高分辨率图画和长视频序列。虽然参数规划仅为 8B,Eagle 2.5 在 Video-MME 基准测验(512 帧输入)中得分高达 72.4%,比美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规划模型。
立异练习战略
Eagle 2.5 的成功离不开两项要害练习战略:信息优先采样(Information-First Sampling)和渐进式后练习(Progressive Post-Training)。
信息优先采样经过图画区域保存(IAP)技能,保存超越 60% 的原始图画区域,一起削减宽高比失真;主动降级采样(ADS)则依据上下文长度动态平衡视觉和文本输入,保证文本完整性和视觉细节的优化。
渐进式后练习逐渐扩展模型上下文窗口,从 32K 到 128K token,让模型在不同输入长度下保持安稳功能,防止过拟合单一上下文规模。这些战略结合 SigLIP 视觉编码和 MLP 投影层,保证了模型在多样化使命中的灵活性。
定制数据集
Eagle 2.5 的练习数据管道,整合了开源资源和定制数据集 Eagle-Video-110K,该数据集专为了解长视频规划,选用两层标示办法。
自上而下的办法选用故事级切割,结合人类标示章节元数据、GPT-4 生成的密布描绘;自下而上的办规律使用 GPT-4o 为短片段生成问答对,抓取时空细节。
经过余弦类似度(cosine similarity)挑选,数据集着重多样性而非冗余,保证叙事连贯性和细粒度标示,明显提高了模型在高帧数(≥128 帧)使命中的体现。
功能体现
Eagle 2.5-8B 在多项视频和图画了解使命中体现出色。在视频基准测验中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图画基准测验中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。
融化研讨(Ablation studies)标明,IAP 和 ADS 的移除会导致功能下降,而渐进式练习和 Eagle-Video-110K 数据集的参加则带来更安稳的提高。
IT之家附上参阅地址
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
GitHub 页面
项目页面
“这不是我第一次来到这座美丽的城市。我第一次来这儿的时分,是为了一对美丽的大熊猫,它们现在生活在莫斯科动物园。”11月25日,“全球熊猫同伴四川行”活动在成都发动,再次来到成都的俄罗斯莫斯科动物园园长...
新京报讯 12月28日,电视剧《抱负之城》杀青,发布15位个人人物剧照。《抱负之城》是由刘进执导,孙俪、赵又廷领衔,于和伟、陈明昊、杨逾越、刘奕畅、高叶、李传缨等主演的都市职场剧 ,改编自如花燃燃所著...
散步,有媒体报道称,香港歌手郑欣宜将承继已故母亲沈殿霞留下的6千万元港币的遗产,约合人民币5086万元,身价瞬间飙升。5月30日,郑欣宜也在这叫平台上发文晒照,标明今日是她35岁生日,并谢谢所有人的祝...
自赖清德上台以来,动用多种手段冲击岛内在野实力和政治异己,恫吓对立“台独”分裂、不满“去我国化”操弄、要求改进两岸关系的各界人士,大搞“绿色威权”,妄图进一步限缩两岸沟通、禁闭台湾公民,引发各界忧虑与...
目录一、量子的界说及特性1.1 量子叠加1.2 量子羁绊1.3 量子去相干二、量子霸权年代降临2.1 第2次量子科技革新2.2 全球量子科技比赛三、量子核算3.1 量子核算的界说及优势3.2 量子核算...
00:12近来,北京海关所属首都机场海关关员在对入境旅客行李进行监管时,发现一名挑选无申报通道通关的旅客行李过机图画存在反常。经关员开箱查验,在该旅客行李箱中抄获濒危鳄鱼标本1件。据旅客自述,上述标本...