IT之家 4 月 23 日音讯,科技媒体 marktechpost 昨日(4 月 22 日)发布博文,报导称英伟达最新推出 Eagle 2.5,一款专心于长上下文多模态学习的视觉-言语模型(VLM)。
该模型专心于了解大规划视频和图画,特别拿手处理高分辨率图画和长视频序列。虽然参数规划仅为 8B,Eagle 2.5 在 Video-MME 基准测验(512 帧输入)中得分高达 72.4%,比美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规划模型。
立异练习战略
Eagle 2.5 的成功离不开两项要害练习战略:信息优先采样(Information-First Sampling)和渐进式后练习(Progressive Post-Training)。
信息优先采样经过图画区域保存(IAP)技能,保存超越 60% 的原始图画区域,一起削减宽高比失真;主动降级采样(ADS)则依据上下文长度动态平衡视觉和文本输入,保证文本完整性和视觉细节的优化。
渐进式后练习逐渐扩展模型上下文窗口,从 32K 到 128K token,让模型在不同输入长度下保持安稳功能,防止过拟合单一上下文规模。这些战略结合 SigLIP 视觉编码和 MLP 投影层,保证了模型在多样化使命中的灵活性。
定制数据集
Eagle 2.5 的练习数据管道,整合了开源资源和定制数据集 Eagle-Video-110K,该数据集专为了解长视频规划,选用两层标示办法。
自上而下的办法选用故事级切割,结合人类标示章节元数据、GPT-4 生成的密布描绘;自下而上的办规律使用 GPT-4o 为短片段生成问答对,抓取时空细节。
经过余弦类似度(cosine similarity)挑选,数据集着重多样性而非冗余,保证叙事连贯性和细粒度标示,明显提高了模型在高帧数(≥128 帧)使命中的体现。
功能体现
Eagle 2.5-8B 在多项视频和图画了解使命中体现出色。在视频基准测验中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图画基准测验中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。
融化研讨(Ablation studies)标明,IAP 和 ADS 的移除会导致功能下降,而渐进式练习和 Eagle-Video-110K 数据集的参加则带来更安稳的提高。
IT之家附上参阅地址
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
GitHub 页面
项目页面
男子张某因在网上看到偷拍别人隐私的违法视频,心生邪念,网购了摄像头悄悄装在自家租借房内,窃视情侣租客日子。10月15日上午9点,张某因涉嫌不合法侵入住所罪,在北京丰台法院受审。张某在法庭上表明认罪认罚...
“这不是我第一次来到这座美丽的城市。我第一次来这儿的时分,是为了一对美丽的大熊猫,它们现在生活在莫斯科动物园。”11月25日,“全球熊猫同伴四川行”活动在成都发动,再次来到成都的俄罗斯莫斯科动物园园长...
00:18近来,贵州贵阳。黔灵山山公与男人在一个包包的拉链问题上“极限拉扯”,僵持不下,摆开~关上~摆开~关上~,谁也不让谁。网友:心情都挺安稳的!告发/反应...
中美科技竞赛趋于白热化,美国频出狠招,约束对华技能出口,AI芯片商场封闭尤为杰出。然我国不再隐忍,强势出手,显示科技大志与强国毅力,一场触目惊心的科技博弈拉开大幕。
来历:咱们的旧事中美科技竞赛趋于白热化,美国频出狠招,约束对华技能出口,AI芯片商场封闭尤为杰出。然我国不再隐忍,强势出手,显示科技大志与强国毅力,一场触目惊心的科技博弈拉开大幕。我国五策:工业逆袭之...
新进展!我国确定网攻武汉地震监测中心黑手,美奥秘侦办系统将被曝光《环球时报》记者14日得悉,针对武汉市应急办理局地震监测中心的网络进犯事情,国家计算机病毒应急处理中心和360公司组成的联合调查组已获得...
“当年我十八,他十九,我属鸡,他属猴,进大学没俩月就谈上了爱情。我爸一提起这事儿就忧心如焚:老话说,鸡猴不到头儿。你们啊,哎……忧虑归忧虑,李咏终究仍是凭他那张能说会道的小嘴儿,把我们全家顺畅拿下。”...