英伟达发布 Eagle 2.5 视觉言语 AI 模型:8B 参数比美 GPT-4o

liukang20244个月前吃瓜快乐144

IT之家 4 月 23 日音讯,科技媒体 marktechpost 昨日(4 月 22 日)发布博文,报导称英伟达最新推出 Eagle 2.5,一款专心于长上下文多模态学习的视觉-言语模型(VLM)。

英伟达发布 Eagle 2.5 视觉语言 AI 模型:8B 参数媲美 GPT-4o的视图

该模型专心于了解大规划视频和图画,特别拿手处理高分辨率图画和长视频序列。虽然参数规划仅为 8B,Eagle 2.5 在 Video-MME 基准测验(512 帧输入)中得分高达 72.4%,比美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规划模型。

立异练习战略

Eagle 2.5 的成功离不开两项要害练习战略:信息优先采样(Information-First Sampling)和渐进式后练习(Progressive Post-Training)。

信息优先采样经过图画区域保存(IAP)技能,保存超越 60% 的原始图画区域,一起削减宽高比失真;主动降级采样(ADS)则依据上下文长度动态平衡视觉和文本输入,保证文本完整性和视觉细节的优化。

渐进式后练习逐渐扩展模型上下文窗口,从 32K 到 128K token,让模型在不同输入长度下保持安稳功能,防止过拟合单一上下文规模。这些战略结合 SigLIP 视觉编码和 MLP 投影层,保证了模型在多样化使命中的灵活性。

绚丽的英伟达发布 Eagle 2.5 视觉语言 AI 模型:8B 参数媲美 GPT-4o的图像

定制数据集

Eagle 2.5 的练习数据管道,整合了开源资源和定制数据集 Eagle-Video-110K,该数据集专为了解长视频规划,选用两层标示办法。

自上而下的办法选用故事级切割,结合人类标示章节元数据、GPT-4 生成的密布描绘;自下而上的办规律使用 GPT-4o 为短片段生成问答对,抓取时空细节。

经过余弦类似度(cosine similarity)挑选,数据集着重多样性而非冗余,保证叙事连贯性和细粒度标示,明显提高了模型在高帧数(≥128 帧)使命中的体现。

功能体现

英伟达发布 Eagle 2.5 视觉语言 AI 模型:8B 参数媲美 GPT-4o的图片

Eagle 2.5-8B 在多项视频和图画了解使命中体现出色。在视频基准测验中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图画基准测验中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。

融化研讨(Ablation studies)标明,IAP 和 ADS 的移除会导致功能下降,而渐进式练习和 Eagle-Video-110K 数据集的参加则带来更安稳的提高。

IT之家附上参阅地址

  • Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

  • GitHub 页面

  • 项目页面

告发/反应

相关文章

美国政府逼迫沙特阿美基金撤资AI芯片企业

每经AI快讯,美国彭博新闻社11月30日报导,美国政府已逼迫沙特阿美公司旗下的一家风险投资组织出售所持硅谷一家人工智能(AI)芯片草创企业的股份。 这家草创企业名为“雨水神经态学公司”,股东包含美国敞...

数据中心项目放缓?亚马逊否定、英伟达帮腔:只看到AI用电需求增加

亚马逊和供货商英伟达一同辩驳科技巨子放缓乃至吊销部分人工智能(AI)数据中心项目的风闻。当地时间4月24日周四,在美国俄克拉荷马州立大学研究所哈姆美国动力研究所主办的会议上,亚马逊和英伟达的高管标明,...

AI大模型支撑85种言语翻译,讯飞翻译机4.0星火版上市|科技前哨

11月5日,讯飞翻译机4.0星火版宣告开售,该版别搭载了讯飞自研的星火大模型才能。此前,在2024开发者大会上科大讯飞对外发布了星火大模型4.0 Turbo。依据实在数据背靠背的测验,星火大模型4.0...

“AI数据中心泡沫论”被敏捷验证?这份陈述“砸崩”英伟达,微软被曝抛弃在美欧的新数据中心项目

美东时刻3月26日(周三)早间,TD证券旗下投行和金融服务组织TD Cowen发布陈述称,因核算机集群供给过剩,微软已抛弃在美欧算计耗电2GW的新数据中心项目。受此影响,隔夜美股芯片股以身许国大跌,费...

亚马逊与英伟达高管齐声:AI数据中心建造热度未见放缓

亚马逊和英伟达高管都表明,人工智能数据中心的建造并未放缓。因为对经济衰退的忧虑,一些投资者曾质疑科技公司是否会减缩部分方案。 当地时间周四,在哈姆美国能源研究院主办的会议上,亚马逊AWS的全球数据中心...

看了AI画的鱼香肉丝,网友愣住了……

最近双语君搞了个AI内测账号,每天沉迷于请AI作画。下边是几张双语君请AI画的画,咱们猜猜都输入了什么关键词?答案五彩斑斓的黑答案鱼香肉丝答案过桥米线就在曩昔这几个月里,以ChatGPT为典型的一类“...

友情链接: