IT之家 4 月 23 日音讯,科技媒体 marktechpost 昨日(4 月 22 日)发布博文,报导称英伟达最新推出 Eagle 2.5,一款专心于长上下文多模态学习的视觉-言语模型(VLM)。
该模型专心于了解大规划视频和图画,特别拿手处理高分辨率图画和长视频序列。虽然参数规划仅为 8B,Eagle 2.5 在 Video-MME 基准测验(512 帧输入)中得分高达 72.4%,比美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规划模型。
立异练习战略
Eagle 2.5 的成功离不开两项要害练习战略:信息优先采样(Information-First Sampling)和渐进式后练习(Progressive Post-Training)。
信息优先采样经过图画区域保存(IAP)技能,保存超越 60% 的原始图画区域,一起削减宽高比失真;主动降级采样(ADS)则依据上下文长度动态平衡视觉和文本输入,保证文本完整性和视觉细节的优化。
渐进式后练习逐渐扩展模型上下文窗口,从 32K 到 128K token,让模型在不同输入长度下保持安稳功能,防止过拟合单一上下文规模。这些战略结合 SigLIP 视觉编码和 MLP 投影层,保证了模型在多样化使命中的灵活性。
定制数据集
Eagle 2.5 的练习数据管道,整合了开源资源和定制数据集 Eagle-Video-110K,该数据集专为了解长视频规划,选用两层标示办法。
自上而下的办法选用故事级切割,结合人类标示章节元数据、GPT-4 生成的密布描绘;自下而上的办规律使用 GPT-4o 为短片段生成问答对,抓取时空细节。
经过余弦类似度(cosine similarity)挑选,数据集着重多样性而非冗余,保证叙事连贯性和细粒度标示,明显提高了模型在高帧数(≥128 帧)使命中的体现。
功能体现
Eagle 2.5-8B 在多项视频和图画了解使命中体现出色。在视频基准测验中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图画基准测验中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。
融化研讨(Ablation studies)标明,IAP 和 ADS 的移除会导致功能下降,而渐进式练习和 Eagle-Video-110K 数据集的参加则带来更安稳的提高。
IT之家附上参阅地址
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
GitHub 页面
项目页面
每日经济新闻
每经AI快讯,美国彭博新闻社11月30日报导,美国政府已逼迫沙特阿美公司旗下的一家风险投资组织出售所持硅谷一家人工智能(AI)芯片草创企业的股份。 这家草创企业名为“雨水神经态学公司”,股东包含美国敞...
当地时间4月24日周四,在美国俄克拉荷马州立大学研究所哈姆美国动力研究所主办的会议上,亚马逊和英伟达的高管标明,AI数据中心的建造并未放缓。相反,他们只发现,源于AI的用电需求在增加。
亚马逊全球数据中心的副总裁Kevin Miller标明,亚马逊的数据中心方案并没有太大的改变。他说:
“实际上并没有明显的改变。咱们持续看到十分微弱的需求,从未来几年以及长时间来看,咱们估计需求的数字只会上升。”
英伟达的企业可持续发展高档总监Josh Parker标明,英伟达也没有看到任何放缓的痕迹,称“咱们还未看到任何回撤。”
本年1月推出推理模型R1后,我国AI新星DeepSeek月末火速在海外走红,DeepSeek仅以一小部分核算才能就能供给与GPT-4o适当的功能,冲击了依托贵重GPU和大型数据中心开发尖端AI模型的既有形式。DeepSeek的兴起让出资者忧虑,DeepSeek式的软件优化能协助大幅节约本钱,或许导致对AI算力和电力需求下降。
Parker标明,英伟达以为,核算和动力的需求只会由于AI而增加,并将自卖自夸对DeepSeek的反响描绘为“下意识的”。
和Parker到会同一会议时,OpenAI劲敌Anthropic的联合创始人Jack Clark标明,到2027年,将需求5万兆瓦的新增电力容量来支撑AI。这个增量适当于大约50座新的核电站。
Clark说,Anthropic等AI公司估计,新的基荷电力需求、即电网体系全天候满意最低根本电力需求将大幅增加,“咱们正在阅历史无前例的增加。”
在亚马逊和英伟达上述高管表态前,DeepSeek爆火的几个月,微柔和亚马逊先后传出放缓各自AI数据中心方案的音讯。
两周前,微软标明,正在“放缓或暂停”部分AI数据中心项目,抒发暂停在美国俄亥俄州中部方案出资10亿美元的三个数据中心园区建造。微软的云核算事务总裁Noelle Walsh其时称,跌倒微软或许会战略性地调整方案,但会依据事务优先级和客户需求分配出资。
这些分析师称,亚马逊的音讯与他们近期听到微软的状况相似,两家公司都在缩短部分新项目,却并未兵以诈立现已签署的协议。
微柔和亚马逊的以上音讯无疑加重了对AI基础设施需求降温的忧虑。经济学家忧虑,经济或许阑珊等要素或许会减缓AI工业昌盛,抒发英伟达在内的首要参与者都会受影响,假如亚马逊减少新数据中心出资,或许会进一步危害英伟达的芯片出售。
亚马逊和供货商英伟达一同辩驳科技巨子放缓乃至吊销部分人工智能(AI)数据中心项目的风闻。当地时间4月24日周四,在美国俄克拉荷马州立大学研究所哈姆美国动力研究所主办的会议上,亚马逊和英伟达的高管标明,...
此前,在2024开发者大会上科大讯飞对外发布了星火大模型4.0 Turbo。依据实在数据背靠背的测验,星火大模型4.0 Turbo在七大中心才能全面逾越GPT-4Turbo,数学和代码才能逾越GPT-4o。一起,科大讯飞还初次对外发布了星火多言语大模型,除中英文外,可支撑俄、日、阿、法等8个语种。
值得注意的是,讯飞星火仍是依据国产算力训练出来的全民敞开的大模型。所谓全民敞开大模型,便是国家网信办等八个部委联合认证,一般民众能够随时下载运用的大模型。它的一切算法都是自主编写,因此在用信息安全上也更有保证。
依据星火大模型新的才能,讯飞翻译机4.0星火版的语音辨认才能得以提高,能够结合语境,然后完成更天然、更靠近日常日子场景的翻译作用。现在,讯飞翻译机4.0星火版总共支撑85种言语在线翻译,包含带口音的外语和中文方言,掩盖全球近200个国家和地区。
在实践运用场景中,讯飞翻译机4.0星火版还能够结合语境出产契合情境的翻译,用户能够在通用、商务、轻松友爱等翻译风格中挑选。
除了多语种翻译之外,讯飞翻译机4.0星火版还晋级了AI读图。当用户运用翻译机拍照外文菜单后,能够完成即拍即译。此外,用户还可经过拍照菜单后点击“AI读图”进行多轮对话,了解菜式的具体做法等更多维度信息。考虑到海外网络基础设施不健全,讯飞翻译机4.0星火版还支撑17种言语无网络翻译。
依据中国旅游研究院猜测,2024年出境游人数估计可达1.3亿人次。翻译机作为出境游的重要配备,估计到2025年,言语翻译器职业市场规模将到达39.3亿美元,同比增长率为12.2%;一起,语音辨认、天然言语处理和机器翻译技能正在不断创新推进便携式翻译机的开展。(本文首发于钛媒体APP)
11月5日,讯飞翻译机4.0星火版宣告开售,该版别搭载了讯飞自研的星火大模型才能。此前,在2024开发者大会上科大讯飞对外发布了星火大模型4.0 Turbo。依据实在数据背靠背的测验,星火大模型4.0...
受此影响,隔夜美股芯片股以身许国大跌,费城半导体指数收跌约3.3%,英伟达收跌超5.7%,领跌科技“七巨子”,微软人世1.31%。AI概念股普跌,超微电脑收跌近8.9%。
美东时刻3月26日(周三)早间,TD证券旗下投行和金融服务组织TD Cowen发布陈述称,因核算机集群供给过剩,微软已抛弃在美欧算计耗电2GW的新数据中心项目。受此影响,隔夜美股芯片股以身许国大跌,费...
亚马逊和英伟达高管都表明,人工智能数据中心的建造并未放缓。因为对经济衰退的忧虑,一些投资者曾质疑科技公司是否会减缩部分方案。 当地时间周四,在哈姆美国能源研究院主办的会议上,亚马逊AWS的全球数据中心...
最近双语君搞了个AI内测账号,每天沉迷于请AI作画。下边是几张双语君请AI画的画,咱们猜猜都输入了什么关键词?答案五彩斑斓的黑答案鱼香肉丝答案过桥米线就在曩昔这几个月里,以ChatGPT为典型的一类“...