当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

2个月前 (02-24)Deepseek最新资讯122

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

医保局接入DeepSeek!问不倒的“医保明白人”来了

医保局接入DeepSeek!问不倒的“医保明白人”来了

(人民日报健康客户端记者 周学津)继医疗企业和医院接入DeepSeek后,多地医保局也相继跟上,推动医保服务智能化升级。2月以来,山东省青岛市、广东省深圳市、北京市丰台区等多地医保上线了医保智能服务。...

我国“生物医药+AI”如何借鉴DeepSeek模式,实现从模仿到超越?

我国“生物医药+AI”如何借鉴DeepSeek模式,实现从模仿到超越?

转自:蚌埠新闻网在全球AI竞技场上,美国凭借先发优势,在AI行业长期占据领先地位。然而,近期DeepSeek推出的低成本且高性能的开源模型R1,在通用AGI领域挑战了现有技术范式。面对这一创新,Met...

中信特钢DeepSeek-R1大模型接入 成功搭建“特钢信使”应用

中信特钢DeepSeek-R1大模型接入 成功搭建“特钢信使”应用

中信特钢3月3日在互动平台表示,公司大力推动数字技术与实体经济深度融合,以数字化转型驱动全方位改革,加快构建数据资产和挖掘数据价值,推进智能运维。公司近日完成了DeepSeek-R1大模型接入,成功搭...

DeepSeek用法合集,建议收藏

DeepSeek用法合集,建议收藏

1、PPT生成工具组合:deepseek + kimi PPT助手提示词模版:你是一位有10年经验的PPT设计师,我需要制作关于《[主题]》的PPT,面向[受众],需包含[封面/目录/核心章节/总结页...

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

明敏 发自 凹非寺量子位 | 公众号 QbitAI刚刚,DeepSeek官方发布DeepSeek-V3模型更新技术报告。V3新版本在数学、代码类相关评测集成绩超过GPT-4.5!而且这只是通过改进后训...

大火、环保、核电与DeepSeek,欧洲对AI追赶之道的思考

大火、环保、核电与DeepSeek,欧洲对AI追赶之道的思考

这是2月10日在法国巴黎大皇宫拍摄的人工智能行动峰会现场。新华社 图巴黎的大皇宫,是法国为了1900年的世博会而专门修建的。当时的法国,还处在美好年代的顶峰,是数一数二的世界强国,也是科技大国。一百多...