当前位置：首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？

2个月前 (02-26)DeepSeek技术交流132

一开始，我还以为 DeepSeek 会走传统路线，比如大厂常见的蒸馏技术，搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求，但缺点也很明显，就是小模型再怎么优化，和大模型比起来，性能还是会有损失结果 DeepSeek 完全没按套路出牌，它不是去压缩模型，而是换了个角度，直接假设未来算力足够，然后想办法更高效地用好现有显卡架构。换句话说，不是缩小参数规模，而是在同等规模下优化计算方式，让计算更具性价比这种思路比纯工程优化要“硬核”得多。一般来说，搞小模型是比较务实的工程方案，但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容，而且即使以后显卡更强、模型规模更大，这套技术依然能继续用，不会过时

标签: DeepSeek DeepGEMM

返回列表

上一篇：怎么评估 Deepseek 模型的性能？

下一篇：Deepseek的「深度思考」和「联网搜索」有什么区别，怎么使用？

“DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？” 的相关文章

一周两场，场场火爆！Deepseek+数字人营销训练营吸引百余位青岛企业家参加：必须学会新武器

一周两场，场场火爆！Deepseek+数字人营销训练营吸引百余位青岛企业家参加：必须学会新武器

面对人力成本攀升、爆款内容稀缺、矩阵账号管理低效等难题，AI已成为企业降本增效的“救命稻草”。4月17日-18日，由半岛都市报风口财经联合青岛市女企业家协会、青岛市时装设计师协会、小冰华北运营中心举办...

股市连续涨停板，四川金顶：未与DeepSeek开展业务合作

股市连续涨停板，四川金顶：未与DeepSeek开展业务合作

微成都报道2月19日晚间，四川金顶（600678.SH)发布股票交易风险提示公告称，在2月17日至2月19日连续3个交易日期间，公司股票收盘价格累计涨幅达33.13%，属于股票交易异常波动，提醒广大投...

朱民：大家现在都在讲DeepSeek，这是未来的全球化

朱民：大家现在都在讲DeepSeek，这是未来的全球化

北京商报讯(记者李海媛)3月25日至3月28日，博鳌亚洲论坛2025年年会在海南博鳌举行。3月27日，在“构建开放世界经济：挑战与出路”分论坛中，中国国际经济交流中心副理事长、国际货币基金组织原副总裁...

腾讯云TI平台支持DeepSeek全系模型精调与推理

腾讯云TI平台支持DeepSeek全系模型精调与推理

36氪获悉，近日，DeepSeek全系列模型率先登陆腾讯云TI平台，并提供企业级精调与推理服务。腾讯云TI平台支持快速数据清洗、Prompt优化、灵活训练调度，并提供公有云和私有化部署，满足多样化业务...

微信接入DeepSeek后，谁赢麻了

微信接入DeepSeek后，谁赢麻了

在未来，普通人体验满血版DeepSeek最简单的方式，可能就是打开微信。2月15日，有网友发现微信接入了DeepSeek-R1模型。2月16日，媒体记者在向腾讯集团求证后，证明了上述消息的真实性。有人...

艾美疫苗全面接入DeepSeek大模型

艾美疫苗全面接入DeepSeek大模型

2月23日晚，港股公司艾美疫苗（06660.HK）发布自愿公告，全面部署接入DeepSeek大模型，通过本地化策略，推动DeepSeek-R1版本在集团全业务场景应用，实现疫苗全生命周期的“降本、提质...