DeepSeek-V4来了

2026-04-24 03:25:07 · chineseheadlinenews.com · 来源: 第一财经

OpenAI刚刚发布GPT-5.5几个小时后,业界期待已久的DeepSeek-V4终于上线了,这次是两个版本,价格还是一贯DeepSeek的“价格屠夫”风格。

4月24日,DeepSeek宣布,全新系列模型 DeepSeek-V4的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在 Agent(智能体)能力、世界知识和推理性能上均实现国内与开源领域的领先。

距离去年1月的大版本更新已经过去了15个月,DeepSeek这次在海内外全网发布大更新后,热度飙升。海外社媒有不少网友也第一时间关注了DeepSeek的更新,在DeepSeek 评论区,大家纷纷表示,“鲸鱼回来了”“便宜又强大”“这太震撼了,如果那些效率突破成立的话”。

V4模型按大小分为Pro和Flash两个版本,也对应目前官方网页端和APP界面的专家模式和快速模式。其中Pro参数为1.6万亿,激活490亿,预训练数据33万亿;Flash参数为2840亿,激活130亿,预训练数据32万亿。

Pro和Flash两个版本的上下文都是1M(百万),均同时支持非思考模式与思考模式。

“从现在开始,一百万上下文将是 DeepSeek 所有官方服务的标配。”DeepSeek在文章中表示,V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。

从价格看,DeepSeek 提到,V4-Pro每百万tokens输入是1元,输出是12元,V4-Flash每百万tokens输入是0.2元,输出是2元。“太普惠了,还是那个DeepSeek。”有网友感慨。

值得一提的是,业界一直在关注DeepSeek-V4是否会使用国产算力,从推文来看确实是与华为昇腾合作。DeepSeek在小字中表示,受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。

在具体性能上,两个版本的定位不同, V4-Pro性能比肩顶级闭源模型,而V4-Flash是更快捷高效的经济之选。

相比前代模型, V4-Pro 的Agent能力显著增强。在 Agentic Coding(智能体编程)评测中,V4-Pro达到当前开源模型最佳水平。

官网表示,DeepSeek-V4已成为DeepSeek内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Anthropic的Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但也提到,新模型仍与 Opus 4.6 思考模式存在一定差距。

在世界知识测评中,V4-Pro大幅领先其他开源模型,稍逊于顶尖闭源模型 Gemini-Pro-3.1。在数学、STEM、竞赛型代码的测评中, V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。

在推理上,官方在论文中表示,总体约落后前沿闭源模型 3–6 个月。Pro?Max(Max表示最大推理能力模式)推理扩展后在标准推理基准上优于 OpenAI的GPT?5.2、谷歌Gemini?3.0?Pro,略逊于GPT?5.4、Gemini?3.1?Pro。

相比V4-Pro, V4-Flash 在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。在 Agent 测评中, V4-Flash 在简单任务上与V4-Pro 旗鼓相当,但在高难度任务上仍有差距。

目前,DeepSeek API已同步上线V4-Pro与V4-Flash,支持OpenAI ChatCompletions接口与Anthropic接口。

在发布消息的同时,DeepSeek也更新了一篇长达58页的论文,其中提到一些核心技术方面的信息。

相比 DeepSeek?V3 架构,DeepSeek?V4 系列保留 DeepSeekMoE 框架与多令牌预测(MTP)策略,并引入多项关键架构与优化创新:混合注意力架构大幅提升长上下文处理效率,流形约束超连接(mHC)增强了传统残差连接,提升信号传播稳定性,而Muon 优化器加快收敛速度,提升训练稳定性。

论文中作者团队提到,DeepSeek?V4系列突破了超长上下文效率壁垒,原生高效支持百万令牌上下文,为测试时扩展、长周期任务、在线学习奠定基础。但局限在于,为追求长上下文效率,架构设计较为激进,保留较多经验性组件,整体偏复杂;复杂指令遵循、格式美观、极端摘要仍有提升空间。

DeepSeek认为,未来的研究方向是精简架构、研究训练稳定性基础理论、探索更稀疏的嵌入等新稀疏维度、强化长周期多轮智能体任务、加入多模态能力等。在最后,DeepSeek也表达了公司的理念,秉持长期主义的原则,“努力向实现AGI的目标不断靠近”。

在这次更新前不久,DeepSeek还传出了首次启动外部融资的风声。有报道称,DeepSeek正在以超100亿美元(约合人民币682亿元)的估值,计划募集不少于3亿美元(约合人民币20亿元)资金。对于长期拒绝外部资本、强调独立性的DeepSeek而言,此举被视为一种战略上的重大转向。

据悉,通过引入外部资金,DeepSeek将有更多计算资源开发新模型,同时能提供更具竞争力的薪酬来防止顶尖研究员流失。这次V4并没有发布多模态版本,也有猜测是由于算力和资金的不足。多模态已成为众多模型厂商的标配,DeepSeek至今还未切入,从这个意义上看融资确实迫在眉睫。


    24小时新闻排行榜更多>>
  1. “4.25”内幕爆料:军人枪弹上膛 欲重演“六四”
  2. 华女盗刷卡被通缉 竟早已在监狱 刑满还将被遣返
  3. 中国女大闹飞机自称空姐 帅气空少爆红 南航撇清
  4. 中共黑手伸入非洲 南加侨界:文明秩序不容践踏
  5. 美中AI差距越拉越大?不是竞争 而是碾压…
  6. 川普政府反恐高官在“糖爹”网站上曝光 传被包养遭停职
  7. 从嗤之以鼻到“中国真酷”:中国品牌如何赢得印尼人?
  8. 许家印留下恒大鬼城处处 烂尾现状触目惊心
  9. 加大伯克利分校接连两起死亡事件
  10. 美军空中垂降登船 扣押往中国伊朗走私船 震撼画面曝
  11. 华人移民案在最高法院引发大法官辩论
  12. 中国船员困霍尔木兹海峡53天 有人已精神崩溃
  13. AI烧钱太猛!Meta裁8000人 微软推“买断”方案
  14. 以放话“等美国点头就开打” 德黑兰启动防空 油价飙涨
  15. 川普下令:“开火击沉”伊朗布雷船只
  16. 中共官场大清洗 省部级高官被查处人数暴增
  17. 如何看待交易拥挤度对AI板块的影响?
  18. 多州接连对他们动手,美民主党疯了
  19. 英国健康敏感数据遭泄 被阿里巴巴挂牌出售
  20. 许家印背后神秘金主浮出水面,竟是他?
  21. 英国会通过法案:2009年起出生者终身禁买烟
  22. 把握机会实现财务飞跃 台美老移民理财经验谈
  23. 伊朗不甘示弱 释出扣船视频 蒙面突击队强登货轮示威
  24. 妹子连睡64天 吃饭如厕全靠梦游 俩月毫无记忆!
  25. 以防长:重启对伊战争 只等美国开“绿灯”
  26. 美国务院:悬赏400万美元缉捕达伦·李
  27. 中国公民入境巴拿马遭扣留 中使馆提醒公民
  28. 川普称伊朗“严重分裂” CNN:恰恰相反 是“越打越抱团”
  29. 马斯克斥资30亿建晶圆厂 将用英特尔14A制程
  30. 中际旭创市值一年内涨超10倍
  31. 从一人决策到集体领导:揭秘伊朗新政权权力结构
  32. 川习会前白宫发备忘录:中国以工业规模窃取AI技术
  33. 前CIA官员:中共用全球最大情报系统打压美企
  34. 加州$5.2亿直接发放 账单集体减免 无需申请自动到账
  35. 加州超2万人失业登顶
  36. 清除霍尔木兹潜藏威胁!英国海军准备执行扫雷任务
  37. 分享验证码,5.5万加元没了
  38. 川普政府锁定384人 欲撤销其公民身份
  39. 稀土公司副总当内鬼 泄漏7项国家机密遭国安揪出
  40. 忧川普不作为 美国会推动严控AI芯片出口中国
  41. 早已写下的预言?表面强大却内部崩坏的世界
  42. 从现在开始,任何截图都不要相信
  43. 华谊兄弟被申请破产案获法院受理 7年亏82亿
  44. 欣旺达Q1营收同增31%
  45. 微波炉是健康杀手吗?避开5个坑使用安心
  46. 传反恐高官被包养遭停职
  47. 细思极恐!中共社媒分析系统曝光 精准还原现实身份
  48. 4.25上访 军队镇压未遂(2)暗设陷阱
  49. 案件聚焦:关于一条征婚广告的尸解报告
  50. 美智库预估伊朗经济损失已达1440亿美元
  51. 湖北一中学禁止学生背书包 改用“透明塑料袋”引热议
  52. 一人公司泡沫:1200万人涌入,六成陪跑
  53. 全职妈妈9年,一个赛车手想重新坐回车里
  54. 封闭的海岛高中,蒸发了他们半生积蓄
  55. 库克带苹果走向辉煌,也给习近平帮了大忙
  56. 洛杉矶火灾区地块被爆最大买家来自中国
  57. 伊朗战争是如何从全面轰炸转向美伊意志较量的?
  58. 黎驻美大使:川普能让黎巴嫩再次伟大
  59. 女大生去泰国却被转卖缅甸 园区老板还有神操作
  60. 他们都被救了 但救援的人并不存在