Deepseek V3-0324版本的评测来啦 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

Deepseek V3-0324版本的评测来啦

2025-03-26

0 评论 495 浏览 0 收藏

技术知识、行业知识、业务知识等，都是B端产品经理需要了解和掌握的领域相关的知识，有助于进行产品方案设计和评估

前几天DeepSeek更新了V3版本，虽然是个小更新，但性能表现依然超出了许多人的预期。这篇文章，我们来看看作者的分析。

开始

没有一点点防备，也没有一丝的顾虑，他就这样悄悄的上线啦。有多低调，看下面图片，readme竟然都是空的。好歹宣传一下呀，哈哈

有哪些更新

官方给出答复是小的版本更新，没有基准测评和技术报告。社区反馈，代码能力有明显的提升，还具备一定的推理能力。输出速度更快。能够迅速处理数学和编程任务。它也非常稳定，无论是编程还是解决问题，每次都能给出良好的结果。对比表现可以看下面的编程实现对比，DeepSeek V3-0324 的表现优于 o3-mini 和 Deepseek R1视频展示看公众号内容（帅森森聊AI和职场）

第三方评测

结论

Deepseek V3-0324可能是目前最好的非推理模型，而且还是免费的。综合能力与sonnet 3.5不分伯仲。

什么是B端产品经理？和C端产品经理有什么区别？

B端产品经理中的B是Business，商业的意思，B端产品经理首先就要理解这个职位的重要性，要设计出更适合这个项目需求的产品方案，B最终产品经理在日常工作中...

评测逻辑

每个柱体有3个颜色，代表是三种评测逻辑，具体含义如下：这张图片的右上角有三个图例，分别代表以下含义：

1. Pass@5

含义：Pass@5 表示模型在测试中前五个结果中有多少是正确的。

用途：这一指标通常用于评估模型的准确率，特别是在生成任务或多选任务中。它反映了模型在有限尝试次数内提供正确答案的能力。

如果 Pass@5 为 80%，意味着模型在前五个结果中，有 80% 的概率至少包含一个正确答案。

2. Average Score

含义：Average Score 表示模型在所有测试中的平均得分。

用途：这一指标反映了模型的整体性能，综合了模型在不同任务或测试中的表现。

如果 Average Score 为 60%，意味着模型在所有测试中的平均得分为 60%。

3. 5/5 Consistency

含义：5/5 Consistency 是一个衡量模型在多次面对相同或非常相似的输入时，能否给出一致性回答的指标。更具体地说，它通常表示在五次独立的测试中，模型都给出了相同或高度相似的答案。

用途：这一指标反映了模型的一致性和稳定性，评估模型是否能够在所有测试中保持高水平的表现。

如果 5/5 Consistency 为 40%，意味着模型在所有测试中，有 40% 的概率能够做到输出一致。

指标解读

通用语言模型中，Deepseek V3-0324版本在top 5测评的准确率居首。平均得分与sonnet 3.5不相上下。5对5一致性评测中，弱于sonnet 3.5。相比之前的V3版本，三个指标都有提升。

哪里可以使用

官方网页版: 在deepseek.com上免费测试更新后的V3版本，记得关闭“深度思考”按钮。

官方 App: 可在iOS和Android上下载，已更新至3月24日发布的版本。

官方 API: 在api-docs.deepseek.com上使用model=’deepseek-chat’。

HuggingFace: 从HuggingFace下载“DeepSeek V3 0324”权重模型。

本文由 @帅森森原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

多年AI产品工作从业经验，公众号

：帅森森聊AI和职场

2篇作品 1548总阅读量

评论区引流，每天200+精准粉

09-096563 浏览

评论区引流，每天200+精准粉

To B企业别碰抖音、小红书！

08-085396 浏览

To B企业别碰抖音、小红书！

产品经理难题：别人都在管理，我还在画原型，为何？

刚刚

浅谈：产品经理需要关注的成本的那些事儿

10-272182 浏览

浅谈：产品经理需要关注的成本的那些事儿

ChatGPT能够颠覆医疗AI吗？

02-217953 浏览

ChatGPT能够颠覆医疗AI吗？

空调系列专题｜座椅 & 方向盘通风/加热

11-021458 浏览

空调系列专题｜座椅 & 方向盘通风/加热

评论

目前还没评论，等你发挥！

转岗产品经理的求职难题，你遇到过吗？

16320人已学习12篇文章

对账体系的设计思路

本专题的文章分享了对账体系的设计思路。

12278人已学习12篇文章

如何搭建私域模型？

现如今，越来越多的企业开始重视私域，很多的企业都对私域的发展进行了布局。本专题的文章分享了如何搭建私域模型。

13591人已学习13篇文章

关于教育+AI的思考

本专题的文章分享了关于教育+AI的思考。

16563人已学习12篇文章

供应商管理设计指南

供应链管理系统是最早期面向企业的软件解决方案之一，供应商管理又是供应链链条中的上游部分。本专题的文章分享了供应商管理设计指南以及供应链的基础知识。

13690人已学习12篇文章

人力资源管理系统的设计指南

人力资源管理系统，帮助企业管理和维护其人力资源。本专题的文章分享了人力资源管理系统的设计指南。

12498人已学习12篇文章

企业新媒体运营指南

企业想扩大自身的知名度和影响力都离不开新媒体。本专题的文章分享了企业新媒体运营指南。