DeepSeek低调发布了DeepSeek-V3-0324,增强了数学和网页设计能力。

4天前 小马良
23 0

DeepSeek于昨晚(3月24日)低调发布了DeepSeek-V3-0324,在官网可以使用,增强了数学和网页设计能力。

这一版本不仅增强了数学和网页设计能力,还在多项评测中表现出色,超越了之前的版本 DeepSeek-R1。根据网友 @karminski3 的测试,DeepSeek-V3-0324 在多个关键领域都取得了显著的进步。

DeepSeek低调发布了DeepSeek-V3-0324,增强了数学和网页设计能力。

性能提升概览

1. KCORES 大模型竞技场排名

DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三,仅次于 claude-3.7-sonnet-thinking 和 claude-3.5。值得注意的是,claude-3.5 在测试中表现优于 claude-3.7,显示出 DeepSeek-V3-0324 的强劲竞争力。

DeepSeek低调发布了DeepSeek-V3-0324,增强了数学和网页设计能力。 DeepSeek低调发布了DeepSeek-V3-0324,增强了数学和网页设计能力。

2. 20 小球碰撞测试

在 20 小球碰撞测试中,DeepSeek-V3-0324 的物理运动模拟取得了显著进步。与之前的版本相比,小球不再挤成一团,而是能够更自然地运动。尽管因小球掉出 7 边形而扣了 5 分,但项目排名已提升至第 5 位。

DeepSeek低调发布了DeepSeek-V3-0324,增强了数学和网页设计能力。

3. mandelbrot-set-meet-libai 测试

在 mandelbrot-set-meet-libai 测试中,DeepSeek-V3-0324 的分数较 DeepSeek-V3 低了 2 分。主要问题是渲染方向错误,拖累了渲染性能。尽管如此,完成度显著提高,项目排名第 12 位。

4. 火星任务测试

火星任务测试中,DeepSeek-V3-0324 取得了巨大提升。星球和图例渲染正确,发射和返回窗口计算也有了很大进步。项目排名第 3 位,显示出 DeepSeek-V3-0324 在复杂任务中的强大能力。

5. 九大行星模拟测试

在九大行星模拟测试中,DeepSeek-V3-0324 实现了史诗级提升。它是测试的 25 个模型中唯一一个正确绘制了土星环的大模型。尽管地球轨道周期计算仍有待改进,但项目排名第 16 位,显示出其在细节处理上的卓越能力。

DeepSeek低调发布了DeepSeek-V3-0324,增强了数学和网页设计能力。

总体评价

总体而言,DeepSeek-V3-0324 的能力令人印象深刻。它在多个关键领域都取得了显著进步,特别是在物理运动模拟和复杂任务处理方面。尽管仍有改进空间,但 DeepSeek-V3-0324 已经展现出强大的竞争力。

暂无评论

none
暂无评论...