DeepSeek 入驻 Cursor —— 表现能否超越 Claude?

DeepSeek 刚刚在 Cursor 平台上线了它的两款模型:DeepSeek V3 和 R1。目前,许多开发者(包括我们在内)主要依赖 Claude 3.5 Sonnet(最新版本 claude-3-5-sonnet-20241022)作为主要语言模型,因此我们决定对这几款新模型进行实战对比。

关于 DeepSeek

DeepSeek 最近因开源了其备受瞩目的 R1 模型而登上新闻头条,该模型的各项性能指标与 OpenAI 的 o1 相比毫不逊色,绝非易事。官方公布的编程相关基准测试数据也显示,大多数情况下它的表现有望超越 Claude 3.5 Sonnet 和 GPT-4o。Cursor 一贯动作迅速,新模型上架后,大家就迫不及待地开展了实际应用测试。

对比基准
DeepSeek R1 与 V3 的性能数据(由 DeepSeek 发布)与 OpenAI 的 o1 和 o1-mini 进行对比。

测试任务概述

此次测试分为两个主要部分:

  1. 聊天模式 —— 讨论如何在 Next.js 应用中为对话框添加服务端操作;

  2. 代码生成模式 —— 修改一个 CircleCI 配置文件,移除前端部署相关内容以及不再需要的 E2E 测试步骤。

需要说明的是,目前代理模式只对 Anthropic 模型和 GPT-4o 开放,因此这里不涉及该部分测试。


聊天模式

任务描述

问题要求说明如何在 Next.js 应用中,为一个对话框组件正确添加服务端操作。具体提示如下:

“如何实现一个服务端操作,并将其正确传递给这个对话框?”

同时,我们还附上了包含对话框组件的相关文件作为上下文。

DeepSeek R1 的表现

从媒体关注度来看,R1 自然成为首选测试对象。使用 R1 时,很快发现两个问题:

  1. 输出流式传输速度较慢
    R1 在输出时显得不够敏捷,等待时间较长。

  2. 回答开头带有较大的 <think>
    虽然这个预处理块如果能提升最终答案的质量,我们并不介意,但它与缓慢的流式输出叠加,明显延迟了实际回答的呈现。例如,它在回答一开始就输出了一大段 <think> 内容,再加上缓慢的流式传输,整个过程耗时较长。理论上,通过设置 Cursor 规则来跳过这部分内容是可以解决的,但此处我们测试的是默认状态。

此外,R1 的回答中提到需要安装 next-safe-action/hooks 来解决问题,但实际上并未在后续的回答中展示如何使用这个方案。对于这样简单的问题来说,仅仅建议安装额外的包显得有些大材小用。

DeepSeek V3 的表现

V3 的表现也不俗,甚至推荐使用 React 19 的新特性 useFormStatus,这表明它对较新的代码库有一定的学习。不过,它在实现上有一个致命问题:直接在客户端组件中调用了创建的服务端操作,而在 Next.js 中,这种写法是不可行的。比如,如果直接在客户端调用服务端代码,可能会导致页面报错或无法正常运行。
另外,V3 同样在输出流式传输上显得较慢,但由于它没有 R1 那样的冗长 <think> 块,总体体验稍微好一些。

Claude 3.5 Sonnet 的表现

Claude 3.5 Sonnet 的响应速度最快,即便在“慢请求模式”下(例如当每月超过 500 次付费请求时)。虽然它没有采用最新的 React 特性(例如 useFormStatus),并且同样直接在客户端组件中调用服务端操作,但它给出的解决方案更接近实际可用的答案。只需在服务端操作中加上 use server 声明,就能满足 Next.js 的要求。


代码生成模式

任务描述

在这部分测试中,我们提供了一个用于部署全栈应用的 CircleCI 配置文件。该应用拥有一个纯 React 前端和一个 Node.js 后端。部署流程中包含多个步骤,需要同时完成以下两点:

  1. 移除所有与前端部署相关的部分;

  2. 识别出既然只有后端存在,E2E 测试(使用 Cypress)也不再必要,并将其相关步骤一并去除。

提示内容明确指出“移除所有与前端部署相关的部分”,同时配置文件作为上下文也一并提供。

DeepSeek R1 的表现

对于 Composer 任务,我们原本期待带有 <think> 块的 R1 能在处理多个部分变动时表现更为出色。然而实际情况并不理想:

  • R1 遗漏了几处明显与前端部署相关的内容(例如提及构建 webapp 的引用),但它正确识别出不再需要 deploy-netlify 这一步骤,这部分表现值得肯定;

  • 同时,R1 移除了标记为 deploy_production_api 的后端部署步骤,但未能发现 E2E 测试已无意义这一问题。

DeepSeek V3 的表现

V3 在 Composer 任务上比 R1稍有优势,它修正了一些 R1 遗漏的问题,但同时也暴露出自己的不足——例如保留了 deploy-netlify 的步骤。值得一提的是,V3 在保持后端部署步骤完整方面表现不错,但同样未能判断出 E2E 测试部分可以删除。

Claude 3.5 Sonnet 的表现

老牌的 Sonnet 在这项任务中表现最佳:

  • 它成功移除了大部分与前端部署相关的命令,虽然也未能删除 deploy-netlify 步骤;

  • 在后端部署步骤方面,Sonnet 同样保持了完整;

  • 最关键的是,Sonnet 精准识别出由于只剩后端,E2E 测试完全没必要,并将包括 Cypress 二进制缓存等所有相关部分一并移除。这一点无疑是最佳解决方案的体现。


总结

Cursor 平台不断引入新模型,总能给开发者带来新的惊喜。尽管这两项测试任务较为简单,但足以展示 DeepSeek 模型在实际场景中的表现,与 Claude 3.5 Sonnet 相比,各有优劣。

综合来看,无论是在响应速度还是输出质量上,Claude 3.5 Sonnet 均显著领先于 DeepSeek 的两款模型。虽然未来响应速度方面可能会因服务器分布等因素得到改善,但就目前的实际测试结果来看,Sonnet 在实用性上依然稳居首位。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/895318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据与大模型:数字时代的共生力量

引言&#xff1a;大数据与大模型的崭新时代 在数字化浪潮汹涌澎湃的当下&#xff0c;大数据与大模型无疑是最为耀眼的两颗明星 &#xff0c;深刻地改变着我们的生活、工作和思维方式。大数据&#xff0c;作为信息时代的宝藏&#xff0c;蕴含着无尽的价值。从电商平台的海量交易…

[2025年最新]2024.3版本idea无法安装插件问题解决

背景 随着大模型的持续发展&#xff0c;特别年前年后deepseek的优异表现&#xff0c;编程过程中&#xff0c;需要解决ai来辅助编程&#xff0c;因此需要安装一些大模型插件 问题描述 在线安装插件的时候会遇到以下问题&#xff1a; 1.数据一直在加载&#xff0c;加载的很满 2.点…

自动驾驶---如何打造一款属于自己的自动驾驶系统

在笔者的专栏《自动驾驶Planning决策规划》中&#xff0c;主要讲解了行车的相关知识&#xff0c;从Routing&#xff0c;到Behavior Planning&#xff0c;再到Motion Planning&#xff0c;以及最后的Control&#xff0c;笔者都做了相关介绍&#xff0c;其中主要包括算法在量产上…

三角拓扑聚合优化器TTAO-Transformer-BiLSTM多变量回归预测(Maltab)

三角拓扑聚合优化器TTAO-Transformer-BiLSTM多变量回归预测&#xff08;Maltab&#xff09; 完整代码私信回复三角拓扑聚合优化器TTAO-Transformer-BiLSTM多变量回归预测&#xff08;Maltab&#xff09; 一、引言 1、研究背景和意义 在现代数据科学领域&#xff0c;时间序列…

Jenkins+gitee 搭建自动化部署

Jenkinsgitee 搭建自动化部署 环境说明&#xff1a; 软件版本备注CentOS8.5.2111JDK1.8.0_211Maven3.8.8git2.27.0Jenkins2.319最好选稳定版本&#xff0c;不然安装插件有点麻烦 一、安装Jenkins程序 1、到官网下载相应的版本war或者直接使用yum安装 Jenkins官网下载 直接…

AI 编程开发插件codeium Windsurf(vscode、editor) 安装

1、vscode中安装&#xff1a; 2、vscode中使用 3、输入注册的账号密码&#xff0c;就可以使用。 4、或者直接下载editor 5、安装editor 下一步&#xff0c;下一步&#xff0c;直到安装成功&#xff0c;中间可以改下安装位置&#xff0c;如果C盘空间不够。 同样提示注册或者登录…

【Mac排错】ls: command not found 终端命令失效的解决办法

【TroubleShooting on Mac】ls: command not found 终端命令失效的解决办法 A Solution to Solve “Command not found” of Terminal on Mac 一直在使用心爱的MacBook Pro的Terminal&#xff0c;并且为她定制了不同的Profile。 这样&#xff0c;看起来她可以在不同季节&…

河北某石油管廊自动化监测

1. 项目简介 近年来&#xff0c;国家密集出台油气管道建设相关政策和规划引导中国油气管道加快建设&#xff0c;2017年&#xff0c;在《中长期油气管网规划》中对2025年和2030年油气管道发展目标均作出了相应的规划目标。另一方面&#xff0c;随着油气管道行业的发展&#xff…

问题:通过策略模式+工厂模式+模板方法模式实现ifelse优化

项目场景&#xff1a; 提示&#xff1a;这里简述项目相关背景&#xff1a; 示例&#xff1a;商城系统有会员系统&#xff0c;不同会员有不同优惠程度&#xff0c;普通会员不优惠&#xff1b;黄金会员打8折&#xff1b;白金会员优惠50元&#xff0c;再打7折&#xff1b; 问题描…

Android ndk兼容 64bit so报错

1、报错logcat如下 2025-01-13 11:34:41.963 4687-4687 DEBUG pid-4687 A #01 pc 00000000000063b8 /system/lib64/liblog.so (__android_log_default_aborter16) (BuildId: 467c2038cdfa767245f9280e657fdb85) 2025…

centos安装Nexus Repository OSS(Maven私服)

1. 下载链接&#xff1a;https://help.sonatype.com/en/download.html 2. 注意页面下载页面中的要求&#xff1a;JDK17&#xff08;启动时提示最低JDK1.8最高JDK17&#xff0c;但是使用JDK1.8无法正常启动&#xff09; 3. mkdir /opt/nexus 将压缩包上传到该目录并解压。 tar …

b站——《【强化学习】一小时完全入门》学习笔记及代码(1-3 多臂老虎机)

问题陈述 我们有两个多臂老虎机&#xff08;Multi-Armed Bandit&#xff09;&#xff0c;分别称为左边的老虎机和右边的老虎机。每个老虎机的奖励服从不同的正态分布&#xff1a; 左边的老虎机&#xff1a;奖励服从均值为 500&#xff0c;标准差为 50 的正态分布&#xff0c;即…

Linux:安装 node 及 nvm node 版本管理工具(ubuntu )

目录 方法一&#xff1a;手动下载安装文件安装方法二&#xff1a;curl安装 方法一&#xff1a;手动下载安装文件安装 git clone 远程镜像 git clone https://gitee.com/mirrors/nvm安装 nvm bash install.sh刷新配置&#xff0c;使配置在终端生效 // 方法 1 source /root/.…

基于STM32的ADS1230驱动例程

自己在练手项目中用到了ADS1230&#xff0c;根据芯片手册自写的驱动代码&#xff0c;已测可用&#xff0c;希望对将要用到ADS1230芯片的人有所帮助。 芯片&#xff1a;STM32系列任意芯片、ADS1230 环境&#xff1a;使用STM32CubeMX配置引脚、KEIL 部分电路&#xff1a; 代码…

游戏引擎学习第98天

仓库:https://gitee.com/mrxiao_com/2d_game_2 开始进行一点回顾 今天的目标是继续实现正常贴图的操作&#xff0c;尽管目前我们还没有足够的光照信息来使其完全有用。昨日完成了正常贴图相关的基础工作&#xff0c;接下来将集中精力实现正常贴图的基本操作&#xff0c;并准备…

Windows 本地部署大模型 OpenWebUI+Ollama

安装Ollama Ollama官方网址&#xff1a;https://ollama.com 下载运行大模型 在Ollama官网中查看需要下载的大模型 https://ollama.com/library 复制图片中的链接 打开cmd&#xff0c;运行此命令&#xff08;此过程会时间会很久&#xff09; 下载Miniconda Miniconda作用是…

npm运行Vue项目报错 error:0308010c:digital envelope routines::unsupported

大家好&#xff0c;我是 程序员码递夫。 问题 VSCode 运行Vue项目&#xff0c;提示错误&#xff1a; building 2/2 modules 0 activeError: error:0308010c:digital envelope routines::unsupported 解决方法 原因是 npm 高版本(大于17)&#xff0c;对ssl的处理做了改进&…

安川伺服控制器MP系列优势特点及行业应用

在工业自动化领域&#xff0c;运动控制器的性能直接决定了设备的精度、效率和可靠性。作为全球领先的运动控制品牌&#xff0c;安川电机伺服控制器凭借其卓越的技术优势和广泛的应用场景&#xff0c;正在为智能制造注入强劲动力&#xff01; MP3100&#xff1a;主板型运动控制…

Python----PyQt开发(PyQt高级:图像显示,定时器,进度条)

一、图像显示 1.1、增加图标 1.直接创建setWindowIcon(QIcon(灯泡.jpg)) import sys from PyQt5.QtWidgets import QApplication, QMainWindow, QPushButton from PyQt5.QtGui import QIconclass MainWindow(QMainWindow):def __init__(self):super(MainWindow, self).__init_…

工业路由器物联网应用,智慧环保环境数据监测

在智慧环保环境数据监测中工业路由器能连接各类分散的传感器&#xff0c;实现多源环境数据集中采集&#xff0c;并通过多种通信网络稳定传输至数据中心或云平台。 工作人员借助工业路由器可远程监控设备状态与环境数据&#xff0c;还能远程配置传感器参数。远程控制设置数据阈…