我在网上看到了关于DeepSeek R1的各种说法,这是一个开源模型,其能力即便不比OpenAI o1等付费模型强,也与之相当:
由于我在日常工作中广泛使用这些人工智能模型(使用Cursor AI),我决定看看哪种模型最适合我。
在进行了200次Cursor请求后,我将分享我的实验结果。
一、实验设置
我从lmarena排行榜上挑选了前两名的模型,即DeepSeek R1和OpenAI的o1:
以及竞争对手——Gemini-Exp-1206……
我设计了三个实际的编码挑战来测试每个模型的能力:
情绪追踪网络应用程序
- 基于日历的情绪记录
- 可视化情绪追踪
- 图表数据可视化
由o1设计的情绪追踪器
随机食谱生成器
- 与MealDB API集成
- 类别过滤
- 收藏管理
由DeepSeek R1设计的食谱生成器
“抓鼹鼠”游戏
- 实时动画
- 音效
- 难度递进
由Gemini设计的“抓鼹鼠”游戏
二、如何测试每个模型
我对这三个挑战都采用了完全相同的流程:
- 编写小型需求文档
我列出了每个项目应包含内容的简要清单,比如“使用日历库”“使用本地存储来存储数据”或“从外部API获取数据”。 - 向人工智能索要完整代码
我向模型提出需求,然后等待生成代码。如果代码有漏洞或缺少某些功能,我会提供具体反馈(比如“情绪的颜色编码有问题”等),直到代码能够正常运行。 - 对结果进行评分
一旦应用程序运行起来,我就会根据我的检查清单对其进行测试。主要功能是否可用?代码结构是否整洁?从用户角度看是否良好?我会给每个模型一个最终评级。 - 进行比较
在使用这三个模型完成了所有三个应用程序后,我收集了我的笔记并进行了整理。
下图是代码生成的流程。
以下是一个示例产品需求文档(PRD)的样子:
---
name: "Mood Tracker"
about: "Modern mood tracking web app with data visualization"
date_created: "2025-01-26"
project_name: "MoodTracker"
tech_stack: ["NextJS 15", "TypeScript", "Shadcn", "Tailwind CSS", "Chart.js", "date-fns"]
version: "1.3"
---# 🎯 Mood Tracker PRDA modern web application for logging daily moods and visualizing emotional trends with charts.---## 1. **Success Criteria**1. **Core Functionality**-