摘要
使用vscode、Roo Code和deepseek-reasoner进行了一个实验,尝试使用一句话需求来生成小红书封面图片。工具根据需求提供了详细的架构方案,包括技术栈选择、核心模块划分、目录结构建议等。然后,工具自动化地完成了开发和测试,并记录了详细的逻辑和使用方式在Readme文件中。实验结果表明,工具能够生成小红书封面图片,但需要进一步调整和完善,作者认为,这次实验对于小白来说已经很不错了,价格也不算贵。未来可以继续完善和优化工具来生成更实用的封面图片。
使用vscode + Roo Code (prev. Roo Cline)+deepseek-reasoner 使用一句话需求做了个实验
最近在探索一些有趣的AI工具组合,就用vscode搭配Roo Code (以前叫Roo Cline)和deepseek-reasoner(DeepSeek-R1)做了个小实验,看看能不能用一句话需求实现一些有意思的功能。
一、准备工作
要开始实验,首先得把工具准备好。在vscode的插件市场搜索“Roo Code”,然后安装就行,安装过程挺简单的,很快就能搞定。
安装完插件,接着就是配置Roo Code 。配置步骤按照提示一步步来,也不算复杂。我配置了DeepSeek,选择deepseek-reasoner作为默认的模型
需要了解到模型的相关信息和价格,可以看看官方说明:https://api-docs.deepseek.com/zh-cn/quick_start/pricing/ 。
二、实验开始
-
我给工具提的需求很简单,就是一句话需求:我想做一个小红书封面图片自动生成的本地工具,提供几种字体和图片模板,生成大字封面图片,你有什么建议么?
-
工具开始分析我的需求,从技术栈选择、核心模块划分,到目录结构建议,都给出了详细的思路。比如技术栈方面,推荐了Python的Pillow/OpenCV 、Node.js的Sharp/Jimp等图像处理库;核心模块划分成模板管理、字体管理、渲染引擎和输出模块;目录结构也给出了像templates、fonts、assets这些建议。还考虑到了字体版权、图片分辨率适配等关键设计点,以及安全和扩展性方面的问题。当然,我是什么都不懂的。
-
根据我的选择,工具基于Python技术栈开始构建详细架构方案,确定了Pillow、PyYAML等核心依赖,还给出了架构优化点、异常处理策略和扩展接口设计。以下是一些AI跟我的沟通交互过程记录:
首先分析用户需求:需要开发一个本地工具用于生成小红书封面图片,核心功能包括字体管理、模板选择和图片生成。基于架构设计角度,需考虑以下几个方面:
1. 技术栈选择:
图像处理库:Python Pillow/OpenCV 或 Node.js Sharp/Jimp
字体渲染:需支持多字体文件加载
模板系统:JSON/YAML配置模板参数
界面方案:CLI命令行或Electron轻量级GUI
2. 核心模块划分:
模板管理系统(存储布局参数)
字体管理系统(字体文件加载校验)
渲染引擎(图文合成核心)
输出模块(格式转换与导出)
3. 目录结构建议:
├── templates/ # 模板配置文件
├── fonts/ # 字体资源
├── assets/ # 背景图素材
├── output/ # 生成结果
└── config.json # 全局配置
4. 关键设计考量:
字体版权合规性(建议集成开源字体)
图片分辨率适配(多尺寸预设)
模板热加载机制
缓存优化策略(预渲染常用元素)
5. 安全方面:
图片文件类型校验
字体文件安全检查
输出目录隔离
6. 扩展性设计:
插件式模板系统
支持自定义渲染管线
元数据标注(记录生成参数)
建议采用Python技术栈快速原型开发,使用Pillow+Click构建基础版本,后续可升级为PyQt图形界面
请确认偏好技术栈:Python或Node.js?这将影响后续架构细节设计
这是我确认使用Python之后的答复
根据用户选择Python技术栈,开始构建详细架构方案:1. 核心依赖确认:- Pillow 9.0+(图像处理)- PyYAML(模板配置)- Click 8.0+(CLI构建)- fontTools(字体解析)2. 架构优化点:- 引入缓存机制预加载常用字体- 使用LRU缓存模板配置- 支持多线程批量生成- 颜色管理系统支持PANTONE色卡3. 异常处理策略:- 字体文件校验(TTF/OTF)- 图片资源尺寸校验- 内存使用监控(大图处理)4. 扩展接口设计:- 插件式滤镜系统- 模板市场对接接口- 自动化测试框架
- 接下来就是自动化的Coding,在操作的过程,我把Auto-approve全部勾选上,让工具自动发挥作用。
- 然后一顿自动操作,需要我确认的就点一下,完成开发,并且它已经帮我做了测试。
- 为了以后使用方便,我让工具把详细的逻辑和使用方式记录在Readme文件里,为了节约篇幅、省略展示,以下是文件的主要内容提炼,可以说想的还是很周全了。
# 小红书封面生成工具## 功能特性
- 基于模板的封面图片生成
- 支持多种字体和文字样式配置
- 智能布局系统(边距/对齐/行间距)
- YAML格式配置文件
- 安全校验机制(文件存在性/尺寸限制)## 快速开始### 1. 环境准备
- 创建虚拟环境(可选)
- 安装依赖### 2. 基础使用
- 生成默认模板封面
- 指定模板生成
- 自定义字体### 3. 参数说明
- `--template`:指定模板名称(默认default)
- `--font`:自定义字体路径
- `--output`:输出路径(支持时间戳占位符)
- `--help`:显示完整帮助信息### 4. 高级功能
- 批量生成模式(需准备titles.txt文件)
- 质量参数调整(0-100)
- 背景图片叠加## 项目结构
- config.yaml:全局配置文件
- templates/:模板目录
- fonts/:字体资源
- main.py:主程序
- template_loader.py:模板加载器## 配置说明 (config.yaml)
- defaults:输出图片宽度和高度、字体目录、默认字体
- quality_settings:输出图片质量
- template_settings:默认模板## 模板开发指南
- 创建 `templates/your_template.yaml`
- 定义模板名称、布局、背景等## 高级用法
- 使用自定义模板
- 指定字体文件
- 批量生成模式## 常见问题
- Q1: 字体加载失败
- Q2: 模板格式错误## 许可证
MIT License - 自由修改和分发,建议保留原始作者信息
三、测试结果
- 我马上进行了测试,默认的模板图片就是一张白色的图片,结果发现生成的图片文字没显示出来。
- 后来我替换了一个电脑本地的黑色字体,测试就成功了,默认模板是一张白色的图片。我想着后面只要在yaml文件里调整一下字体的坐标、布局,再用AI生成图片的工具做几个图片模板,应该就能正常使用了。
四、最后再看下调用的TOKEN数量
当然这个token数量不只是这个小实验产生的,姑且粗略计算一下
然后我把这张图和官方的价格表格的图丢给豆包帮我计算了一下,我比较懒,没有人工核对。
2025 年 1 月 25 日使用 deepseek - reasoner 的费用约为 0.89 元。
从第一张图可知,deepseek - reasoner 在 2025 年 1 月 25 日的 API 请求情况为:
输入(命中缓存):351744 tokens
输入(未命中缓存):65450 tokens
输出:17115 tokens
从第二张图可知,deepseek - reasoner 的价格为:
百万 tokens 输入价格(缓存命中):1 元
百万 tokens 输入价格(缓存未命中):4 元
百万 tokens 输出价格:16 元
计算输入费用
计算输入(命中缓存)费用:
(元)
计算输入(未命中缓存)费用:
(元)
计算输出费用
(元)
计算总费用
将输入(命中缓存)、输入(未命中缓存)和输出费用相加可得:
(元)
综上,2025 年 1 月 25 日使用 deepseek - reasoner 的费用约为 0.89 元。
五、实验感受
这次实验,工具调用的速度有点慢,不过对于我这样的小白来说,只提了一句话需求,就能做到这个程度,已经挺不错的了。价格也不算贵,要是一开始需求能更明确些,后续再不断完善,相信能做出更实用的小红书封面生成工具。