# | 2025年1月 | 2025年2月2日 |
---|---|---|
1 | DeepSeek-R1 | 当红炸子鸡,国人之骄傲!项目于 2025 年 1 月 20 日正式发布。早期的预览版(如 DeepSeek-R1-Lite-Preview)则在 2024 年 11 月 20 日亮相。 用途:DeepSeek-R1 是一个开源的推理模型(参数规模达 671B),旨在提供与 OpenAI o1 相媲美的性能。它通过大规模强化学习(RL)训练,专注于数学、代码生成和复杂推理任务。具体用途包括: 代码生成与调试:帮助开发者编写代码、修复错误。 数学问题求解:处理高中及以上难度的数学推理题。 通用推理:支持多语言、自然语言处理及逻辑推理。 研究与商业:模型采用 MIT 许可证,允许社区自由使用、修改和商业化,支持从其输出中提炼小型模型(如基于 Llama 和 Qwen 的六个精炼模型)。 该项目还提供 API 和在线平台(如 chat.deepseek.com 的 DeepThink),便于用户直接体验其推理能力。 |
2 | DeepSeek-V3 | 项目于 2024 年 12 月 25 日正式发布并开源。预览版则稍早于 2024 年 11 月底亮相。 用途:DeepSeek-V3 是一个开源的混合专家(MoE)语言模型,总参数规模达 671B(每 token 激活 37B),旨在提供高效、低成本且强大的语言处理能力。其主要用途包括: 通用语言任务:支持自然语言生成、对话、文本理解等多场景应用。 推理与专业任务:在数学推理、代码生成和复杂问题求解方面表现出色,可媲美 GPT-4o 等闭源模型。 研究与商业:采用 MIT 许可证,完全开源,支持社区自由下载、使用和修改,适用于学术研究、模型蒸馏以及商业开发。 高效部署:通过多头隐式注意力(MLA)和 DeepSeekMoE 架构优化,实现低显存需求和高推理速度,支持多 GPU(如 NVIDIA、AMD)环境运行。 该模型在 14.8 万亿高质量 token 上预训练,并经过监督微调和强化学习优化,提供 API 和本地部署选项(如 chat.deepseek.com)。 |
3 | awesome-deepseek-integration | 由 DeepSeek-AI 团队开发的一个开源项目。该项目旨在为开发者提供一个关于 DeepSeek 平台的集成资源汇总,帮助开发者更方便地将 DeepSeek 的功能集成到不同的应用和系统中。这个项目包含了一些实用的工具、库和示例代码,供开发者参考和使用。其主要用途包括: 应用集成:列出支持 DeepSeek 的应用程序(如聊天工具、翻译软件、知识管理工具等)。 开发框架:提供 AI Agent 框架(如 Anda)和 RAG(检索增强生成)框架的集成示例。 插件支持:包括浏览器插件(如 Immersive Translate)、VS Code 插件和生产力工具(如 Raycast)。 |
4 | DeepSeek-Coder | 一系列专为编程任务设计的开源代码语言模型,参数规模从 1.3B 到 33B 不等。它可以用于代码生成、代码补全、修复 bug、数据分析以及构建游戏等任务。项目支持多种编程语言(最初支持 86 种,后续版本扩展至 338 种),并具备强大的项目级代码处理能力(通过 16K 的窗口大小和填空任务训练)。它旨在为开发者提供高效的编程辅助工具,同时免费且完全开源,支持研究和商业使用。 |
5 | unsloth | 个开源框架,旨在高效微调和训练大语言模型(如 Llama-3、Mistral、Phi-4、Qwen 2.5、Gemma 等)。它通过手动优化数学计算和手写 GPU 内核,使模型微调速度提升 2-5 倍,同时减少约 70% 的显存需求,且精度无损。支持的功能包括代码生成、推理加速、支持超长上下文(最高达 228K token),以及与 Hugging Face 生态集成。主要用途是为开发者提供更快、更省资源的 LLM 微调工具,适用于本地或云端(如 Google Colab)环境,广泛用于研究和商业场景。 |
6 | browser-use | 一个开源工具,旨在让 AI 代理能够控制和操作浏览器,使网站对 AI 更具可访问性。它通过提供简洁的接口,支持 AI 执行复杂的浏览器任务,如网页浏览、数据提取、表单填写等自动化操作。具体用途包括: 自动化网页导航和交互(如搜索、点击链接)。 支持多标签页管理和并行处理复杂工作流。 与多种大语言模型(如 OpenAI、DeepSeek、Gemini 等)集成,用于智能任务处理。 可用于个人项目(如自动填写表单)或研究(如 WebVoyager 数据集测试,当前性能达到 89%)。 该项目适用于开发者、研究人员以及需要高效浏览器自动化的用户,支持自定义浏览器会话和云端部署。 |
7 | hummingbot | 开源软件,帮助您创建和部署高频加密交易机器人.Hummingbot是一个开源框架,帮助您设计和部署可以在许多集中式或去中心化交易所运行的自动交易策略或机器人。在过去的一年中,Hummingbot用户在140多个独特的交易场所上产生了超过340亿美元的交易量。Hummingbot 连接器标准化了不同类型交易所的 REST 和 WebSocket API 接口,使您能够构建复杂的交易策略,这些策略可以在多个交易所上以最小的更改进行部署。 |
8 | minimind | 2小时完全从0训练26M的小参数GPT!此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!(为防止误解,“2小时” 基于NVIDIA 3090硬件设备(单卡)测试,“3块钱” 指GPU服务器租用成本)即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量,最小版本体积是 GPT-3 的 7000分之一 ,力求做到最普通的个人GPU也可快速训练。 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。 MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。 项目所有核心算法代码均从0使用PyTorch原生重构!不依赖第三方库提供的抽象接口。 这不仅是大语言模型的全阶段开源复现,也是一个入门LLM的教程。 |
9 | grok-1 | Grok-1 的基础模型训练于 2023 年 10 月完成,标志着模型的预训练阶段结束。随后,xAI 于 2023 年 11 月 4 日将基于 Grok-1 的聊天机器人发布给 X Premium 用户,这被视为模型的首次公共可用性。2024 年 3 月 17 日,xAI 进一步开源了 Grok-1 的权重和架构,允许研究人员和开发者访问其技术细节。 |
10 | keep | 一个开源的 AIOps 和警报管理平台,旨在提供一个统一的界面(单窗格)来管理来自各种监控工具的警报。它利用 AI 技术进行警报去重、丰富、过滤和相关性分析,并支持可定制的工作流,帮助团队减少警报噪音,专注于关键问题。例如,它可以自动将严重警报转换为 Jira 工单,或通过 Slack 通知相关团队。平台还集成了多种工具,如 Anthropic、OpenAI、Datadog 和 Prometheus,适合需要高效警报管理的团队。例如,一个使用场景可能是:一家科技公司使用多个监控工具(如 Datadog 和 Sentry),每天收到数千个警报。通过 Keep,他们可以配置工作流自动将高严重性警报转换为 ServiceNow 工单,并通过 Slack 通知值班团队,同时 AI 相关性分析帮助识别重复警报,显著减少手动处理时间。 另一个场景是小型 Kubernetes 团队,他们可以使用 Keep 作为 Prometheus 警报的单窗格界面,通过简单的 Helm 安装快速上手,社区支持通过 Slack 提供。 |
11 | agno | 一个轻量级框架,旨在构建多模态智能体(Agents).Agno 的主要用途是帮助开发者快速构建和部署多模态智能体,适用于需要集成多种数据模态(如文本、图像、音频等)的应用场景。无论是构建聊天机器人、智能助手,还是其他需要多模态数据处理的人工智能应用,Agno 都能提供高效、简洁的解决方案。 |
12 | OpenHands | 原名 OpenDevin,是由 All-Hands-AI 组织开发的人工智能驱动的软件开发代理平台。该平台旨在通过 AI 技术增强软件开发流程,支持开发者执行从代码编写、命令行操作到网页浏览等多种任务,功能几乎与人类开发者相当。 |
分类: Python开源项目月排行标签: Deep Seek 量化
注:当前文章会不定期进行更新。如果您对本文有更好的建议,有新资料推荐, 可以点击: 欢迎分享优秀网站 。