大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!

大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!DeepSeek-V3上线即开源;OpenAI 发布高级推理模型 o3icon-default.png?t=O83Ahttps://mp.weixin.qq.com/s/9qU_zzIv9ibFdJZ5cTocOw?token=47960959&lang=zh_CN

青稞·大模型Weekly」,持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。

国产DeepSeek-V3首个版本上线并同步开源

首位全职提示词工程师出新题,DeepSeek V3完全答对

DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中,以48.4分排名第二,仅次于OpenAI o1的61分。而在LiveBench的测评中,DeepSeek v3是最强的开源大语言模型,并在非推理模型中,排名第二。

图片

详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main

IBM推出开源大型语言模型Granite3.1

能处理最多128,000个令牌。

IBM开源大语言模型 Granite 3.1版本现已发布,新版本的模型经过重新设计,采用了更加密集的架构,经12种语言116种编程语言数据集训练,处理12万亿令牌。开发者可通过Hugging Face访问,助力各行业数字化转型,推动AI技术发展。更新意味着Granite在处理复杂文本和任务时的能力得到增强,Granite 3.1包括8B和2B两款不同规模的模型,均可以检测到代理工作流程中可能出现的幻觉,为函数调用提供与 RAG 相同的责任和信任,未来几个月,IBM 将继续发布 Granite 3 系列的更新模型和功能,计划于 2025 年第一季度发布新的多模式功能。

图片

详情链接:https://huggingface.co/collections/ibm-granite/granite-31-language-models-6751dbbf2f3389bec5c6f02d

OpenAI 发布高级推理模型 o3

计划明年初发布o3系列,先面向安全研究人员开放预览。

12月21日,OpenAI发布迄今最强推理模型o3,共有o3和精简版o3-mini两个版本。o3在软件工程测试中准确率比o1高近47%,竞赛数学测评的准确率比o1高15%,人类博士专家级生化物测试中准确率比o1高近13%,AGI相关测试中,o3最佳成绩87.5,超过人类水平门槛85,显示迈向类人智能取得突破,对比之下,GPT-3的评测结果为0%,GPT-4o为5%,而o3一举将成绩提升到87.5%,o3的最佳成绩超过了标志着达到人类水平的门槛85%。

OpenAI计划明年初发布o3系列模型,安全研究人员可以注册访问o3 和 o3-mini的预览。

图片

详情链接:https://openai.com/index/early-access-for-safety-testing/#how-to-apply

百川智能发布全链路领域增强大模型Baichuan4-Finance

显著提高了金融场景的整体可用性

百川智能于2024年12月23日正式发布全链路领域增强大模型Baichuan4-Finance。该模型通过高质量金融数据集和行业首创的领域自约束训练方案,实现了金融能力和通用能力的同步提升,显著提高了金融场景的整体可用性。

Baichuan4-Finance在多个评测体系中表现优异,在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。

图片

详情链接:https://platform.baichuan-ai.com/finPage

阶跃星辰发布图像生成模型Step-1X-Medium

针对东方人物形象进行深度优化,能够更好地捕捉国风人物神韵

12月26日阶跃星辰官方推出 Step-1X-Medium 增强 AI 模型,显著提升生成速度、理解能力、细节质感以及创作功能,目标成为创作者的得力助手,全新升级的 Step-1X-Medium 能够更好地理解用户输入的指令,生成更契合指令描述的图像作品。针对东方人物形象进行了深度优化,能够更好地捕捉国风人物神韵,同时,Step-1X-Medium 推出了“垫图”功能,创作者只需上传一张基础图片,模型就可以快速理解画面结构和风格,在原图的创意基础上根据指令进行细节增强、风格转化或进行局部精修的操作。

图片

详情链接:https://platform.stepfun.com/

阿里通义千问Qwen团队宣布推出 QVQ-72B-Preview开源视觉推理模型

模型专注增强视觉推理

12 月 25 日,阿里通义千问 Qwen 团队宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。

此外,在MathVista.MathVision.OlympiadBench三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。但存在语言混合、递归推理、安全伦理等问题,无法完全替代Qwen2-VL-72B。

图片

详情链接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

腾讯研究推出新型翻译模型 DRT-o1

重塑文学文本翻译

12月26日,腾讯研究院推出了一款新型AI模型——DRT-o1系列,该模型采用长思维链(CoT)技术,旨在提高文学作品的翻译质量,特别是在处理比喻和隐喻等修辞手法方面。研究团队从古腾堡计划中筛选出400本英文公共领域书籍,提取了577600个句子,并从中挑选出63000个包含明喻和隐喻的句子,用于训练DRT-o1模型。

DRT-o1模型采用了一种创新的多智能体框架,包括翻译员、顾问和评估员三个角色。这一框架通过关键词翻译、初步翻译和翻译精炼循环三个步骤,不断提升翻译质量。最终的翻译结果由GPT-4o进行润色,确保流畅性和可读性。DRT-o1系列包括DRT-o1-7B和DRT-o1-14B两个版本,实验结果显示,这两个版本在翻译质量上均有显著提升。

图片

详情链接:https://github.com/krystalan/DRT-o1

智谱AI旗下GLM-PC基座模型CogAgent-9B已开源

让 AI 智能体“看懂”屏幕

智谱技术团12月26日发宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。该模型仅需屏幕截图作为输入(无需 HTML 等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。 得益于屏幕截图和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。

图片

GitHub仓库:https://github.com/THUDM/CogAgent
HuggingFace模型库:https://huggingface.co/THUDM/cogagent-9b-20241220

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65866.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4、上一个接口返回值,作为下一个方法(接口)的变量

import requestsclass TestCase:# 设置1个类变量B "初始值"def test1(self):url "**这里是接口url**"params {"type": "json"}resp1 requests.get(urlurl, paramsparams)# .json()用于将服务器返回的 JSON 格式的响应内容解析为 P…

USB 中断传输的 PID 序列

中断传输的 PID 序列 端点在初始化后,从 DATA0 开始,每成功执行一个事务,数据包序列翻转一次(从 DATA0 变为DATA1 或从 DATA1 变为 DATA0)。 数据翻转和传输的个数没有直接关系,只由端点在初始化后处理的总数决定。 …

SAP财务凭证的更改、冲销的方式

文章目录 一、财务凭证更改二、财务凭证冲销 【SAP系统研究】 #SAP #FICO #SAP财务 一、财务凭证更改 (1)已经过账的财务凭证 FB02:过完帐的允许更改的地方有限,只有凭证抬头文本、参照、分配、文本、原因代码等。 &#xff0…

OpenCV的人脸检测模型FaceDetectorYN

OpenCV的人脸检测模型FaceDetectorYN 1. 官网地址2. 如何使用2.1.到opencv_zoo下载模型文件和代码2.2. 下载文件展示2.3. 修改了demo支持读取视频文件,默认是图片和摄像头## 2.4 效果展示 1. 官网地址 https://docs.opencv.org/4.x/df/d20/classcv_1_1FaceDetector…

vue使用el-select下拉框自定义复选框

在 Vue 开发中,高效且美观的组件能极大地提升用户体验和开发效率。在vue中使用elementplus 的 el-select下拉框实现了一个自定义的多选下拉框组件。 一、代码功能概述 这段代码创建了一个可多选的下拉框组件,通过el-select和el-checkbox-group结合的方…

01-英语准备

首先是自我介绍,中英文都可以,建议提前打好草稿然后开始背,模板网上有很多,可以自行查找,主要就是个人的一些基本情况,竞赛获奖经历,感兴趣的方向等等。接下来就是老师问的一些问题了。 做个英文…

亚信科技研发智能化实践之路

作者:亚信科技高级研发经理史伟星 亚信科技是一家专注于 To B 业务的公司。公司 1993 年成立,于 2000 年成为纳斯达克首批上市的高科技企业。2010 年,通过持续深耕,成为中国领先的通信软件产品服务商。2014 年,完成私…

==和===的区别,被坑的一天

在 JavaScript 中, 和 都用于比较两个值,但它们有一个重要的区别: 1. (宽松相等运算符) 进行比较时,会 自动类型转换(也叫做强制类型转换),即如果比较的两个值的类型不同,JavaScr…

如何不修改模型参数来强化大语言模型 (LLM) 能力?

前言 如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。 大语言模型 (Large Language Model, LLM, e.g. ChatGPT) 的参数量少则几十亿,多则上千亿,对其的训…

使用Python和OpenCV进行视觉图像分割

简介🎁 在图像处理领域,图像分割是一项基础且关键的技术,它涉及到将图像划分为若干个具有特定属性的区域。本文将通过一个实践项目,展示如何使用Python编程语言,结合OpenCV库,对一张玫瑰花的图片进行图像分…

代码解析:安卓VHAL的AIDL参考实现

以下内容基于安卓14的VHAL代码。 总体架构 参考实现采用双层架构。上层是 DefaultVehicleHal,实现了 VHAL AIDL 接口,并提供适用于所有硬件设备的通用 VHAL 逻辑。下层是 FakeVehicleHardware,实现了 IVehicleHardware 接口。此类可模拟与实…

vLLM结构化输出(Guided Decoding)

简介 vLLM 的结构化输出特性是通过“引导式解码”(Guided Decoding)实现的,这一功能允许模型在生成文本时遵循特定的格式约束,例如 JSON 模式或正则表达式,从而确保生成的内容符合预期的结构化要求。 后端引擎 启动…

部署SenseVoice

依赖 Conda cuda pythor 查看GPU版本-CSDN博客 创建虚拟conda环境 conda create --name deeplearn python3.10 conda activate deeplearn git clone https://github.com/FunAudioLLM/SenseVoice.git cd SenseVoice pip install -r requirements.txt pip install gradio pip …

基于51单片机(STC32G12K128)和8X8彩色点阵屏(WS2812B驱动)的小游戏《贪吃蛇》

目录 系列文章目录前言一、效果展示二、原理分析三、各模块代码1、定时器02、矩阵按键模块3、8X8彩色点阵屏 四、主函数总结 系列文章目录 前言 《贪吃蛇》,一款经典的、怀旧的小游戏,单片机入门必写程序。 以《贪吃蛇》为载体,熟悉各种屏幕…

关于flinkCDC监控mysql binlog时,datetime类型自动转换成时间戳类型问题

flinkCDC监控mysql binlog时,datetime类型自动转换成时间戳类型 问题解决1.自定义转换器类2.代码引用 结果 问题 flink版本:1.18.1,mysql版本:8.0.40 使用FlinkCDC的MySqlSource 连接mysql,对于datetime 类型字段&…

SwiftUI 撸码常见错误 2 例漫谈

概述 在 SwiftUI 日常撸码过程中,头发尚且还算茂盛的小码农们经常会犯这样那样的错误。虽然犯这些错的原因都很简单,但有时想要快速准确的定位它们却并不容易。 况且这些错误还可能在模拟器和 Xcode 预览(Preview)表现的行为不甚…

【Unity】 HTFramework框架(五十八)【进阶篇】资源及代码热更新实战演示(Deployment + HybridCLR)

更新日期:2025年1月2日。 Github源码:[点我获取源码] 索引 资源及代码热更新实战演示运行演示Demo1.克隆项目工程2.更新子模块3.打开项目4.打开入口场景5.设置远端资源服务器地址6.导入HybridCLR7.初始化HybridCLR8.发布项目9.部署资源版本10.运行Exe11.…

(五)人工智能进阶:基础概念解释

前面我们介绍了人工智能是如何成为一个强大函数。接下来,搞清损失函数、优化方法和正则化等核心概念,才能真正驾驭它! 1. 什么是网络模型? 网络模型就像是一个精密的流水线工厂,由多个车间(层&#xff0…

初学STM32 --- 外部SRAM

SRAM简介 静态随机存取存储器(Static Random-Access Memory,SRAM) 1M字节容量的SRAM芯片XM8A51216为例介绍。 SRAM特性: 高速:具有最高访问速度15ns 低功耗:80MHz时55mA,待机电流 20mA TTL电平兼容 …

Zabbix:自动发现功能讲解,包括网络发现、自动注册、低级别自动发现以及案例分享。

ZBX:自动发现功能讲解 视频讲解:Zabbix 自动发现网络发现概述操作方法 自动注册概述操作方法 低级别自动发现概述工作原理及工作流程案例1,base进程监控要求:步骤: 案例2,磁盘IO监控要求:步骤&a…