AI大模型日报#0607:10家国产大模型、GPT-4o挑战高考作文 | OpenAI公开破解GPT-4新方法

导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!

目前采用“文心一言”(ERNIE 4.0)、“零一万物”(Yi-Large)生成了今日要点以及每条资讯的摘要。欢迎阅读!

《AI大模型日报》今日要点:阿里云推出的Qwen2大语言模型系列在性能上全面超越Llama3与国内其他闭源大模型,其72B版本在多项能力上表现卓越,得益于优化的预训练数据、训练方法及精细微调。同时,新加坡国立大学提出名为SymbCoT的推理框架,结合符号化逻辑表达式与思维链,显著提升了大语言模型(LLMs)的推理质量、鲁棒性和可信度,该成果已获ACL 2024会议录用。另一方面,随着高考作文聚焦AI,10家国产大模型与GPT-4共同进行了一场作文PK,展现了各自的观点与风格,并自我评分,揭示了AI在教育与思维训练中的潜力。此外,百奥几何发布的抗体设计生成式AI大模型GeoFlow,性能与AlphaFold3相当,标志着生成式AI在大分子设计领域的重大进展。OpenAI也公开了新方法,将GPT-4的内部表征解构为大量可理解特征,提升了对模型内部思维的理解。最后,快手推出的AI「可灵」视频生成大模型以其出色的物理特性模拟与复杂运动刻画能力受到关注,同时智谱AI通过推出高性价比大模型与MaaS模式,有望在中国企业服务市场中脱颖而出。

标题: 阿里Qwen2正式开源,性能全方位包围Llama-3
 


摘要: 中国科技巨头阿里云推出的Qwen2大语言模型系列,在性能上超越了业界知名的开源模型Llama3-70B,以及国内闭源大模型如文心4.0等。Qwen2-72B模型在自然语言理解、知识、代码、数学及多语言等多项能力上均表现出色,研究团队通过优化预训练数据和训练方法,以及精细的微调过程,提升了模型的智能水平。Qwen2系列模型在16个基准测试中表现优异,并在提升基础能力以及对齐人类价值观这两方面取得了较好的平衡。Qwen2-72B-Instruct在所有评测中均大幅超越了Qwen1.5的72B模型,并且取得了匹敌Llama-3-70B-Instruct的表现。Qwen2系列中的其他模型,如Qwen2-7B-Instruct,在代码及中文理解上也展现出显著优势。自开源以来,Qwen2系列模型在全球开源社区中占据重要位置,为全球开发者提供了更多的选择。
网址: 阿里Qwen2正式开源,性能全方位包围Llama-3 | 机器之心
 
标题: ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
 


摘要:  徐俊东,本文第一作者,拥有伦敦大学学院和新加坡国立大学的教育背景,专注于大语言模型的推理能力研究。其个人主页为https://aiden0526.github.io/JundongXu/。 新加坡国立大学的研究人员提出了一种名为SymbCoT的推理框架,该框架结合了符号化逻辑表达式与思维链,旨在提升大语言模型(LLMs)的推理质量、鲁棒性和可信度。该工作已被ACL 2024会议录用,论文标题为“Faithful Logical Reasoning via Symbolic Chain-of-Thought”,论文和代码地址分别为https://arxiv.org/pdf/2405.18357.pdf和https://github.com/Aiden0526/SymbCoT。 SymbCoT框架包含四个部分:翻译、规划、执行和验证。它通过对比翻译前后的语义信息,验证翻译和执行过程中的准确性,并纠正错误。实验结果显示,SymbCoT在多个复杂逻辑推理数据集上超越了现有方法,包括直接提示、传统CoT和使用外部推理工具的方法。 该研究在社交媒体上引起了广泛关注,被认为有助于改进高级工作流程,构建更可靠和智能的LLM AI代理。
网址: ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了 | 机器之心
 
标题: 10家国产大模型、GPT-4o共同挑战新鲜高考作文,还自我打分,谁是第一?
 


摘要: 科技记者报道: 随着2024年高考语文作文题目聚焦人工智能,10家国产大模型展开了一场别开生面的高考作文PK。参赛选手包括百度文心一言、阿里通义千问、腾讯元宝、字节豆包、Kimi、智谱清言、科大讯飞星火、百川智能百小应、商汤商量、昆仑万维天工,以及GPT-4作为踢馆选手。它们围绕“随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?”这一主题,撰写议论文并自评打分。 各家大模型在作文中展现了不同的观点和风格。文心一言探讨了科技进步与问题之间的关系,认为科技并未减少问题数量,而是改变了我们与问题之间的关系。通义千问强调了在信息洪流中筛选高质量问题的重要性。腾讯元宝则认为问题本质并未因技术进步而消失,反而呈现出更为复杂多元的趋势。字节豆包呼吁在信息时代保持问题意识,不断探索前行。Kimi则讨论了互联网和人工智能在解决问题上的双刃剑效应。 最终,各家大模型给自己的作文打分,评分标准包括选准角度、确定立意、明确文体、自拟标题等。这场AI作文大赛不仅展示了国产大模型的语言表达能力,也引发了关于人工智能在教育和思维训练中作用的深入思考。
网址: 10家国产大模型、GPT-4o共同挑战新鲜高考作文,还自我打分,谁是第一? | 机器之心
 
标题: 与AlphaFold3持平!国产抗体设计生成式AI大模型发布,能同时预测抗原抗体复合物结构和抗体从头设计


摘要: 国产抗体设计生成式AI大模型GeoFlow发布,性能与AlphaFold3持平。该模型由百奥几何公司研发,能够同时预测抗原抗体复合物结构和抗体从头设计。GeoFlow在66个复合物结构测试集中成功率达43.9%,与AlphaFold3相当。研发团队采用几何深度学习架构和流匹配生成模型,在原子层面对抗原抗体相互作用力进行建模。GeoFlow不仅用于复合物结构预测,还可用于抗体从头设计和优化,展现了生成式AI在大分子设计领域的应用前景。
网址: 与AlphaFold3持平!国产抗体设计生成式AI大模型发布,能同时预测抗原抗体复合物结构和抗体从头设计 | 量子位
 
标题: OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!
 


摘要: 科技记者报道: OpenAI近日公布了一种新方法,旨在破解其旗舰语言模型GPT-4的内部工作机制。这项研究由OpenAI的超级对齐团队进行,其中包括了Ilya Sutskever的参与。研究的核心是将GPT-4的内部表征解构为1600万个可理解的特征,这使得复杂语言模型的内部工作变得更加透明。 研究人员通过改进大规模训练稀疏自编码器的方法,成功地实现了这一突破。这种方法允许直接设置L0,消除了特征缩减问题,并允许直接设置L0。研究发现,这种方法在均方误差/L0边界上表现良好,并且在1600万的规模下,几乎没有失活的潜在单元。 这项研究是理解和解释神经网络工作原理的重要一步。它不仅有助于提升对模型内部思维的理解,还可能对未来的AI研究和开发产生深远影响。
网址: OpenAI公开破解GPT-4思维的新方法,Ilya也参与了! | 量子位
 
标题: 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
 


摘要: 国产AI「可灵」视频生成大模型采用Sora技术路线,结合自研创新,生成视频运动幅度大且合理,模拟物理世界特性,具备强大概念组合能力和想象力。支持2分钟30fps超长视频,分辨率高达1080p,多种宽高比。由快手推出,已在快影APP中开启邀测。可灵不仅在想象力上丰富,在描绘运动时符合真实运动规律,复杂运动也能准确刻画,并能模拟真实物理世界特性。技术上,可灵采用原生视频生成技术路线,模型设计、数据保障、计算效率、模型能力扩展等方面均有独特技术应用。自建高质量数据筛选方案,使用分布式训练集群,并通过算子优化、重算策略优化等手段提升硬件利用率。分阶段训练策略结合量与质,确保模型在训练的各个阶段均能得到优化提升。可灵还支持多种控制信息输入,为用户提供丰富的内容控制能力。
网址: 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 - 智源社区
 
标题: 为什么说国产大模型的野心,都藏在 MaaS 的生态中
 


摘要: 科技记者摘要: 中国企业服务市场长期面临挑战,SaaS 公司难以实现标准化与盈利并重。然而,随着大模型时代的到来,智谱 AI 等公司通过推出升级版 GLM-4-9B 开源模型,以及 GLM-4 模型的降价策略,为行业带来了新的希望。这些模型不仅性能提升,价格也大幅下降,为企业提供了更具性价比的选择。智谱 AI 还针对企业需求推出了定向降价策略,包括 GLM-4-Air 极速版等,以满足不同企业的需求。大模型的降价策略不仅是一场价格战,更是技术实力的较量,智谱 AI 通过规模效应和 MaaS(模型即服务)模式,有望在竞争激烈的市场中脱颖而出。
网址: 为什么说国产大模型的野心,都藏在 MaaS 的生态中 | 极客公园

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/24161.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TS 系列:使用元祖生成联合类型

需求:有这么个需求,我们有两个数组,一个记录扑克牌花色,一个记录扑克牌点数,需要有一个函数,传递两个值,根据传递的值生成扑克牌,需要我们定义参数的类型检查。 思路:肯…

2024速通python之python高阶技巧

文章目录 一、闭包1.什么是闭包2.优缺点3.nonlocal关键字 二、装饰器1.什么是装饰器2.举例3.传统方式4.装饰器方式5.语法糖写法 三、多线程1.线程参数2.多线程编程 四、网络编程1.Socket服务端编程2.Socket客户端编程 「章节总览」       【2024速通python之python基础…

超过20W个高质量组件的开源PCB库

项目介绍 Celestial Altium Library是由Altium行业专家Mark Harris创建的一个庞大的免费开源数据库库,专为Altium Designer而设计,库中包含超过20万个优质组件 . 特点 高质量数据:Celestial Altium Library注重数据的质量,用户可…

Day14:响应式网页

通过媒体查询、Bootstrap 框架完成腾讯全端网页响应式布局。 一、响应式布局方案 1、什么是响应式布局 它的主要特点是能够使网页根据不同的设备屏幕尺寸(如桌面电脑、平板电脑、手机等)和分辨率自动调整布局和显示效果,以提供最佳的用户体…

python的plt.axis()、plt.xlim() 和 plt.ylim()函数

坐标轴相关设置1、plt.axis():坐标轴设置 函数 plt.axis(*v, **kwargs) 主要用于设置坐标轴的属性,返回值为当前的坐标轴范围 [xmin, xmax, ymin, ymax],几种调用方式如下: 调用方式 说明 axis() 返回当前的坐标轴范围 [xmin, xmax, ymi…

pytorch构建模型训练数据集

pytorch构建模型训练数据集 pytorch构建模型训练数据集1.AlexNet:1.1.导入必要的库:1.2.数据预处理和增强:1.3.加载数据集:1.4.划分测试集和训练集:1.5.创建数据加载器:1.6.加载AlexNet模型:1.7.修改模型以…

qt qDebug兼容LOGE

目录 普通qDebug用法 qt qDebug兼容LOGE 模板参数2实现 qDebug 实现LOGE一样的用法,这样Android和qt同时支持LOGE打印日志 普通qDebug用法 #include <QApplication> #include <QDebug>int main(int argc, char *argv[]) {QApplication app(argc, argv);int ret…

帝国cms接入腾讯云人脸识别认证代码

利用帝国cms在做一些会员系统的时候&#xff0c;需要做人脸识别认证&#xff0c;之前接入了某api接口&#xff0c;发现身份证识别率真的低&#xff0c;还好充值的少&#xff0c;否则要出问题&#xff0c;后来发现会员注册率降低了不少&#xff0c;最终还是决定使用腾讯云的人脸…

三十五篇:数字化转型的引擎:赋能企业的ERP系统全景

数字化转型的引擎&#xff1a;赋能企业的ERP系统全景 1. 引言 在这个快速变化的数字时代&#xff0c;现代企业面临着前所未有的挑战和机遇。企业资源计划&#xff08;ERP&#xff09;系统&#xff0c;作为数字化转型的核心&#xff0c;扮演着至关重要的角色。它不仅是企业运营…

第二十六章HTML与CSS书写规范

1.HTML书写规范 1.文档类型声明及编码 统一为html5 声明类型。编码统一为utf-8。 2.页面tdk TDK是一个缩写&#xff0c;其中“T”表示为网页定义标题&#xff0c;“D”表示为网页定义描述 description&#xff0c;“K”表示为搜索引擎定义关键词keywords。 1、<title&g…

NFT Insider #133:苏富比将拍卖BAYC系列NFT,Taiko创世NFT系列已上线

引言&#xff1a;NFT Insider由NFT收藏组织WHALE Members &#xff08;https://twitter.com/WHALEMembers&#xff09;、BeepCrypto &#xff08;https://twitter.com/beep_crypto&#xff09;联合出品&#xff0c;浓缩每周NFT新闻&#xff0c;为大家带来关于NFT最全面、最新鲜…

立创·天空星开发板-GD32F407VE-EXTI

本文以 立创天空星开发板-GD32F407VET6-青春版 作为学习的板子&#xff0c;记录学习笔记。 立创天空星开发板-GD32F407VE-EXTI 中断硬件触发中断示例软件触发中断示例 中断 中断分为内部中断和外部中断 外部中断是由外部设备&#xff08;如按键、传感器、通信接口等&#xff09…

rollup.js(入门篇)

前沿 Rollup 是一个用于 JavaScript 的模块打包工具&#xff0c;它将小的代码片段编译成更大、更复杂的代码&#xff0c;例如库或应用程序。它使用 JavaScript 的 ES6 版本中包含的新标准化代码模块格式&#xff0c;而不是以前的 CommonJS 和 AMD 等特殊解决方案。ES 模块允许…

如何在Python中处理时间和日期

在Python中处理时间和日期&#xff0c;我们通常使用内置的datetime模块。这个模块提供了类来操作日期和时间&#xff0c;包括date、time、datetime、timedelta以及tzinfo。以下是datetime模块的一些基本用法&#xff1a; 1. 获取当前日期和时间 python复制代码 from datetime…

Linux编程for、while循环if判断以及case语句用法

简介 语法描述if条件语句if else条件判断语句if else-if else多条件判断语句for循环执行命令while循环执行命令until直到条件为真时停止循环case ... esac多选择语句break跳出循环continue跳出当前循环 1. for 循环 for语句&#xff0c;定量循环&#xff0c;可以遍历一个列表…

一文读懂AI时代GPU的内存新宠-HBM

一文读懂GPU最强辅助&#xff1a;HBM HBM&#xff0c;即高带宽内存&#xff0c;是一项领先的3D堆叠DRAM技术&#xff0c;专为高性能计算和图形处理单元&#xff08;GPU&#xff09;设计&#xff0c;满足其对内存带宽和容量的极致需求。该技术由AMD与海力士携手研发&#xff0c;…

Apache安装教程

目录 一、Apache知识点 Apache服务简介 Apache下载网址 Apache的主要特点 二、Apache服务的搭建 1. 关闭防火墙 2. 安装依赖环境以及编译工具 3. 将apache安装包拖入xshell内 4. 解压压缩包 5. 进入httpd主包 6. 指定安装路径&#xff0c;启用字符集支持等 7. 优化执…

重庆工商大学社会工作专业试题及答案,分享几个实用搜题和学习工具 #媒体#学习方法#知识分享

搜题软件一般都是通过识别题目内容搜索出问题的答案&#xff0c;当识别内容不正确或搜索不到答案时&#xff0c;又得重新到其他软件进行重复的操作&#xff0c;很是麻烦。所以我们可以使用专业的识别工具&#xff0c;对题目内容进行识别&#xff0c;然后把提取出来的内容单独保…

流量录制学习

AREX Cloud | AREX (arextest.com) 流量录制学习&#xff0c;比vivo的moonbox要好用

android 异屏同显二.

android主屏: android副屏 | | mediaProjection ----SufaceTextrue ---Open…