百川大模型拿下国产第一,AI助手「百小应」上线,比Kimi强不少

最近几天,国内 AI 创业公司正在连续刷新大模型的能力上限。

5 月 22 日,百川智能发布最新一代基座大模型 Baichuan 4,同时推出了首款 AI 助手「百小应」。

相较 1 月份发布的 Baichuan 3,新一代模型在各项能力上均有大幅提升,其中通用能力提升超过 10%,数学和代码能力分别提升 14% 和 9%,在国内权威大模型评测机构 SuperCLUE 的评测中,Baichuan-4 大模型能力排名国内第一,超越了 SenseChat V5。

「在通往 AGI 的路上,我们需要超级模型 + 超级应用的双轮驱动。这是百川自去年成立时确立的基本理念,」百川智能创始人、CEO 王小川表示。「模型能力与超级应用都非常重要。这次的发布,是我们在这条道路上的进步。」

图片

本次更新的 Baichun 4 大模型首次带来了多模态能力。百川表示,新模型在各大评测基准上表现优异,领先 Gemini Pro、Claude3-sonnet 等多模态模型。

尽管带来了多模态能力,但接下来的技术发展规划中,自然语言仍然是重点。王小川表示,大模型的核心是语言智能,推理能力仍然需要突破,多模态没有智力,只是对世界的复现。

「今天的大模型自洽性都不够,模型思考缺乏严谨性。有足够好的逻辑是更加重要的事。我不认为模型的长文本是唯一的事情,现在 AI 公司在长文本上竞争,但长文本只是做大的必要条件,不是充分条件。我认为模型本身未来更要强调内在的自洽性和推理能力,这两件事并不是靠长窗口去解决的,」王小川表示。

在 Baichuan 4 强大能力的基础上,百川智能将搜索技术与大模型深度融合,推出懂搜索、会提问的 AI 助手「百小应」。

图片

百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索等搜索能力,能更精准地理解用户需求,为用户提供专业、丰富的知识和资源。此外还会在用户问题的基础上通过一系列提问来帮助用户明确自身需求,给出更精准的答案。

百小应现在已经在 Web 端、iOS 和安卓应用商店同步上线,链接:https://ying.baichuan-ai.com/chat

此外,百川智能还宣布开放 Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API 四款 API,所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应 API,便捷高效地体验百川智能新一代模型的强大能力。

图片

新模型能力国内第一

多项能力超越国外主流模型

作为百川智能发布的最新一代基座大模型,Baichuan 4 在国内权威大模型评测机构 SuperCLUE 的评测中,模型能力国内第一,相较上一代大模型 Baichuan 3 提升显著。

图片

不仅如此,与国外主流大模型对比,Baichuan4 在知识百科、长文本、生成创作等文科类中文任务上明显优于国外大模型。

图片

Baichuan 4 能在较短的时间内取得突破,源于其在训练过程中引入了诸多业界领先的技术优化手段。例如,其在预训练阶段采用了基于 Model-based+Human-based 的协同数据筛选优化方法,以及对长文本建模位置编码科学的 Scaling Law,有效提升了模型对数据的利用。

在对齐阶段,新模型重点优化了模型 Reasoning、Planning、Instruct following 能力,通过 loss 驱动的数据选取与训练,多阶段爬坡,多模型参数融合等方式有效提升了模型的关键指标和稳定性。同时突破 RLHF 和 RLAIF 融合的 RLxF 强化学习对齐技术,大幅提升模型的指令遵循等能力。

此外,Baichuan 4 还具备行业领先的多模态能力,在 MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista 等评测基准上表现优异,大幅领先 Gemini Pro、Claude3-sonnet 等多模态模型。

图片

首款 AI 助手百小应

懂搜索、会提问

「百小应」是百川智能成立之后推出的首款 AI 应用。百川智能认为,不同于信息时代工具属性的产品,大模型创造的是新物种,让 AI 从工具变为伙伴。虽然受限于模型能力,当下的 AI 应用还无法完全做到如同人一样,能够使用工具、会思考、有情感等,但随着模型能力的持续提升,相关应用一定会逐步具备完整能力。

为了让用户能够拥有更优质的智能体验,百小应很好地融合了 Baichan 4 行业领先的通用能力与百川智能前沿的搜索技术,具备多步搜索、智能定向搜索等能力,将百小应打造成一款懂搜索、会提问的 AI 助手。

百川着重展示了百小应交互中的多轮搜索能力。针对用户提出的问题,百小应可以逐步解析,深入探究,解锁问题的核心答案。相比单轮搜索,在市场调研、产业分析等复杂场景下,多轮搜索能够有效地获取更专业、更有深度的信息。定向搜索则能让百小应精准定位问题领域,直接访问权威站点,快速、准确地找到相关信息。

在搜索结果呈现方面,百小应同样与其他在单次搜索后「简单总结网页信息」的应用不同,会将搜索结果作为观点、论据直接应用到问答结果中。与此同时,其结果的结构化也非常优秀,能够将搜索结果以表格等结构化形式呈现,优化信息布局,便于用户快速定位、解读所需信息,可以为行业分析、调研工作提供助力。此外,百小应还在搜索结果中增加了来源参考,用户只需点击引用角标即可快速校验搜索结果。

不仅如此,针对一部分用户无法明确表述出自身需求,或者问题过于笼统、抽象的情况,百小应还会通过反问的方式,多轮交互定位需求,构建个性化解决方案,给出更精准的答案。

除了强大的搜索和提问功能以外,用户还能在百小应中上传 PDF、word 文档,或者直接输入网页链接(URL),阅读并分析书籍、报告、学术论文等长篇内容,仅用一分钟便能读完上市公司财报。在 Baichuan 4 多模态能力的支持下,用户在提问的同时还可以同步上传图片,对图片内容进行解读,或者将图片作为补充材料,获取更精准的回答;并且,它还支持用户通过语音的方式进行交互。

百小应的名称源自「一呼百应」,icon 中的橙色区别于科技领域常用的冷色调,寓意有温度的人工智能,icon 中的形象由水滴和对话气泡组合而成,水滴象征百川入海的无尽智慧,对话气泡象征沟通交流。

图片

MaaS 1000 万免费

token、AaaS 免费试用

百川智能认为,企业客户需要的并不是大模型,而是生产力、生产效率的提升,拥有 MaaS+ AaaS(Agent as a service)双重能力,企业才能构建出智能化的最佳方案。

秉持这一理念,百川智能推出了全新的 MaaS+AaaS 服务。MaaS 版块由基座模型组成,分为旗舰版和专业版。旗舰版将全量开放 Baichuan 4 的各项能力,Baichuan 4 不仅拥有国内第一的中文能力,并且具备行业领先的金融知识和问答能力,在 SuperCLUE 的金融知识百科能力上 Baichuan 3 就已取得了 A + 的最高评级。

专业版包含 Baichuan3-Turbo 和 Baichuan3-Turbo-128K 两款模型,在价格方面相比旗舰版 Baichuan 4 更实惠,且均针对企业用的高频场景进行了针对性优化,综合测试相比 GPT3.5 整体效果提升 8.9%。百川智能表示,即日起,MaaS 的新用户可以获得 1000 万免费 token。

Assitants API 是百川智能在 Baichuan 4 基础上针对 Agent 构建推出的 API 接口,不仅支持 Code interpreter、RAG 内建工具,还支持自定义工具调用,方便企业接入各种丰富复杂的 API。评测结果显示其工具调用能力接近 Open AI Assistants API,本次发布的 Assitants API 现已正式开启公测,感兴趣的用户均可申请免费试用。

未来,百川智能将推出零代码 Agent 创建平台产品,让业务人员通过自然语言的方式,也能创建 Agent,更好地赋能企业智能化发展。

不过除此之外,百川似乎并不热衷于投身目前竞争激烈的大模型 API 价格战。

「中国商业环境里 to B 的市场规模比 to C 小 10 倍,to B 收的是人民币,花的是美金。到最后大厂都会卷这件事,只是没想到大家卷得这么狠,价格已经打到零了。这肯定是大厂射程范围内的,而我们肯定要做差异化,」王小川表示。

面向消费端的百小应,是百川智能投身超级应用的重要一步。

图片

百小应不仅没有上套,还直接点破了这个套路:拼多多成立于2015年9月,所以2010年没有用户数据。

百小应与文心一言、Kimi 智能助手相似,面向C端消费市场,主打卖点是“懂搜索,会提问”,这没有跑出目前很火的AI搜索应用的范畴。

根据介绍,百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索、提供嵌入式搜索结果等三重搜索能力。此外,还会在用户问题的基础上,通过一系列提问来帮助用户明确自身需求,给出更精准的答案。并且,它还支持用户通过语音进行交互。

基于百川基座大模型的能力,“会提问”也是百小应与其他简单语音助手的重要差异点。比如当用户问引擎盖打不开了怎么办,它会先询问车辆的品牌和型号,以及是哪一年的车,再给出精准的回答。王小川对此解释说,“大模型要理解人的意图,实现从’助手’向’伙伴’的转变。”

其实,单从名字上就能看出他对“百小应”的期待:一呼百应,从小问题见大能力。但王小川也承认,百小应和他要的形象还有一定的距离,实际效果没有达到他想要的“超级应用”状态。现阶段市场上,既没有超级模型,也没有超级应用。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/16772.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何与“病态”的人建立友谊:一种基于理解与接纳的视角

在我们的生活中,我们经常会遇到一些行为举止让我们感到不适或难以理解的人。这些人可能因为他们的某些行为被标签为“病态”,但真的应该如此简单地对他们进行评判吗?本文将探讨如何与被视为“病态”的人建立友谊,以及为什么这种接…

【云擎未来,智信天下】移动云服务器Docker部署+远程连接Redis

文章目录 引言: 移动云:云擎未来,智信天下一、什么是Redis?二、Redis 与其他 key-value 存储有什么不同?Redis 架构 三、环境准备四、部署流程使用Redis Desktop Manager远程连接操作数据库总结与未来展望云擎未来&…

java nio FileChannel堆内堆外数据读写全流程分析及使用(附详细流程图)

这里是小奏,觉得文章不错可以关注公众号小奏技术 背景 java nio中文件读写不管是普通文件读写,还是基于mmap实现零拷贝,都离不开FileChannel这个类。 随便打开RocketMQ 源码搜索FileChannel 就可以看到使用频率 kafka也是 所以在java中文件读写FileCh…

集合的概述

java集合框架(Java Collections Framework)为开发者提供了一系列通用容器,所谓容器就是可以容纳其他对象的对象,在jdk1.2开始,就提供了通用容器。 1.Java集合框架的概述 容器是用于容纳其他对象的对象,因此基本数据类型无法直接使…

聚数力 以数兴 | 与“闽”同行,共话数字未来

闽江之畔,数智腾飞。5月24日,第七届数字中国建设峰会在海峡国际会展中心盛大举办。本届展会的主题是“释放数据要素价值,发展新质生产力”,由国家发展改革委、国家数据局、福建省人民政府等单位共同主办,福州市人民政府…

数据恢复的救星!快速恢复手机数据的2个秘籍!

当我们的照片、视频、联系人、短信和应用程序丢失时,许多人可能会感到束手无策,无论是珍贵的照片、重要的工作文件还是个人的联系方式,一旦丢失,都可能带来极大的不便和困扰。但随着数据恢复技术的发展,我们有了更多的…

锐捷网络与您相约第七届数字中国建设峰会 共话数字未来

第七届数字中国建设峰会将于5月24日至25日在福建福州举办,本届峰会是国家数据工作体系优化调整后首次举办的数字中国建设峰会,主题是“释放数据要素价值,发展新质生产力”。作为行业领先的ICT基础设施及解决方案提供商,锐捷网络与福建省电子信息集团、星网锐捷,围绕“发展新质生…

2024中青杯数学建模竞赛A题人工智能视域下养老辅助系统的构建思路代码论文分析

2024中青杯数学建模A题论文和代码已完成,代码为A题全部问题的代码,论文包括摘要、问题重述、问题分析、模型假设、符号说明、模型的建立和求解(问题1模型的建立和求解、问题2模型的建立和求解、问题3模型的建立和求解)、模型的评价…

用go语言实现一个有界协程池

写在文章开头 本篇文章算是对go语言系列的一个收尾,通过go语言实现一个实现一个简单的有界协程池。 Hi,我是 sharkChili ,是个不断在硬核技术上作死的 java coder ,是 CSDN的博客专家 ,也是开源项目 Java Guide 的维护…

HDR视频相关标准-HDR vivid(二)

上文介绍了HDRvivid的一些技术。今天从全局角度来看看HDR视频的处理流程,HDR视频系统,即建立一个比SDR视频更大的色彩/亮度坐标体系,并改变系统的传输函数,以再现更大的色域(WCG)和更高的亮度动态范围。 菁彩 HDR技术的专业术语 …

【ROSUbuntu】常用工具合集

1. 源 ADM64 ubuntu | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror arm64 ubuntu-ports | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 2. FileZilla sudo apt-get install filezilla 3. Nomachine8 AMD64

操作系统实战(四)(linux+C语言)

目录 实验目的 前提知识 实验题目 题目分析 实验程序 头文件 头文件实现 核心代码文件 (各类进程) 生产者 抽烟者A 抽烟者B 抽烟者C makefile文件 实验运行 运行结果分析 总结 实验目的 加深对并发协作进程同步与互斥概念的理解&…

Jenkins配置(插件/角色/凭证)

目录 传送门前言一、Jenkins插件管理1、更换为国内下载源2、中文汉化插件下载(不推荐)3、低版本Jenkins爆红插件安装4、低版本Jenkins插件持续报错解决办法 二、Jenkins用户角色三、Jenkins凭证管理(svn/git)1、Username with pas…

NIO流(多路复用技术)

目录 什么是NIO使用场景 NIO(new IO)相关包路径NIO的实现基础NIO的核心组件Buffer缓冲区详解数据如何从磁盘读到用户进程 ChannelChannel的使用 其他组件字符集和Charset文件锁NIO工具类使用Files的FileVisitor遍历文件和目录使用WatchService监控文件变化访问文件属性 什么是N…

什么样的无线麦克风好?一文看懂哪种麦克风降噪效果好

作为视频创作者,拍摄视频除了要注意拍摄的画质外,声音的录制也很重要。声音录制的清晰度也会直接影响整个作品的整体水平,要想录的声音清晰,有专业级录制效果,必须选好麦克风,而无线领夹麦克风,…

【工具分享】Annabelle勒索病毒解密工具

前言 Annabelle勒索病毒灵感来自恐怖电影系列 Annabelle。除了文件加密功能外,Annabelle 勒索软件还会试图禁用防火墙,强制停止一系列正在运行程序,通过连接的 USB 驱动器进行传播。 特征 勒索内容: Annabelle 使用 AES256 CBC 加…

【Linux】线程同步和生产者-消费者模型

目录 一. 线程同步1. 条件变量2. 条件变量接口条件变量的创建及初始化条件变量的销毁条件变量等待条件变量唤醒 3. 条件变量同步解决抢占问题 二. 生产者-消费者模型1. 什么是生产者-消费者模型2. 为什么要使用生产者-消费者模型3. 生产者-消费者模型特点4. 基于阻塞队列实现生…

技术前沿:三品PLM系统引领工程变更管理新趋势

引言 在当今快速变化的制造行业,产品生命周期管理(PLM)系统已成为企业不可或缺的工具之一。PLM系统不仅帮助企业优化产品开发流程,还对工程变更管理(ECM)起着至关重要的作用。本文将探讨PLM系统在工程变更…

解决ssh报错,.ssh/id_rsa: No such file or directory Permission denied (publickey)

拉取依赖或者代码时说没有权限 首先我们可以看到的是这个报错但是我们的远程确实配置ssh密钥 首先我们可以看到的是这个报错 但是我们的远程确实配置ssh密钥 我们可以在我们项目路径下添加一下我们的私钥如: 首先确定我们ssh是正常启动的eval $(ssh-agent)我们可以…

AC/DC电源模块:提供高质量的电力转换解决方案

BOSHIDA AC/DC电源模块:提供高质量的电力转换解决方案 AC/DC电源模块是一种电力转换器件,可以将交流电转换为直流电。它通常用于各种电子设备和系统中,提供高质量的电力转换解决方案。 AC/DC电源模块具有许多优点。首先,它能够提…