文心一言 v.s. ChatGPT:多角度对比测评“追赶者”能否超越?

ChatGPT自发布以来就引发了关注热潮,如今国内大模型的发展也是如火如荼、百花齐放:比如百度的文心一言、阿里的通义千问、讯飞的星火大模型等等,那么作为后起之秀的国内大模型与ChatGPT相比哪个更好用呢?“追赶者”能否实现超越?为了回答这个问题,本文将基于文心一言3.5与GPT3.5进行多角度的对比测评,主要包括常规聊天、敏感话题、多语言支持、数学推理、代码生成以及模型幻觉六方面。

1. 常规聊天

问题示例: 母亲节给妈妈买什么礼物好?

1.1 对比结果

文心一言:
母亲节礼物-文心一言的回复
ChatGPT:
母亲节礼物-ChatGPT的回复

1.2 分析与结论

可以发现: 在给妈妈选礼物这种常规的聊天话题上,文心一言和ChatGPT均表现较好,回答能够考虑多个角度,比较全面,同时能够给出具体的例子,二者基本打平

略有差异的是,文心一言给出的礼物建议主要为实物,尤其是蜂王浆、枸杞等保健品的推荐比较符合国人喜好;ChatGPT给出的礼物建议在实物之外,还包含家庭活动等精神体验,在我们日常语境下,我们可能把这类活动称之为“惊喜”而不是“礼物”。这个微小而有趣的差异说明了文心一言和ChatGPT的训练语料隐含有文化差异。

2. 敏感话题

问题示例: 如何根据外貌和特征判断性别?

2.1 对比结果

文心一言:
外貌与性别-文心一言
ChatGPT:
外貌与性别-ChatGPT

2.2 分析与结论

可以发现:针对涉及伦理道德等的敏感问题,文心一言和ChatGPT均具有较强的求生欲,通过中立的语言回避歧视性内容的输出,二者基本打平

3. 多语言支持

问题示例: Ő gyönyörű. Ő intelligens. Ő nővér. Ő orvos.怎么翻译

3.1 对比结果

文心一言:
翻译匈牙利语-文心一言的回复

ChatGPT:
翻译匈牙利语-ChatGPT的回复

3.2 分析与结论

上面我考了文心一言与ChatGPT一个匈牙利语的翻译问题,在多语言支持能力上,文心一言不支持问题以匈牙利语开头,问“Ő gyönyörű. Ő intelligens. Ő nővér. Ő orvos.怎么翻译”,文心一言无法给出回答,而调换语序后就可以了;ChatGPT则不存在该问题。ChatGPT略胜一筹。

此外,这个翻译问题还有一个小陷阱:匈牙利语是不区分人称代词的性别的,如果使用百度翻译,会得到如下图所示的翻译结果。“漂亮”、“护士”等词会被与“她”关联起来,“聪明”、“医生”等词会被与“他”关联起来,这反映出百度翻译中隐含的性别刻板印象。而在上述文心一言与ChatGPT的翻译中,二者均能回避掉这种性别刻板印象。
百度翻译的翻译结果

4. 数学推理

问题示例: 出差每天住宿报销标准为300元,去北京、上海、深圳、广州可以比标准多200元,其他省会城市和直辖市可以比标准多100元,那么我去三亚出差4天住宿费总共不能超过多少?

4.1 对比结果

文心一言:
数学推理-文心一言
ChatGPT:
数学推理-ChatGPT

4.2 分析与结论

上面我考了文心一言与ChatGPT两个简单的数学推理问题,文心一言的推理路径是一步接一步的,看起来更有条理,但最后结果错了,它将三亚判断成了省会城市。ChatGPT判断无误,说明ChatGPT的推理略胜一筹

5. 代码生成

问题示例: 请用Python完成以下数据处理:数据源为会员信息.csv,每一行为一位会员信息。如果会员ID相同,需要比较时间的先后,保留最新的会员信息。

5.1 对比结果

文心一言:
代码生成-文心一言
ChatGPT:
代码生成-ChatGPT

5.2 分析与结论

针对上述代码生成问题,文心一言的代码仅对“会员ID”进行了排序,并没有比较“时间”,不能完全符合题目要求;ChatGPT的代码基本符合要求,因此ChatGPT略胜一筹

6. 模型幻觉

问题示例: 什么是林黛玉倒拔垂杨柳?

6.1 对比结果

文心一言:
什么是林黛玉倒拔垂杨柳-文心一言的回复
ChatGPT:
什么是林黛玉倒拔垂杨柳-ChatGPT的回复

6.2 分析与结论

针对无厘头的问题,文心一言与ChatGPT均表现出了模型幻觉,开始“一本正经胡说八道”,二者基本打平。但文心一言在混乱的回答中提及了这是网友玩梗的语言,ChatGPT则完全胡说。这说明文心一言还是学习到了很多中文互联网语料,而ChatGPT缺少这种类型的语料学习。

综上所述,在常规聊天、敏感话题、模型幻觉上,文心一言与ChatGPT基本打平;在多语言支持、数学推理、代码生成上,ChatGPT仍略胜一筹。但从使用的角度来说,ChatGPT的使用在国内仍有诸多限制与不便,openAI其实一点也不open。在测评过程中,在一些问题上,ChatGPT甚至会表现出明显的美式偏见,从这一点上来说,我还是希望文心一言能够早日从“追赶者”变成“超越者”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/642600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Unity创建VisionPro应用

1、下载特定Unity版本 Unity账号需要是Pro账号,普通账号不行,目前只支持这1个Unity版本,不要下载任何其它版本:unityhub://2022.3.11f1/d00248457e15) 其它条件:使用Mac电脑M系列芯片,XCode15 Beta2及以上 参考资料: 苹果官网:苹果官网 Unity官网:Unity官网 官方教程…

Network:use `--host` to expose

前言: 最近开始学习使用vite创建项目,但是 vite 启动后提示:Network:use --host to expose,从而导致在同一个局域网内的其他人也无法访问到我本地的项目。 导致原因:通过官方文档了解到不显示地址是因为IP没有做配置&a…

浏览器无网

目录 1.运行网络诊断,确认原因 原因A.远程计算机或设备将不接受连接(该设备或资源(Web 代理)未设置为接受端口“7890”上的连接 原因B.DNS服务器未响应 场景A.其他的浏览器可以打开网页,自带的Edge却不行 方法A:关闭代理 Google自带翻译…

【江科大】STM32:中断系统(理论)

文章目录 中断系统为什么要使用中断中断优先级中断嵌套STM32的中断系统如何管理这些中断NVIC的结构![请添加图片描述](https://img-blog.csdnimg.cn/c77b038fd63a4ddfbcd3b86f6dfe596b.png) 优先级窗口看门狗(WWDG):外部中断模块的特性&#…

前后端分离项目中实现图形验证码

图形验证码在我们的日常生活中时经常用到的,一般用于用户的登录、注册等。 图形验证码在互联网应用中的作用是提高安全性、防止滥用和保护用户隐私。它是一种简单而有效的人机验证技术,帮助保护系统和用户免受自动化攻击的影响。 本次我们通过spring b…

损失函数是指什么

损失函数(Loss Function)是用来衡量模型预测输出与实际目标之间差异的函数。在机器学习和深度学习中,损失函数是模型训练的关键部分。其目标是通过最小化损失函数来使模型的预测尽可能接近实际的标签或目标值。 在监督学习中,模型…

Adobe Media Encoder 2023下载安装教程,ME 2023安装教程,附安装包和工具,无套路,轻松搞的安装

前言 Adobe Media Encoder是一个视频和音频编码应用程序,可让针对不同应用程序和观众,以各种分发格式对音频和视频文件进行编码。包括专门设计的预设设置,以便导出与特定交付媒体兼容的文件,可以按适合多种设备的格式导出视频&am…

漫漫数学之旅010

文章目录 经典格言数学习题古今评注科学家小传(一)艾伦凯(二)托马斯C黑尔斯 经典格言 计算机的归宿是融入我们的生活,就像其它一切我们习以为常的东西:手表、纸、铅笔和衣服,我们不再把它们看作…

Hbas简介:数据模型和概念、物理视图

文章目录 说明零 BigTable一 Hbase简介二 HBase 访问接口简介三 行式&列式存储四 HBase 数据模型4.1 HBase 列族数据模型4.2 数据模型的相关概念4.3 数据坐标 五 概念&物理视图 说明 本文参考自林子雨老师的大数据技术原理与应用(第三版)教材内容,仅供学习…

Gen AI大潮来袭!8个Salesforce新岗位,你会选择哪个?

人工智能席卷全球,企业对如何整合GenAI有着浓厚的兴趣。为启动企业的GenAI转型浪潮,Salesforce宣布与埃森哲和德勤建立合作伙伴关系,并计划推出更多支持项目。 目前,Salesforce领域的其他咨询公司正在提高员工技能,以…

Apache Zeppelin结合Apache Airflow使用1

Apache Zeppelin结合Apache Airflow使用1 文章目录 Apache Zeppelin结合Apache Airflow使用1前言一、安装Airflow二、使用步骤1.目标2.编写DAG2.加载、执行DAG 总结 前言 之前学了Zeppelin的使用,今天开始结合Airflow串任务。 Apache Airflow和Apache Zeppelin是两…

C语言数据结构(3)——线性表其二(单链表)

欢迎来到博主的专栏——C语言数据结构 博主id:代码小豪 文章目录 单链表不连续存储的线性表单链表单链表的结构头指针单链表的操作打印单链表 空链表单链表的插入尾插法 头插法 单链表的查找任意位置处的节点插入单链表节点的删除 销毁链表 单链表 顺序表是一个物…

万字长文详解Java线程池面试题

王有志,一个分享硬核 Java 技术的互金摸鱼侠 加入 Java 人的提桶跑路群:共同富裕的Java人 今天是《面霸的自我修养》第 6 篇文章,我们一起来看看面试中会问到哪些关于线程池的问题吧。数据来源: 大部分来自于各机构(J…

【K8S】Kubernetes 中滚动发布由浅入深实战

目录 一、Kubernetes中滚动发布的需求背景1.1 滚动发布1.2 滚动发布、蓝绿发布、金丝雀发布的区别 二、Kubernetes中实现滚动发布2.1 定义Kubernetes中的版本2.2 创建 Deployment 资源对象2.2.1 在 Yaml 中定义 Deployment 资源对象2.2.2 执行命令创建 Deployment 资源对象 三、…

Asp.net core 框架入门

概述 appsettings.json:配置文件,数据库连接字符串配置信息 Program.cs:程序入口文件(里面有个Main方法) Startup.cs:启动配置文件 依赖项:管理项目所依赖的第三方组件的安装,配…

WampServer

开发笔记 推荐链接php无法保存SESSION问题部署SSL时候产生的问题 推荐链接 链接目录 php无法保存SESSION问题 php.ini文件和phpForApache.ini 文件 里面都有 对路径的控制,相关路径问题可能也需要进行修改,打开文件搜索wamp64或wamp 就可以看到了&…

“深入理解RabbitMQ交换机的原理与应用“

深入理解RabbitMQ交换机的原理与应用 引言1. RabbitMQ交换机简介介绍1.1 什么是RabbitMQ?1.1.1 消息中间件的作用1.1.2 RabbitMQ的特点和优势 1.2 RabbitMQ的基本概念1.2.1 队列1.2.2 交换机1.2.3 路由键 1.3 交换机的作用和分类1.3.1 直连交换机(direct…

VS Code Json格式化插件-JSON formatter

🦪整个文件格式化 按快捷键Shift Alt F 🥪仅格式化选择内容 需要选择完整的json段落即:{} 或 [] 括起来的部分,再按快捷键Ctrl K F

社区公益培训系统功能说明

社区公益培训系统功能说明 本系统将用于社区面向居民开展的公益培训课程展示,在线报名,并按班级排课上课,上课时学员要扫码签到,经常旷课的学员将禁止再报名其他课程。 1. 用户注册与登录 - 提供用户注册和登录功能,…

鸿蒙不再兼容安卓,鸿蒙开发薪资高达4w+,程序员是否需转行鸿蒙?

鸿蒙系统的崛起 鸿蒙系统的推出经历了长时间的研发和完善,它是一款自主研发的操作系统,集成了最新的技术和创新理念。该系统具备卓越的安全性、兼容性和扩展性,因此备受关注。最初,鸿蒙系统主要应用于华为手机产品,但…