GPT4 VS ChatGPT(from nytimes )
正如文章官网博文:https://openai.com/research/gpt-4所述,GPT4仍有很多不足之处,还不及人类水平。纽约时报报道了一些人体验GPT4的效果和一些评价:
Cade Metz 要求专家使用 GPT-4,Keith Collins 将人工智能生成的答案可视化。
四个月前吸引科技行业的 AI 聊天机器人所采用的技术的新版本在其前身的基础上进行了改进。它是一系列学科的专家,其医疗建议甚至令医生惊叹不已。它可以描述图像,并且接近于讲几乎好笑的笑话。但传闻已久的新人工智能系统 GPT-4 仍然存在一些怪癖,并且会犯一些同样的习惯性错误,这些错误在引入聊天机器人 ChatGPT 时让研究人员感到困惑。虽然它是一个非常好的应试者,但这个系统——来自旧金山初创公司 OpenAI——还没有达到与人类智能相匹配的水平。下面是GPT-4的简要指南:
已经学会了更精确的方法
人工智能专家兼风险投资公司Page One Ventures的合伙人 Chris Nicholson在最近的一个下午使用 GPT-4 时,他告诉机器人他是一个说英语但不懂西班牙语的机器人。他要求提供一份可以教他基础知识的教学大纲,而机器人提供了一个详细且组织良好的教学大纲。它甚至提供了广泛的学习和记忆西班牙语单词的技巧(尽管并非所有建议都中肯)。
Nicholson 先生向以前版本的 ChatGPT 寻求类似的帮助,该版本依赖于 GPT-3.5。它也提供了教学大纲,但它的建议更笼统且帮助不大。
“它已经突破了精确的障碍,”尼科尔森先生说。“它包含了更多的事实,而且它们往往是正确的。”
提高了准确性
当 AI 研究员兼教授 Oren Etzioni 首次尝试这款新机器人时,他问了一个直截了当的问题:“Oren Etzioni 和 Eli Etzioni 之间有什么关系?” 机器人正确响应。
之前版本的 ChatGPT 对那个问题的回答总是错误的。做对了表明新的聊天机器人拥有更广泛的知识。但它仍然会出错。机器人继续说道:“Oren Etzioni 是一名计算机科学家,也是艾伦人工智能研究所 (AI2) 的首席执行官,而 Eli Etzioni 是一名企业家。” 其中大部分是准确的,但这个机器人——其培训已于 8 月完成——并没有意识到 Etzioni 博士最近辞去了艾伦研究所的首席执行官一职。
可以用令人印象深刻的细节描述图像。
GPT-4 具有响应图像和文本的新功能。OpenAI 总裁兼联合创始人 Greg Brockman 演示了该系统如何细致地描述来自哈勃太空望远镜的图像。描述继续段落。它还可以回答有关图像的问题。如果给出冰箱内部的照片,它可以建议用手头的东西做几顿饭。
OpenAI 尚未向公众发布这部分技术,但一家名为 Be My Eyes 的公司已经在使用 GPT-4 构建服务,可以更详细地了解在互联网上遇到的图像或在现实世界中拍摄的图像.
增加了严肃的专业知识
最近的一个晚上,北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家 Anil Gehi 向聊天机器人描述了他一天前看过的一位患者的病史,包括患者术后出现的并发症被送往医院。描述中包含几个外行人无法识别的医学术语。当 Gehi 医生问他应该如何治疗病人时,聊天机器人给了他完美的答案。“这正是我们对待病人的方式,”他说。当他尝试其他场景时,机器人给出了同样令人印象深刻的答案。这些知识不太可能在每次使用机器人时都显示出来。它仍然需要像盖希博士这样的专家来判断它的反应并执行医疗程序。但它可以在许多领域展示这种专业知识,从计算机编程到会计。
可以让编辑们为自己的钱而奔波
当提供来自《纽约时报》的文章时,新的聊天机器人几乎每次都能对故事进行精确和准确的总结。如果您在摘要中添加一个随机句子并询问机器人摘要是否不准确,它会指向添加的句子。
Etzioni 博士说这是一项了不起的技能。“要进行高质量的总结和比较,就必须对文本有一定程度的理解,并有能力表达这种理解,”他说。“那是一种高级形式的情报。”
正在培养一种幽默感
Etzioni 博士要求新机器人提供“关于歌手麦当娜的新颖笑话”。这个回答让他印象深刻。这也让他笑了。如果您知道麦当娜的热门歌曲,它可能也会给您留下深刻印象。
除了公式化的“爸爸笑话”之外,新的机器人仍然很难写出任何东西。但它比它的前身稍微有趣一点。
可以推理
Etzioni 博士给了新机器人一个谜题。
系统似乎做出了适当的回应。但是答案没有考虑门口的高度,这也可能会阻止坦克或汽车通过。OpenAI 的首席执行官 Sam Altman 说,新的机器人可以推理“一点点”。但它的推理能力在许多情况下都会崩溃。以前版本的 ChatGPT 更好地处理了这个问题,因为它认识到高度和宽度很重要。
可以通过标准化测试
OpenAI 表示,新系统可以在 41 个州和地区的律师统一考试中获得前 10% 左右的学生分数。根据该公司的测试,它还可以在 SAT 考试中获得 1,300 分(满分 1,600 分),在生物、微积分、宏观经济学、心理学、统计学和历史等高级先修高中考试中获得 5 分(满分 5 分)。该技术的早期版本未能通过统一律师资格考试,并且在大多数大学先修考试中的得分也没有那么高。在最近的一个下午,为了展示其测试技能,布罗克曼先生向新机器人提供了一段关于一位经营柴油卡车维修业务的人的段落长的律师考试问题。答案是正确的,但充满了法律术语。因此,布罗克曼先生要求机器人用通俗易懂的英语向外行解释答案。它也这样做了。
不擅长讨论未来
尽管新机器人似乎可以对已经发生的事情进行推理,但当被要求对未来做出假设时,它就不那么熟练了。它似乎借鉴了其他人所说的话,而不是创造新的猜测。当 Etzioni 博士向新机器人提问时,“未来十年 NLP 研究中需要解决的重要问题是什么?” - 指的是推动 ChatGPT 等系统发展的“自然语言处理”研究 - 它无法提出全新的想法。
它仍然在产生“幻觉”
新的机器人仍在编造东西。这个问题被称为“幻觉”,困扰着所有领先的聊天机器人。由于系统不了解什么是真什么不是,它们可能会生成完全错误的文本。当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。