【AI学习】聊两句昨夜OpenAI的GPT-4o

蹭个热点,聊两句昨夜的大事件——OpenAI发布GPT-4o,我看到和想到的一点东西。

首先是端到端方法,前面关于深度学习的文章,对端到端的重要性做了一些学习,对端到端这个概念有了一些理解。正如Richard Sutton在《苦涩的教训》中的经典判断,再次重温一遍,“The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.(从70年的人工智能研究中可以学到的最大教训是,利用计算的通用方法最终是最有效的,而且在很大程度上是有效的)。”

引用一段话,来看这次OpenAI的端到端改进:

”根据OpenAI发布在官网的最新博客文章显示,在GPT-4o之前,我们使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是由三个独立的模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源,GPT-4,丢失了很多信息,它不能直接观察语调、多个说话者或背景噪音,也不能输出笑声、歌唱或表达情感。

GPT-4o,是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。”

这里必然有一些新的token化的技术来完成多模态的统一,但是OpenAI之前就有Whisper的技术积累,应该不是困难事。

我在想,这种端到端的技术,肯定会带来一些新的好处,比如模型性能和处理速度的提升。最近在读一些有关大脑的书籍,人类做决策,不是单纯的逻辑推理,同时也依靠情绪,假如大脑中有关情绪感知的部位受损,那人就将变得犹豫不决而丧失决策能力。过去语音转化为文字丢失了很多情感信息,GPT-4o的端到端训练,是否就可能在模型中产生了类似人脑的情绪网络,从而大大提升决策处理速度的提升。情感能力,不仅是技术应用的需要,也是技术本身的需要。

当然,最困难的不是技术,而是产品能力,能够把这些显而易见的技术打造为亮眼的产品。

在这里插入图片描述

其次,解决了图片中生成文字的问题,这个真的好难。
先说个笑话,之前,有知名公众号的文章,使用这样一个文生图的提示: “这幅插画描绘了一颗由半透明玻璃制成的心,矗立在惊涛骇浪中的基座上,一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字‘Find the universe with you ’”。然后,我也用这个提示尝试了一下,生成的图片与这个公众号的图片基本一致,就是图片中缺了那行醒目的文字。后来我才知道,在图片中生成文字技术上非常困难。试想一下,如果能够严格遵循文字的指令生成图片,一定需要模型能够对文字和图片进行深层次的语义理解,然后在语义层面彻底打通文字的语义和图片的语义,这是更高层次的统一。所以说,OpenAI解决了图片的文字生成问题,语义通信这件事就更加触手可及了!

另外,利用几张图像进行3D重建,这个功能好强大,感觉在很多简单应用已经可以替代SLAM、NeRF等,接下来,多模态技术的进一步发展,原来的热门技术需要重新思考对待了。

最亮眼的还是应用,OpenAI马上就要占领超级接口了吧。
在这里插入图片描述

昨晚的主持人Mira,真的好美,女神!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/837691.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据Scala教程从入门到精通第六篇:Scala源文件编写和运行

一:Scala源文件编写和运行 1:源代码比较 public class HelloJava{public static void main(String[] args){System.out.println("hello scala")} } object HelloScala{//用于声明方法 入参是一个String类型的数组。返回值类型为空def main…

鸿蒙内核源码分析(gn应用篇) | gn语法及在鸿蒙的使用

gn是什么? gn 存在的意义是为了生成 ninja,如果熟悉前端开发,二者关系很像 Sass和CSS的关系. 为什么会有gn,说是有个叫even的谷歌负责构建系统的工程师在使用传统的makefile构建chrome时觉得太麻烦,不高效,所以设计了一套更简单,更高效新的构建工具gnninja,然后就被广泛的使用…

【docker】SpringBoot应用容器镜像日志挂载

启动镜像时候使用 -v 挂载 首先得在宿主机创建目录:/workspace/java/demo/logs mkdir -pv /workspace/java/demo/logs 启动镜像 docker run -p 8080:8080 -itd -v /workspace/java/demo/logs/:/logs/ 192.168.2.1:5000/demo:0.0.1-SNAPSHOT -v /workspace/ja…

【Shell脚本】Shell编程之数组

目录 一.数组 1.基本概念 2.定义数组的方法 2.1.方法一 2.2.方法二 2.3.方法三 2.4.方法四 2.5.查看数组长度 2.6.查看数组元素下标 3.数组分片 4.数组字符替换 4.1.临时替换 4.2.永久替换 5.数组删除 5.1.删除某个下标 5.2.删除整组 6.数组遍历和重新定义 7…

SpringBoot自动装配(二)

近日,余溺于先贤古哲之文无法自拔。虽未明其中真意,但总觉有理。遂抄录一篇以供诸君品鉴——公孙鞅曰:“臣闻之:‘疑行无名,疑事无功。’君亟定变法之虑,殆无顾天下之议之也。且夫有高人之行者,…

【备忘】Unable to stop the ctxapinject driver services

【问题】一台通过Autopilot部署的Windows11系统,在公司门户里看到 策略推送的Citrix workspace不成功,尝试手动安装,报错: 【解决】网上看了半天没找出个所以然来,尝试sc queryex ctxapinject 查到对应的进程ID是0&…

【JavaWeb】Day77.Spring——SpringBoot原理(一)

SpringBoot原理 Spring是目前世界上最流行的Java框架,它可以帮助我们更加快速、更加容易的来构建Java项目。而在Spring家族当中提供了很多优秀的框架,而所有的框架都是基于一个基础框架的SpringFramework(也就是Spring框架)。而如果我们直接基于Spring框…

MySQL企业级开发重点之事物和索引

事物 -- 解散学工部 delete from tb_dept where id 1;-- 删除部门下的员工 delete from tb_emp where dept_id 1; 介绍和操作 我们应该将两个语句写成一个语句 -- 开启事物 start transaction ;-- 解散学工部 delete from tb_dept where id 3;-- 删除部门下的员工 delete fr…

Ajax 学习

文章目录 1. 前置知识1.1 ajax 介绍1.2 XML 简介 2. AJAX 学习2.1 AJAX基础学习(1)AJAX的特点(2)AJAX 初体验(3)服务端响应json 数据 2.2 IE 缓存问题2.3 请求超时和网络异常2.4 手动取消请求2.5 重复请求2…

流畅的python-学习笔记_序列修改+散列+切片

vector第一版 reprlib.repr用于选取有限长度较长变量 vector第二版切片 注意切片还有indices属性,它可以入参一个序列长度,根据此序列长度,转化不规矩的start stop stride, vector第三版动态存取属性 obj.attra时,先…

Day 46 139.单词拆分

单词拆分 给定一个非空字符串 s 和一个包含非空单词的列表 wordDict,判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词。 说明: 拆分时可以重复使用字典中的单词。 你可以假设字典中没有重复的单词。 示例 1: 输入: s “leet…

【35分钟掌握金融风控策略26】定价策略

目录 定价策略 定价策略的开发、部署、监控和调优 定价策略开发 定价策略部署 定价策略监控 定价策略调优 定价策略 定价是对授信审批通过的客户给予合适利率的过程。如何定价、定价多少是由定价策略来决定的。定价策略的制订要遵循“收益覆盖风险”原则,对于…

基于Docker的JMeter分布式压测

一个JMeter实例可能无法产生足够的负载来对你的应用程序进行压力测试。如本网站所示,一个JMeter实例将能够控制许多其他的远程JMeter实例,并对你的应用程序产生更大的负载。JMeter使用Java RMI[远程方法调用]来与分布式网络中的对象进行交互。JMeter主站…

考研数学|李林《880》做不动,怎么办!?看这一篇!

在考研数学的备考过程中,遇到难题是很常见的情况,尤其是当你尝试解决李林880习题集中的问题时。他以其难度和深度著称,旨在帮助考生深入理解数学分析的复杂概念。 如果你在解题过程中感到困难,这并不是你个人的问题,而…

办公园区建筑科技风效果(html+threejs)

办公楼科技风(Htmlthreejs) 初始化三维场景 function init() {container document.getElementById(container);camera new THREE.PerspectiveCamera(65, window.innerWidth / window.innerHeight, 0.1, 150000000);camera.position.set(550, 600, 690);scene new THREE.Sce…

【系统运维】如何查找用户账号锁定位置

【问题】AD环境下,经常会遇到用户账号因输错密码次数超限而被锁的情况。 如果AD环境较简单还好说,但如果域控很多,要定位用户账号被锁在哪里就有点小麻烦了,比如开发人员可能会频繁登录多台服务器,如果某台服务器缓存了…

谷歌邮箱2024最新注册教程

大家好,我是蓝胖子,今天教大家如何注册谷歌邮箱 谷歌邮箱的注册后面的用途会经常用得到 首先,需要魔法自行解决 第一步:打开谷歌官网 www.google.com 确保谷歌官网能正常打开 第二步:创建账号 接下来可能会遇到这…

52岁「豹嫂」代夫尽孝送花畀奶奶被赞

歌手胡蓓蔚与「豹哥」单立文相爱28年,两人曾上节目分享婚姻之道,指婚姻最紧要有忍耐力,要抗拒引诱。其实除了忍耐力,胡蓓蔚和奶奶相处都有一套。 早前单立文带胡蓓蔚及妈妈到米芝连一星餐厅叹美食,庆祝奶奶89岁生日&am…

macOS Sonoma 14.5(23F79)发布

系统介绍 黑果魏叔5 月 14 日快报,苹果今日向 Mac 电脑用户推送了 macOS 14.5 正式版更新(内部版本号:23F79 同 RC)。这是去年 9 月发布的 macOS Sonoma 操作系统的第五次更新,距离上一次的 macOS Sonoma 14.4 更新已…

AcWing166. 数独-DFS剪枝与优化

题目 思路 思考问题:搜索顺序->考虑剪枝搜索顺序:先随意选择一个空格子,枚举该格子可填写的数字,当所有格子都填完的时候,说明可以退出了剪枝: 优化搜索顺序:随意选择一个空格子&#xff1a…