ChatGPT重磅升级:可以看图、听声音、说话啦!

美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。

早在今年3月OpenAI发布GPT-4模型时,就展示过看图的功能,但由于安全、功能不完善等原因一直没有开放。现在不仅开放了看图,连识别声音也来了,这是OpenAI实现AGI(通用人工智能)战略重要技术环节。

OpenAI表示,在接下来的两周内,向Plus和企业版用户提供看、听、说功能。语音功能将在 iOS 和 Android上使用,图片识别全平台可以使用。

在这里插入图片描述

用语音与ChatGPT交流

ChatGPT新的语音功能由一个文本到语音模型提供支持,能够仅通过文字和几秒钟的样本语音生成类似人类的音频。

OpenAI与专业的配音演员合作,创建了5种合成语音,同时使用了自研开源语音识别系统 Whisper,将用户的语音转录成文本。

简单来说,以后用户想将文本直接生成语音,可以在ChatGPT中完成了。

文本直接生成语音,可以在ChatGPT中完成了。

例如,让ChatGPT听一段小猫咪的文本故事,然后选择人类语音便可以一键完成转录。完成后,用户可以下载这段语音。

在这里插入图片描述

可以向ChatGPT提问图片
用户可以向ChatGPT展示一张或多张图片,提问相关的问题。例如,发送一张坏掉的烧烤炉图片,然后询问无法启动原因;拍摄一张冰箱中的食材,询问多种菜品制作方案。

可以通过移动端的绘图功能将其框起来进行发问

如果用户只想询问图片中的部分内容,可以通过移动端的绘图功能将其框起来进行发问。
ChatGPT的图片理解功能由 GPT-3.5 和GPT-4 提供技术支持,可理解的图片类型包括照片、屏幕截图或包含文本的图片等。
提供安全的AI服务
OpenAI表示,其目标是构建既安全又有益的AGI(通用人工智能)。所以,ChatGPT的功能正在逐步推出。这样做的好处是,可以让OpenAI有时间进行改进,逐步完善安全漏洞、风险。
特别是新的语音技术,可以在几秒内就能生成真实的合成声音,这可能会为诈骗者提供了便利条件,所以,这种安全的研发策略对于涉及语音和视觉的高级模型非常重要。
目前,Spotify已经使用ChatGPT的语音功能,开发一款语音翻译助手,可以将博主的声音自动翻译成其他语言,扩大用户群体。而Be My Eyes将ChatGPT的看图功能,植入在应用中,为盲人和弱视群体提供服务。
本文素材来源OpenAI官网,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/88249.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TensorFlow入门(四、数据流向机制)

session与"图"工作过程中存在的两种数据的流向机制,即:注入机制和取回机制 注入机制(feed):即通过占位符向模式中传入数据 取回机制(fetch):指在执行计算图时,可以同时获取多个操作节点的计算结果 实例代码如下: import tensorflow.compat.v1 as tftf…

Redis 支持哪些数据类型?以及使用场景?

五种常用的基础数据类型:String,List,Set,ZSet,Hash 基于基础数据类型实现的高级数据类型:BitMap,HyperLogLog,GEO,Stream String 类型的应用场景:缓存对象、…

傅一平:2023年我的私人书单(上)

2023年一直在通过ChatGPT学习,读书少了,但不能不读。 这里推荐上半年读过的TOP 9 书单,同时附上我的一句话评语和豆瓣的评分,涉及思考方法、系统架构、跨学科知识、沟通技巧、生活感悟、个人修养等等。 TOP 1 佛畏系统-用系统思维…

解决apscheduler意外跳过任务【Execution of job “xx“(trigger:xxx), next run at: xxx】

解决方法 添加配置: max_instances:添加最多可同时进行的数量 misfire_grace_time:如果意外断开,多少秒以内会重新尝试运行 如: scheduler.add_job(print_each_5_second, interval, seconds5, max_instances10, mi…

Vue中的自定义指令详解

文章目录 自定义指令自定义指令-指令的值(给自定义指令传参数)自定义指令- v-loading指令封装 自定义指令 自定义指令:自己定义的指令,可以封装一些dom 操作,扩展额外功能(自动聚焦,自动加载&a…

HTML5+CSS3小实例:脉冲波纹催眠动画特效

实例:脉冲波纹催眠动画特效 技术栈:HTML+CSS 效果: 源码: 【html】 <!DOCTYPE html> <html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"><meta name="viewport" content=&qu…

800G时代来临,千兆光模块万兆光模块还有用吗?

随着科技的不断进步&#xff0c;网络传输速度的需求也越来越高&#xff0c;特别是在云计算、人工智能、物联网等领域&#xff0c;对网络传输速度的要求越来越高。近年来&#xff0c;千兆光模块和万兆光模块已经成为了网络传输的主要手段&#xff0c;但随着800G时代的到来&#…

自学视觉SLAM(1)

引言 小编研究生的研究方向是视觉SLAM&#xff0c;目前在自学&#xff0c;已经学了Linux系统的基本操作&#xff0c;vim编辑器以及高翔老师的一些视屏。本篇文章为初学笔记。 文章目录 引言1 熟悉 Linux1.1 如何在 Ubuntu 中安装软件&#xff08;命令⾏界⾯&#xff09;&#x…

Python爬虫之入门保姆级教程

目录 一、分析要爬取的网站 二、导入相关库 三、相关的参数 四、向网站发出请求&#xff08;使用代理IP&#xff09; 五、匹配 六、获取图片&#xff0c;保存到文件夹中&#xff08;os库&#xff09; 七、完整代码 总结 相信许多人都曾为如何入门Python爬虫而烦恼。今天…

FastChat 大模型部署推理;Baichuan2-13B-Chat测试、chatglm2-6b测试

参考&#xff1a; https://github.com/lm-sys/FastChat https://blog.csdn.net/qq128252/article/details/132759107 ##安装 pip3 install "fschat[model_worker,webui]"模型下载&#xff1a; ##模型下载&#xff1b;huggingface下载慢&#xff0c;可以在modelscop…

Java中的抽象类(看这篇就够了)

在Java中&#xff0c;抽象类&#xff08;Abstract Class&#xff09;是一种不能被实例化的类&#xff0c;它通常用于作为其他类的基类&#xff0c;提供一些通用的行为和结构。以下是关于Java抽象类的一些重要信息&#xff1a; 定义抽象类&#xff1a; 使用 abstract 关键字来定…

安防视频平台EasyCVR视频调阅全屏播放显示异常是什么原因?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

执行上下文,js、React、HTML中的this

目录 执行上下文属性&#xff1a;变量对象、this&#xff0c;作用域链 变量对象是与执行上下文相关的数据作用域&#xff0c;存储&#xff1a;变量、函数声明 执行上下文生命周期 创建&#xff1a;生成变量对象、创建函数作用域&#xff0c;建立作用域链、确定this的指向 …

勒索病毒最新变种.mallab勒索病毒来袭,如何恢复受感染的数据?

导言&#xff1a; 在当今数字化时代&#xff0c;.mallab勒索病毒以其险恶的特性和神秘的名称引起了广泛关注。为了更深入了解这种威胁&#xff0c;我们需要揭示.mallab勒索病毒背后的神秘面纱&#xff0c;了解它的运作方式以及预防它的方法。如果受感染的数据确实有恢复的价值…

【python学习第9节笔记,面向对象(继承,封装,多态),zip函数,with语句】

文章目录 一&#xff0c;面向对象&#xff08;继承&#xff0c;封装&#xff0c;多态&#xff09;1.1封装1.2继承/派生1.3多态1.3.1纯虚函数 二&#xff0c;zip函数三&#xff0c;with语句 一&#xff0c;面向对象&#xff08;继承&#xff0c;封装&#xff0c;多态&#xff09…

代码随想录day50:动态规划

123.买卖股票的最佳时期II 规则改成最多买卖两次&#xff1a;即0&#xff0c;1&#xff0c;2次 1.定义dp数组&#xff1a;本题一共有五种状态&#xff1a;初始状态&#xff0c;第一次持有股票&#xff0c;第一次卖出股票&#xff0c;第二次持有股票&#xff0c;第二次卖出股票…

经典文献阅读之--EGO-Planner(无ESDF的四旋翼局部规划器)

0. 简介 作为局部规划器而言&#xff0c;当机器人或无人机想要避开动态障碍物时。局部规划器就显得尤为重要了。其中基于梯度的规划器被广泛用于四旋翼无人机的局部规划&#xff0c;其中欧几里得符号距离场&#xff08;ESDF&#xff09;对于评估梯度幅度和方向至关重要。然而&…

ARINC825规范简介

ARINC825规范简介 机载CAN网络通用标准 ARINC825规范全称为机载CAN网络通用标准&#xff08;The General Standardization of CAN for Airborne Use&#xff09;。顾名思义&#xff0c;ARINC825规范是建立在CAN物理网络基础上的高层规范。CAN网络使用共享的双绞电缆传输数据&…

电压放大器在无损探伤中的应用研究

电压放大器是一种常见的电子设备&#xff0c;其主要作用是将低电平信号转换为高电平信号。在无损探伤中&#xff0c;电压放大器被广泛应用于信号增益和分析&#xff0c;以便更好地检测表面或内部缺陷。下面安泰电子Aigtek将详细介绍电压放大器在无损探伤中的应用研究。 电压放大…

动态分配的内存位置在哪里?

在C++中,动态分配的内存位于称为堆(Heap)的内存区域。以下是一些关于堆和其他相关内存区域的基本信息: 堆(Heap): 这是一个用于动态内存分配的内存区域。使用new(C++)或malloc(C)等函数从堆中分配内存,并使用delete(C++)或free(C)释放这些内存。堆的大小通常受…