【AI】深度学习与图像描述生成——看图说话(1)

还记得我闲来无事,用大模型来“洗图”吗,就是想抄袭别人的图,但是又要装作原创的样子。因为洗稿大家都熟悉,洗图其实也是一样的。

【AIGC】今天想用AI“洗个图”,失败了,进来看我怎么做的-CSDN博客

【AIGC】接着昨天的AI“洗图”骚操作,继续调戏国产大模型_aigc 洗稿-CSDN博客 

通过提示词来生成图像,或者通过图像来生成描述,真是非常有意思的事情。

我觉得这都是作为一个游戏来开发了。

那么,图像描述到底是怎么生成的呢?

下面我们来一起学习。

大家一定觉得,图像来生成描述,并没有实际的意义,并不是。

图像数据是海量且非结构化的,快速的组织、存储和检索图像,是非常有意义和重要的课题,自然,图像生成描述,并且是图像自动生成描述,就是打开这扇门的钥匙了。有了文字描述,检索才能实现稳准狠。

语言和图像,是两个不同的模态。

模态:一方面,模态可以理解为数据的一种特定存在形式或表达方式。例如,在人工智能和机器学习领域,图像、文本、音频、视频等都可以被视为不同的模态。这些模态各自具有独特的特征表示方法,并且可以用于构建和理解多模态数据之间的关联和交互。另一方面,模态也可以被理解为系统的固有振动特性,这在动力学系统、机械结构等领域中尤为重要。每个模态具有特定的固有频率、阻尼比和模态振型,这些特性决定了系统在不同频率下的响应行为。

这对于人来说,是非常小儿科的事。还记得我们上小学一年级就要练习的考题,对了,就是“看图说话”。 

再复杂的图像,我们也能进行准确的理解和表达,甚至可以脑补很多缺失的画面,把作者的意思,充分的展示出来。比如我们喜欢看的连环画,父与子,文字很少,但是看图像,我们不但能知道一幅图的意思,还能连贯的看图,讲出(很多时候是我们自己的想象力在发挥)一个非常有趣的故事来。

但是这个,对于机器来说,从前那是不可想象的,很多人尝试都失败了。有了深度学习之后,方法论大爆发,算力大爆发,尽管现在AIGC大模型也说胡话,但是靠谱多了。

语言和图像,是2个模态,人来还能在这2个模态之间,自由的切换。我的洗图文章,大家看了可以知道,切换是多么的费事。对于机器来说,不要说脑补了,丢失大量的细节,都是司空见惯的事情。

为了更加接近人类的视觉智能,图像描述成为一个重要的突破口。

视觉智能:视觉智能是一种人工智能技术,旨在让计算机具备类似人类视觉的感知、识别、理解和处理视觉信息的能力。它结合了计算机视觉、机器学习和深度学习等技术,通过对图像和视频等视觉数据的分析,实现自动化检测、识别、分类等功能。视觉智能的关键技术包括图像分类、目标检测、图像分割、姿态估计等。这些技术可以应用于各种场景,如智能安防、自动驾驶、无人机、工业制造、医疗诊断等。

(未完待续) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/645635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哈夫曼树(Huffman)

哈夫曼树 Huffman 编码问题 问题引入 什么是编码? 简单说就是建立【字符】到【数字】的对应关系,如下面大家熟知的 ASC II 编码表,例如,可以查表得知字符【a】对应的数字是十六进制数【0x61】 \000102030405060708090a0b0c0d…

php下curl发送cookie

目录 一:使用 CURLOPT_COOKIE 选项 二:CURLOPT_COOKIEFILE 三:CURLOPT_HTTPHEADER php curl发送cookie的几种方式,下面来介绍下 一:使用 CURLOPT_COOKIE 选项 通过设置 CURLOPT_COOKIE 选项,你可以将 cookie 字符…

用ChatGPT创作留学文书三阶玩法详解!

最近人工智能聊天工具Chagpt火爆全网,从闲聊到编程,文学到菜谱,似乎以一种无所不能的姿态推翻了早期“人工智障”的屈辱招牌,正逐步进入并改变我们生产生活方式。作为文字处理大师,如果让人工智能来执笔大学申请文书会…

Linux 下查看端口以及释放端口

目录 一、查看端口是否被占用 1、使用 netstat 命令 2、使用 lsof 命令 二、释放端口 1、使用kill命令 2、使用 fuser 命令 三、netstat 四、lsof 五、fuser 一、查看端口是否被占用 在 Linux 系统上,你可以使用 netstat 或 lsof 命令来查看端口是否被占用。…

串口WiFi模块简介、工作原理、工作方式等8大知识点

WiFi模块又名串口WiFi模块,属于物联网传输层,功能是将串口或TTL电平转为符合WiFi无线网络通信标准的嵌入式模块,内置无线网络协议IEEE802.11b.g.n协议栈以及TCP/IP协议栈。串口WIFI模块,体积小,功耗低,采用…

springboot124中药实验管理系统设计与实现

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的中药实验管理系统设计与实现 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章…

CentOS 安装 Ruby

1.下载 Ruby3.3 并安装 依次执行 wget https://cache.ruby-lang.org/pub/ruby/3.3/ruby-3.3.0.tar.gz tar -zxvf ruby-3.3.0.tar.gz cd ruby-3.3.0 ./configure make make install 2.查看版本 ruby -v

深入了解Spring事件机制的作用与应用场景

Spring的事件机制为应用程序提供了一种灵活且解耦的方式来处理事件,它基于观察者模式构建,使得不同组件之间能够更加独立地工作。本文将深入探讨Spring事件机制的作用以及在实际应用中的使用场景。 作用: 解耦组件: 通过事件机制…

住宅IP VPS的應用指南

什麼是住宅IP VPS? 首先,我們來解釋一下什麼是住宅IP VPS。VPS是Virtual Private Server的縮寫,中文名為虛擬專用伺服器。它是一種虛擬化技術,可以將一臺物理伺服器分割為多個虛擬伺服器,每個虛擬伺服器都有自己獨立的…

【算法Hot100系列】合并区间

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航 檀越剑指大厂系列:全面总结 jav…

跨界做电商:百度、抖音、小红书异途同归

早些年,国内电商市场一直被淘宝、京东牢牢把持,其他电商平台只能跟在后面分一点羹。后来,随着拼多多崛起,电商格局开始生变。尤其是近两年,抖音、小红书、百度等玩家纷纷入局,更是让刚刚平静的电商市场又迎…

git tag的用法详解

目录 一、tag标识一个commit 二、查看tag 三、对分支打tag 四、删除tag 五、根据某个tag来clone 一、tag标识一个commit tag是用于去标记一个特定的commit。通常,在进行编译部署之前,我们需要对某一个即将release的版本进行tag,例如tag为…

vue常用指令(v-if)

一、v-if 指令 作用: 根据表达值的真假,切换元素的显示和隐藏( 操纵dom 元素 ) 二、代码演示 1、v-if 设置条件&#xff0c;添加按键修改状态 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta na…

运用ETLCloud快速实现数据清洗、转换

一、数据清洗和转换的重要性及传统方式的痛点 1.数据清洗的重要性 数据清洗、转换作为数据ETL流程中的转换步骤&#xff0c;是指在数据收集、处理、存储和使用的整个过程中&#xff0c;对数据进行检查、处理和修复的过程&#xff0c;是数据分析中必不可少的环节&#xff0c;对…

基本处理函数(ProcessFunction)

基本处理函数 处理函数在数据流处理中扮演着核心角色&#xff0c;负责定义数据流的转换操作。在Flink中&#xff0c;处理函数作为一种特殊的转换算子&#xff0c;提供了强大的功能来处理数据流。Flink几乎所有的转换算子都提供了对应的函数类接口&#xff0c;处理函数也不例外。…

C/C++ - Auto Reference

目录 auto Reference auto 当使用auto​​关键字声明变量时&#xff0c;C编译器会根据变量的初始化表达式推断出变量的类型。 自动类型推断&#xff1a;auto​​关键字用于自动推断变量的类型&#xff0c;使得变量的类型可以根据初始化表达式进行推导。 初始化表达式&#x…

阿里云对象存储(OSS)服务

阿里云对象存储&#xff08;OSS&#xff09;服务 引入依赖 <!--阿里云OSS服务--> <dependency><groupId>com.alibaba.cloud</groupId><artifactId>aliyun-oss-spring-boot-starter</artifactId><exclusions><!--排除默认版本的依…

初学数据结构:二叉树相关oj题

目录 1. 相同的树2. 另一棵树的子树3. 翻转二叉树4. 平衡二叉树5. 对称二叉树6. 二叉树构建与遍历7. 二叉树的层序遍历8. 二叉树的最近公共祖先9. 从前序与中序遍历序列构造二叉树10. 从中序与后序遍历序列构造二叉树11. 根据二叉树创建字符串12. 二叉树的前序遍历非递归实现13…

ORACLE数据导出工具

最近应公司要求导出数据为csv格式文件供业务人员存档查看&#xff0c;同时还需要按照指定分隔符导出其他文本格式&#xff0c;待数据迁移使用&#xff0c;就是根据指定的sql&#xff0c;按照指定的分隔符和文本格式导出数据。所使用的数据是oralce&#xff0c;由于生产环境又没…

openssl3.2/test/certs - 037 - 768-bit leaf key

文章目录 openssl3.2/test/certs - 037 - 768-bit leaf key概述笔记END openssl3.2/test/certs - 037 - 768-bit leaf key 概述 openssl3.2 - 官方demo学习 - test - certs 笔记 /*! * \file D:\my_dev\my_local_git_prj\study\openSSL\test_certs\037\my_openssl_linux_do…