还记得我闲来无事,用大模型来“洗图”吗,就是想抄袭别人的图,但是又要装作原创的样子。因为洗稿大家都熟悉,洗图其实也是一样的。
【AIGC】今天想用AI“洗个图”,失败了,进来看我怎么做的-CSDN博客
【AIGC】接着昨天的AI“洗图”骚操作,继续调戏国产大模型_aigc 洗稿-CSDN博客
通过提示词来生成图像,或者通过图像来生成描述,真是非常有意思的事情。
我觉得这都是作为一个游戏来开发了。
那么,图像描述到底是怎么生成的呢?
下面我们来一起学习。
大家一定觉得,图像来生成描述,并没有实际的意义,并不是。
图像数据是海量且非结构化的,快速的组织、存储和检索图像,是非常有意义和重要的课题,自然,图像生成描述,并且是图像自动生成描述,就是打开这扇门的钥匙了。有了文字描述,检索才能实现稳准狠。
语言和图像,是两个不同的模态。
模态:一方面,模态可以理解为数据的一种特定存在形式或表达方式。例如,在人工智能和机器学习领域,图像、文本、音频、视频等都可以被视为不同的模态。这些模态各自具有独特的特征表示方法,并且可以用于构建和理解多模态数据之间的关联和交互。另一方面,模态也可以被理解为系统的固有振动特性,这在动力学系统、机械结构等领域中尤为重要。每个模态具有特定的固有频率、阻尼比和模态振型,这些特性决定了系统在不同频率下的响应行为。
这对于人来说,是非常小儿科的事。还记得我们上小学一年级就要练习的考题,对了,就是“看图说话”。
再复杂的图像,我们也能进行准确的理解和表达,甚至可以脑补很多缺失的画面,把作者的意思,充分的展示出来。比如我们喜欢看的连环画,父与子,文字很少,但是看图像,我们不但能知道一幅图的意思,还能连贯的看图,讲出(很多时候是我们自己的想象力在发挥)一个非常有趣的故事来。
但是这个,对于机器来说,从前那是不可想象的,很多人尝试都失败了。有了深度学习之后,方法论大爆发,算力大爆发,尽管现在AIGC大模型也说胡话,但是靠谱多了。
语言和图像,是2个模态,人来还能在这2个模态之间,自由的切换。我的洗图文章,大家看了可以知道,切换是多么的费事。对于机器来说,不要说脑补了,丢失大量的细节,都是司空见惯的事情。
为了更加接近人类的视觉智能,图像描述成为一个重要的突破口。
视觉智能:视觉智能是一种人工智能技术,旨在让计算机具备类似人类视觉的感知、识别、理解和处理视觉信息的能力。它结合了计算机视觉、机器学习和深度学习等技术,通过对图像和视频等视觉数据的分析,实现自动化检测、识别、分类等功能。视觉智能的关键技术包括图像分类、目标检测、图像分割、姿态估计等。这些技术可以应用于各种场景,如智能安防、自动驾驶、无人机、工业制造、医疗诊断等。
(未完待续)