AI杀疯!2023上半年至今有趣的AI算法(内附视频)

公众号:算法一只狗
在这里插入图片描述

文章目录

  • 第一个,一切都可以进行分割
  • 第二个,开源图文回答工具
  • 第三个,视频转换风格生成
  • 第四个,免费好用的文档对话工具
    • 文档对话能力
    • 文档联系功能

今年,我们见证了人工智能算法的起飞,还有各种围绕大模型、AIGC等领域算法百花齐放。

如果说去年人工智能领域的关键词是“元宇宙”的话,那么2023年无疑是属于“大模型”的一年。迄今为止,国内外的科技公司、高校、研究机构已经发布了多款人工智能大模型,“百模大战”不断加码。

当然,作为AI从业者的我们,当然要不断学习。尽管目前大模型AI还不能够替代我们,但是也要求我们学会使用它,帮助自己提升工作效率。
image.png

因此这期我们来总结一下上半年的一些好玩有趣的AI算法。大家有兴趣的可以查看我公众号的详细文章。

  1. 一切都可以进行分割

https://mp.weixin.qq.com/s/HROpJHlcRX64J1kMz4L9Dw

  1. 开源图文回答工具

https://mp.weixin.qq.com/s/prJ9p9NAXYio9G8WCGomqQ

  1. 视频转换风格生成

https://mp.weixin.qq.com/s/UN5meK7YKEfd32TPpiQCLQ

  1. 免费好用的文档对话工具

https://mp.weixin.qq.com/s/e4bN6ciw5vzh9KR_Vc1YCw

第一个,一切都可以进行分割

一直沉静许久的CV圈,被Meta发布的SAM模型给炸出圈来。

发布的新模型,宣称能够“剪切”任何的图像。它可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练,就可以识别任意的图像。

image.png

从官方放出的demo来看,只需要通过鼠标点击对应的物体,就可以有效识别:
e1b44d6c-4aa7-4589-98d5-5890fffcf9df.gif

又或者给定一张图片,让它识别出图像中所有的物体:
54769a6b-184d-4c95-8cfb-f26c1e0e3413.gif

现在大模型都需要有通用的,自适应于下游任务的能力。SAM模宣称可以直接理解不熟悉的物体和图像进行零样本分割,而无需额外的训练。
06971fae-3e79-47a4-a45d-b4b15857bb44.gif

第二个,开源图文回答工具

在大模型的加持下,图片+文字的多模态模型也雨后春笋般。其中比较出名的MiniGPT-4,它产生了类似于 GPT-4 中新兴的视觉语言能力。
在MiniGPT-4模型中,你可以围绕一张图片和它进行对话:
在这里插入图片描述

从模型实现上来看,主要分为两步进行训练:

  • MiniGPT-4冻结一个视觉编码器和LLM
  • 在第一个阶段,使用100万个图像文本对进行训练。通过第一阶段后,模型能够有效理解图像,但是其生成能力变差
  • 第二个阶段则使用高质量的图像文本对数据集,共3500个进行微调,以显着提高其生成可靠性和整体可用性。这个阶段的计算效率很高,使用单个 A100 只需要大约7分钟。

在这里插入图片描述

在官网放出的例子中,它可以描述这张图片的内容:
image.png

或者可以给这张图定制一个广告语:
image.png

第三个,视频转换风格生成

https://www.yuque.com/yuqueyonghumaryyq/fmvho1/rwh3g25ekk25kt2p
在以前如果要对现有的视频进行风格转换,往往会造成视频闪烁。

但是这个难题近期被南洋理工大学的团队很好的解决。首先来看看他们生成的视频效果:
79305a59-4203-433d-97b2-f0cbe2733ead (1).gif

可以看到,生成的视频很丝滑,而且人物的动作衔接的很连贯。

不仅仅在人物方面能够解决“闪烁”问题,就连建筑上也能够很好的hold住不同的风格:
建筑.gif

同时帧与帧之间比较流畅,已经能够和正常的视频相媲美了。
comparison_1[00_00_03--00_00_23].gif

第四个,免费好用的文档对话工具

文档对话能力

我们知道,目前有一众收费的ChatPDF等文档问答网站,而Claude2直接可以说秒杀这些大部分的网站

它可以在官网上传文件进行对话 :
image.png

而且最大可以上传5个文件,每个文件最大可以10MB.

比如我这里把Claude2的技术文档上传上去,让它进行总结。它能够在几秒内把PDF进行总结:
image.png

同时也可以不断询问文档中的细节,这个能力和ChatPDF相当:
image.png

当然,我们也能够利用它的能力,进行excel数据分析:
image.png

文档联系功能

而且,只要我们上传更多的文档,就可以让它总结其中之间的联系,省去了我们看多个文档写总结的时间:
image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/111836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用结构加法比较4个结构的顺序

( A, B )---5-30-2---( 1, 0 )( 0, 1 ) 让网络的输入只有5个节点,AB训练集各由5张二值化的图片组成,让A中有5个点,B全是0。统计迭代次数并排序。 其中5-x有4组数据 5-x 差值结构 迭代次数 41 4-x 差值结构 迭代次数 19 0 0 1 236…

Python 机器学习入门之ID3决策树算法

系列文章目录 第一章 Python 机器学习入门之线性回归 第一章 Python 机器学习入门之梯度下降法 第一章 Python 机器学习入门之牛顿法 第二章 Python 机器学习入门之逻辑回归 番外 Python 机器学习入门之K近邻算法 番外 Python 机器学习入门之K-Means聚类算法 第三章 Python 机…

常量字符串

一、常量字符串是什么? 常量字符串是一个常量,它的值是首字符的地址 比如 "abcdefg" 或 "123456789" 就是常量字符串 二、常量字符串与普通字符串的区别 1.常量字符串不可更改,而普通字符串可以更改 利用memcpy内存…

python知识:从PDF 提取文本

一、说明 PDF 到文本提取是自然语言处理和数据分析中的一项基本任务,它允许研究人员和数据分析师从 PDF 文件中包含的非结构化文本数据中获得见解。Python 是一种通用且广泛使用的编程语言,它提供了多个库和工具来促进提取过程。 二、各种PDF操作库 让我…

Vue+openlayers+projs4实现坐标转换

一、背景 有一堆点数据,需要在地图上标记,只知参考北京54坐标系或西安80坐标系,但具体是哪种不清楚,这时候就需要坐标转换。ps:EPSG:3857(openlayers参照的坐标系) 二、思路 1、研…

原码、反码、补码在汇编中的应用

原文章:知乎 原码和二进制类似,不过它有符号位。正数符号位为0,负数为1 。 例:40000 0100 ,-41000 0100 原码是人脑最容易理解和计算的表示方式。 但是这在计算机中计算就出了问题,这两个(4…

Jmeter接口测试:jmeter导入和导出接口的处理

JMeter测试导入接口 利用Jmeter测试上传文件,首先可根据接口文档或者fiddler抓包分析文件上传的接口;如下图: 以下是我通过fiddler所截取的文件上传的接口 1、填写导入接口的信息 查看文件上传栏下的填写信息: 文件名称&#x…

vue与react,angular的区别

Vue.js 作为一个优秀的前端框架,方便前端开发者快速开发应用的前端,在实际项目中使用得比较普遍。 当然 Vue.js 也不是实际项目中唯一的前端框架,比较优秀的前端框架还有 React、AngularJS 和 Angular等。接下来就介绍一下 Vue.js 同这3个框架…

大数据Flink(九十九):SQL 函数的解析顺序和系统内置函数

文章目录 SQL 函数的解析顺序和系统内置函数 一、​​​​​​​SQL 函数

供应IPQ4018原装芯片

长期供应各品牌原装芯片: AG3331 AG3335MNV AG3352 ALT1250BZ-E0 ALT1250TG-D0 ASR1601 ASR1603E ASR1603S ASR1606C ASR1606L ASR1606S ASR1802S ASR1803E ASR1803S ASR1826 ASR3601 BCM47755 BCM47768 BK7231M CB0201 CB0201L CYW43438 CY…

Nginx集群负载均衡配置完整流程

今天,良哥带你来做一个nginx集群的负载均衡配置的完整流程。 一、准备工作 本次搭建的操作系统环境是win11,linux可配置类同。 1)首先,下载nginx。 下载地址为:http://nginx.org/en/download.html 良哥下载的是&am…

Vue生命周期钩子

vue生命周期表示在组件创建后的一系列变化,其中钩子函数会在生命周期的关键节点中被调用 为什么在beforeCreated()时,data和methods方法还没有创建,但是在beforeCreated()里面打印this可以看到data相关的数据? 跟浏览器有关&…

k8s-14 存储之volumes

Volumes配置管理 容器中的文件在磁盘上是临时存放的,这给容器中运行的特殊应用程序带来一些问题。首先,当容器崩溃时,kubelet 将重新启动容器,容器中的文件将会丢失因为容器会以干净的状态重建。其次,当在一个 Pod 中…

手机有什么爬虫App工具?

随着智能手机的普及和应用的繁盛,越来越多的人开始对手机App进行数据爬取和分析。那么,在进行手机App爬虫的过程中,我们可以借助哪些工具呢?让我们一起来了解一下吧! 1、Fiddler Fiddler是一款功能强大的网络调试工具…

C++11 packaged_task

std::packaged_task 把一个方法打包成一个task扔到线程中执行&#xff0c;然后通过packaged_task中的furture等待执行结果。 void test_promise() {std::packaged_task <int()> task([]()->int {std::cout << "packaged_task begin \n" << std…

公司电脑监控软件|管控企业U盘,防止员工利用U盘泄密

德人合科技——电脑监控软件可以通过U盘管理系统管控企业U盘&#xff0c;防止员工利用U盘泄密。 PC访问地址&#xff1a;https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee 其具体功能如下&#xff1a; U盘接入管控&#xff1a;单位内电脑能否使用U…

linux uname详解 -s -r -a 查看内核版本

简介 uname命令用于显示操作系统信息&#xff0c;例如内核版本、主机名、处理器类型等 uname常用的有-a&#xff0c;-r&#xff0c;-rs 参数 --help  显示帮助。-a 或--all 显示全部信息&#xff0c;包括内核名、主机名、内核版本、处理器类型和硬件架构等…

Harbor 安装部署

Harbor基本介绍 1、Harbor 是 VMware 公司开源的企业级 Docker Registry 项目&#xff0c;Harbor 是一个企业级的 Docker 私有仓库项目。 2、Harbor以 Docker 公司开源的 Registry 为基础&#xff0c;提供了图形管理 UI 、基于角色的访问控制(Role Based AccessControl) 、AD/L…

lodash库_.chunk、_.pick、_.omit、_.cloneDeep、_.debounce方法

lodash 模块化、高性能的 JavaScript 实用工具库。官方文档&#xff1a;https://www.lodashjs.com 1.对数组进行分组 _.chunk(array, [size1]) 使用场景&#xff0c;如移动端页面一行能放5个元素&#xff0c;总共7条数据&#xff0c;将一维数组转为二维数组&#xff0c;让一个…

ETX很小

windows桌面调节分辨率即可&#xff1a;