AI新工具(20240315) 用户通过点击图像的特定部分实现域区图像动画；先进的机器人操作框架

✨ 1: Follow-Your-Click

用户通过点击图像的特定部分实现域区图像动画

Follow-Your-Click 是一个开放领域的区域性图像动画创作工具，它可以通过简短的提示语实现图像中特定区域的动画效果。这种功能允许用户通过点击图像的特定部分并输入简短的指令（例如“微笑”、“拍打翅膀”或“运行”等），即可让图像中对应的部分产生动画，如让人物的脸上露出微笑，或是让鸟儿拍打翅膀。

地址：https://follow-your-click.github.io/

CoPa（Robotic Manipulation through Spatial Constraints of Parts），简单来说，是一个先进的机器人操作框架。它的核心在于利用大型基础视觉-语言模型（例如GPT-4V）中嵌入的常识性知识，以无需特定训练的方式，处理和执行各种复杂的、在开放环境中的任务指令和物体操控。这样的设计减少了对大规模数据集训练的依赖，并提高了机器人应对未知任务和物体的能力。

地址：https://copa-2024.github.io/

✨ 3: FineControlNet

通过空间控制输入和文本描述来控制图像生成的方法

FineControlNet是一个用于图像生成的官方Pytorch实现，旨在提供细粒度的文本控制。用户可以通过空间控制输入（如2D人体姿势）和特定实例的文本描述来控制图像实例的形式和纹理。FineControlNet支持简单的线条绘制或复杂的人体姿势作为空间输入，并确保实例与环境之间的自然互动和视觉协调。该工具借鉴了Stable Diffusion的质量和泛化能力，并提供了更多的控制选项。FineControlNet扩展了ControlNet1.1的环境，支持文本细粒度控制以及OpenPose姿势、Canny边缘、M-LSD线条、HED边缘和草图等几何控制。

地址：https://github.com/SamsungLabs/FineControlNet

✨ 4: VLOGGER

从单个人物图像生成文本和音频驱动的说话视频

VLOGGER是一种文本和音频驱动的人体视频生成方法，能够从一个人的单个输入图像中生成说话的人类视频。该方法基于最近生成扩散模型的成功，包括1) 随机的人体到3D运动扩散模型，以及2) 一种新颖的基于扩散的架构，将文本到图像模型与时间和空间控制相结合。这种方法使得生成长度可变的高质量视频变得容易控制，通过对人脸和身体的高级表示。与以往方法不同的是，我们的方法不需要为每个人进行训练，也不依赖于人脸检测和裁剪，生成完整的图像（而不仅仅是脸部或嘴唇），考虑到了正确合成沟通的人的广泛情景（例如，可见的躯干或不同的主体身份）。

地址：https://enriccorona.github.io/vlogger/