提示词4大经典框架；将AI融入动画工作流的案例和实践经验；构建基于LLM的系统和产品的模式；提示工程的艺术

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

🤖 高效提示词的4大经典框架：ICIO、CRISPE、BROKE、RASCEF

ICIO 框架

Intruction (任务) ：你希望AI去做的任务，比如翻译或者写一段文字

Context (背景) ：给AI更多的背景信息，引导模型做出更贴合需求的回复，比如你要他写的这段文字用在什么场景的、达到什么目的的

Input Data (输入数据) ：告诉AI你这次你要他处理的数据。比如你要他翻译那么你每次要他翻译的句子就是「输入数据」

Output Indicator (输出格式) ：告诉AI他输出的时候要用什么格式、风格、类型，如果你无所谓什么它输出时候的格式，也可以不写

CRISPE 框架

Capacity and Role (角色) ：告诉AI你要他扮演的角色，比如老师、翻译官等等

Insight (背景) ：告诉AI你让他扮演这个角色的背景，比如扮演老师是要教自己10岁的儿子等等

Statement (任务) ：告诉AI你要他做什么任务

Personality (格式) ：告诉AI用什么风格、方式、格式来回答

Experiment (实验) ：请求AI为你回复多个示例 (如果不需要，可无)

BROKE 框架

Background (背景) ：说明背景，提供充足信息

Role (角色) ：你要AI扮演的角色是什么

Objectives (目标/任务) ：你要AI做的事情的一个描述

Key Result (关键结果) ：对于AI输出的回答，在风格、格式、内容等方面的要求

Evolve (改进) ：在AI给出回答以后，三种调整、改进方法

RASCEF 框架

Role (角色) ：这就是AI假装的人，它可以是电子邮件营销人员、项目经理、厨师或您能想到的任何其他角色

Action (行动) ：这是人工智能需要做的，例如编写项目执行计划

Script (步骤) ：这些是 A 完成操作应遵循的步骤

Content (上下文) ：这是背景信息或情况

Example (示例) ：这些是说明这一点的特定实例，它们帮助人工智能理解语气和思维/写作风格

Format (格式) ：这是AI应该呈现其答案的方式，它可以是段落、列表、对话或任何其他格式 ⋙ 即刻 @东风阁主

🤖 YouTube 测试用AI生成视频摘要，用技术改善用户体验

8月1日，YouTube 开始在搜索和观看页面测试AI生成的视频摘要，帮助用户更快地获取视频核心内容，提高浏览效率。不过此次测试只面向英文用户且范围有限。

YouTube 表示，这是进一步利用AI技术改善用户体验的尝试，并将在之后将AI生成技术应用到更广泛的视频创意、标题等领域。不过！这并不意味着内容创作者的工作将被机器取代，相反，创作者编写的视频描述仍然是用户获取视频信息的重要来源 ⋙ Search Engine Land

🤖 阿里云宣布「通义千问」开源，国内首个商用开源的大厂模型

8月4日，阿里云官方公众号宣布通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat上架魔搭，两款模型均开源、免费、可商用。此举让阿里云成为国内首个加入大模型开源行列的大型科技企业。

Qwen-7B 是支持中、英等多种语言的基座模型，Qwen-7B-Chat 是基于基座模型的中英文对话模型，在许多测基准上都取得了良好的表现。

用户目前已经可以从魔搭社区直接下载模型，也可通过阿里云灵积平台访问和调用这些模型，而通过开源代码，用户可以很方便地在消费级显卡上部署和运行模型 ⋙ 通义千问-7B-预训练 | 通义千问-7B-Chat

🤖 和 AI 一起做动画，将AI融入动画工作流的案例和实践经验

这是一篇超长的实践经验分享文章！作者 @海辛总结了「使用AI制作动画」的不同路径和技术实现方式，并附上了动画视频和推荐的免费系列教程！

这应该是目前覆盖最全面的、最硬核的教程啦！非常值得放进收藏夹~

🔔 一、根据参考视频进行风格迁移

1. Runway Gen-1

提供原视频和参考图像，基于风格迁移生成新的视频

无法完全按参考图风格迁移，难以应用于实际项目，仍停留在玩具水准

2. Stable Diffusion + EbSynth

使用 Stable Diffusion 绘制关键帧，再用 EbSynth 根据原视频+关键帧将其余帧补齐

当画面引入全新的信息时，就要新建一个关键帧；还可以结合传统的影视抠像工具进行叠加，从而指定 AI 仅对画面部分内容进行风格迁移

兼顾生成效果和计算效率，可控性强，是当前最优方案之一

3. Rerender

自动判断关键帧，保证关键帧间信息连贯一致，避免了上个方案中人工调整关键帧间的信息连续性问题

代码未开源但值得期待

4. AI + AE

AI工具与AE转场、PR剪辑等影视工具结合，发挥两者优势

AI 动画特效做得好的人，大多数都是影视/游戏/特效的背景，他们知道如何将 AI 生成的画面结合到其他管线的工具中，从而提升画面效果

🔔 二、AI生长类动画

1. Disco Diffusion、Stable Diffusion Deforum

用传统 AI 生成图像工具，进行画面的批量生成，通过指定不同关键帧上的画面内容，和关键帧上的镜头运动，从而使得 AI 能生成连续的动画

控制 AI 生成的参数和影视镜头语言其实呈现一定的映射关系

Youtube 频道主 DoodleChaos 给 Resonate 的歌曲《Canvas》做的动画音乐视频，代表此类动画的最高水准之作

🔔 三、根据静态图生成动画

1. 让肖像画说话

D-ID、Movio、Artflow 等工具基于First Order Motion算法，可以让一张静态的肖像画动起来说话的功能

算法成熟，可广泛应用于各类创意内容

2. 让静态图 (随机) 动起来

Pika Labs、Gen-2 等工具的底层技术类似 Animatediff，支持根据单张图输入其随机动态效果

可用于概念预览，但可控性有限，对于目前工业界的帮助还不是很显著 ⋙ 海辛

🤖 构建基于LLM的系统和产品的模式

这篇长文探讨了一个非常实用的话题——在构建基于大语言模型的系统和产品时，需要注意的7个关键模式。

作者分享了自己宝贵经验和深度思考，覆盖了从从模型性能、成本控制到用户体验的各个方面，对于从业者来说是非常实用的指南。

1. Evals

What：评估，用于测量性能

Why：Evals 可以测量系统或产品的表现，检测任何回归；一个具代表性的 Evals 套件可以大规模测量系统变更；如果没有Evals 就会飞盲，或者必须通过视觉检查每个LLM输出来检测每一个变更

More about：Evals包括基准数据集和指标；一些知名基准有 MMLU、EleutherAI Eval、HELM 和 AlpacaEval 等；指标可分为与上下文相关或无关的两类，还需要注意常用指标的局限性

2. RAG

What：检索增强生成，用于添加外部知识

Why： RAG 可以减少 hallucination，基于检索出的上下文指导模型；相比持续预训练语言模型，使用检索索引更经济高效，也更易于提供最近的数据

More about：RAG 通常基于稠密向量检索 (例如 DPR)，先 offline 构建文档索引，然后在线为每个查询检索出 Top K 个相关文档，并将其提供给语言模型作为上下文；一些变体包括 RAG-Sequence、RAG-Token、FiD 和 RETRO 等

3. Fine-tuning

What：微调，用于提高特定任务的性能

Why：Fine-tuning 可以提高开放域语言模型的性能，实现比第三方语言模型更好的效果，也让系统模块化

More about：Fine-tuning 通常在预训练模型的基础上进行，一些常见的 Fine-tuning 技术包括软提示调优、前缀调优、适配器和低秩适配等

4. Caching

What：缓存，用于降低延迟和成本

Why：缓存可以显著减少延迟和成本；对于某些不能容忍秒级延迟的用例，预计算和缓存可能是唯一的实现方式

More about：在语言模型中，常见做法是基于输入请求的 Embedding 来缓存响应；不过需要谨慎应用 (例如不要缓存可能过时的价格信息等)

5. Guardrails

What：防护栏，用于确保输出质量

Why：Guardrails 可以确保模型输出可靠统一到足以用于生产环境，例如可能需要确保输出符合特定 JSON 模式等

More about：Guardrails 通常通过验证语言模型的输出来实现，一些常见策略包括结构指导、语法验证、内容安全检查、语义验证等

6. Defensive UX

What：防御性UI，用于优雅地处理错误

Why：Defensive UX 承认语言模型可能出现不准确或 hallucination 的情况，并提前应对这些情况，主要通过引导用户行为、避免误用和优雅地处理错误

More about：一些常见模式包括设定正确的期望值、启用高效驳回、提供归因等，可以提高可访问性、信任度和体验质量

7. Collect user feedback

What：收集用户反馈，用于构建数据飞轮

Why：收集用户反馈可以了解用户喜好，帮助改进模型、适应个人喜好,并评估系统整体性能

More about：反馈可以是明确或隐式的，要方便用户提供反馈；隐式反馈也很有价值，可以提供大量用户行为偏好信息 ⋙ eugeneyan

🤖 为什么AI「智能涌现」对创业者、从业者、普通人都价值巨大

我们一直在谈论的大模型「智能涌现」到底是什么意思？为什么理解这个概念对我们这么重要呢？这篇文章从一幅图的像素数量入手，非常清晰地解释了概念，并探讨了7个非常核心的问题。

正如图所示，当像素的数量多到一定程度时，我们就可以看出图片的基本内容了。宏观涌现可能只是构成系统的微观因素的线性变化的结果。大模型的智能涌现也是同样的道理。

问题1：除600亿参数规模外，还存在其他阈值，可以让AI发生智能涌现吗？

存在多个阈值，对应AI的不同新能力

AI模型同理，600亿不是唯一阈值，要实现新的能力需要更大的参数量；涌现时AI表现不稳定，可确定处在一个阈值附近

问题2：随着AI参数规模的增加，AI的能力会持续提升，但这会有上限吗？

AI能力会持续增强，会跨越一个又一个阈值

但人类对此的感知有上限，100万亿参数量级接近人脑神经连接数，超过这个量级后，人类将完全感知不到AI的进步

问题3：未来二十年你将会如何感受AI？

未来每当AI跨越一个新阈值，人类会强烈感受到进步，但之后会逐渐感知不明显，直到下一个阈值突破

就像人对新款 iPhone 屏幕的感受，开始惊艳，最后陷入「似乎稍有不同」的微妙感受

问题4：什么是「知识压缩」，它跟AI有什么关系？

知识是压缩数据的方法，训练模型就是在寻找压缩方法 (知识)，实现智能

图像压缩实验证明了知识使图像在低像素下依然涌现，压缩越高效，知识越本质

问题5：什么是智能？

智能是一个生成的过程，不是状态；高级智能具有更强的泛化能力，这来自大量知识的涌现，泛化是成规模知识涌现的结果

低级智能以还原为主，高级智能强在泛化，智能必须是生成的过程

问题6：OpenAI到底做对了什么？

OpenAI 让AI自主大规模寻找知识，并以生成为目标而非应用

解决了两个悖论：给AI自主学习的机会，以及将生成作为最重要目标 (OpenAI低估了这两点的价值)

问题7：什么是「世界模型」？

世界模型是外部世界在AI内部的建模和模拟，是AI的未来方向

它以层次方式组织知识并模拟世界运行，让AI拥有更强大的直觉式智能，能达到写出红楼梦的水平 ⋙ 阅读全文

🤖 对话「妙鸭」产品负责人：AIGC 的产品第一天不收钱，就可能收不到钱

谁都没有想到，国内 AIGC 第一个真正意义上破圈的现象级产品，诞生在照片美化（写实人像）这个已经相当成熟的赛道。

7月中旬悄悄上市，妙鸭凭借只需「9.9 元和 20 张照片就能生成艺术写真级的个人美照」这个噱头，在短短几周的时间内引来无数爱美女孩儿下载尝鲜，生成的「美照」席卷了朋友圈等社交媒体。

7月底，妙鸭相机接连受到上海市消保委和央视财经新闻的点名批评，称其退款相关规定违反了消费者权益保护法，并且威胁到了用户隐私。

最近，妙鸭接受了科技媒体的采访，介绍了产品源起和团队背景，并对争议话题进行了回应。感兴趣的小伙伴们可以 ⋙ 阅读原文

🤖 提升ChatGPT性能的实用指南：Prompt Engineering的艺术

提示工程是一门新兴学科，就像是为大语言模型 (LLM) 设计的「语言游戏」。通过这个「游戏」，可以更有效地引导 LLM 来处理问题。也只有熟悉了这个游戏的规则，才能更清楚地认识到 LLM 的能力和局限。

这篇文章非常全面地梳理和总结了提示工程关键知识点，长文！适合查漏补缺！

1. 什么是提示工程？

2. 提示工程基础

提示四要素

通用技巧：由浅入深、明确指令、明确细节、明确需求、正向引导，避免反向限制

简单提示解析

3. 提示工程进阶

零/少样本提示：Zero-Shot Prompting、Few-Shot Prompting

思维链提示：少样本思维链、零样本思维链

Explicit 思维链

主动提示

思维树

多模态思维链

一致性提示

Progressive-Hint 提示

Plan-and-Solve 提示

增强 (检索) 提示：外部知识库、LLM 知识库 (知识生成提示 / Clue And Reasoning 提示 / 知识反刍提示)

4. 懒人万能提示工程 ⋙ 腾讯技术工程