OpenAI 周四宣布,它已经扩展到文本和图像之外,首次提供视频生成人工智能。
这种名为 Sora 的新模型允许用户输入所需的场景并将其转换为高清视频剪辑。
人工智能生成的视频给担心错误信息的平台带来了另一个障碍,尤其是在今年全球各地安排重要选举的情况下。
柯基博主开播了
OpenAI去年因ChatGPT的流行而成为主流,正在将其人工智能技术引入视频领域。
该公司周四推出了新的生成式人工智能模型Sora 。Sora 的工作原理与 OpenAI 的图像生成人工智能工具 DALL-E 类似。用户输入所需的场景,Sora 将返回高清视频剪辑。Sora 还可以生成受静止图像启发的视频剪辑,并扩展现有视频或填充缺失的帧。
既然聊天机器人和图像生成器已经进入消费者和商业世界,视频可能会成为生成式人工智能的下一个前沿领域。虽然创意机会会让人工智能爱好者兴奋不已,但随着全球重大政治选举的临近,新技术带来了严重的错误信息担忧。机器学习公司 Clarity 的数据显示,人工智能生成的深度赝品数量同比增长 900%。
Sora 目前仅限于生成一分钟或更短的视频。OpenAI,由微软支持
,将多模态(文本、图像和视频生成的结合)作为提供更广泛的人工智能模型套件的目标。
“世界是多式联运的,”OpenAI 首席运营官 Brad Lightcap在 11 月告诉 CNBC 。“如果你想想我们作为人类处理世界和与世界互动的方式,我们会看到事物、听到事物、说事物——世界比文本大得多。所以对我们来说,文本总是感觉不完整,代码成为我们可以拥有的单一模式、单一接口,以了解这些模型有多强大以及它们可以做什么。”
到目前为止,Sora 只可供一小群安全测试人员或“红队人员”使用,他们测试模型是否存在错误信息和偏见等领域的漏洞。该公司尚未发布超过其网站上提供的 10 个样本剪辑的任何公开演示,并表示其随附的技术论文将于周四晚些时候发布。
OpenAI 还表示,它正在构建一个“检测分类器”,可以识别 Sora 生成的视频剪辑,并计划在其输出中包含某些元数据,这将有助于识别 AI 生成的内容。Meta 希望在今年选举年使用这种元数据来识别人工智能生成的图像。
Sora 是一种扩散 AI 模型,与 ChatGPT 一样,使用 Transformer 架构,由 Google 研究人员在 2017 年的一篇论文中介绍。
OpenAI 在其声明中写道:“Sora 是能够理解和模拟现实世界的模型的基础。”