百度“文心•跨模态大模型”又有新动态,支持内容分析时输出自定义标签库

大模型真正的价值在于应用。

一、基本概念

AI大模型具有强大的表征学习能力,能够在海量数据中提取有用的特征,为各种复杂任务提供解决方案。例如GPT-4o、BERT等模型的出现,不仅展示了大规模参数和复杂计算结构的优势,还在自然语言处理、图像识别等领域取得了令人瞩目的成果。同时,多模态大模型发展也为人工智能技术的多领域融合应用提供了可能。

1.跨模态大模型

跨模态大模型(Cross-Modal Large Models),是一种能够处理和理解来自不同模态(如文本、图像、音频、视频等)的数据,并在这些模态之间进行转换、关联和推理的深度学习模型。为了捕捉和表示各种模态数据中的丰富信息,这些模型通常具有庞大的参数规模和复杂的网络结构。

随着深度学习技术的不断发展和计算能力的提升,跨模态大模型的性能和效果越来越好,已经被广泛地投入使用。跨模态大模型可以实现图像描述生成、视觉问答、图像检索等任务,有效地关联和融合信息,为用户提供更加灵活便捷的检索方式。除此之外,跨模态大模型经常用于分析多媒体内容,如视频、音频等,提取其中的关键信息和特征。

2.内容分析

本文介绍的是“媒体内容分析”。它主要利用视觉、语音、知识图谱等AI技术,对视频和图片进行结构化分析,帮助平台实现个性化内容推荐,提升用户检索体验,促使业务有效转化。

百度的媒体内容分析MCA(Media Content Analysis) 借助百度积累的海量级数据,针对视频场景进行声音、人脸、图像、文字多维度分析,输出内容的泛标签,可以达到最优的识别效果。

3.结构化标签

结构化标签是一种用于明确标识和分类内容的标记形式。它不仅能帮助人类更好地理解内容,还可以让机器(如搜索引擎、自动化工具等)解析和索引信息,更准确地理解文本含义和上下文信息,提高任务处理效率,从而提高内容的可访问性,改善观众的搜索体验。

结构化标签通常遵循某种标准或规范,如HTML5的语义化标签(如<header>, <footer>, <article>, <section>等)、微数据(Microdata)、RDFa(Resource Description Framework in Attributes)或JSON-LD(JavaScript Object Notation for Linked Data)等。

4.自定义文心标签

当系统中已有的标签无法满足实际需求时,只需在文心标签库里输入“标签名称+提示词”的文本,系统就能为视频、图片打上对应的标签。这个能力的实现,使用了百度“文心•跨模态大模型”,因此通过这种方式打出的标签,被称为“文心标签”。

百度的内容分析系统,支持“系统内置文心标签”和“自定义文心标签”。前者由内容分析产品官方团队维护,用户可在模板中配置是否开启;后者由用户自主维护,需要用户手动创建标签库,并将其绑定在模板上。

二、超详细实操指南

登录百度智能云官网、进入产品页面后,点击分析管理>自定义库管理>自定义文心标签库,进入自定义文心标签库页。

Step 1 确定标签内容

根据自身的业务需求,梳理好期望系统输出的标签。我们推荐在以下场景内,使用自定义文心标签功能:

  • 自然场景标签:如“暴雪天”“森林”“冰川”“极光”“星空”等自然场景。

  • 人文场景标签:如“演出活动”“博物馆”“握手”“龙舟比赛”等社会文化生活中常见的场景、活动、动作。

  • 常见实体标签:如“滑板”“蛋糕”“飞机”“二维码”“长城”等物体、地标。

Step 2 创建文心标签库

进入自定义库管理>文心标签库页面,点击“创建文心标签库”按钮,创建库。每个用户最多可创建3个库,单个库最多支持300个标签。

Step 3 添加标签与提示词

创建完自定义文心标签库后,进入标签库编辑页。点击“添加标签”,即可添加标签与提示词。

3.1 什么是提示词

标签是用户期望系统为图片、视频内容打上的标签,提示词是系统打标签的参考依据。

例如,“冬季运动”为标签,“滑冰、滑雪、冰壶、雪车”为提示词。系统在进行内容分析的过程中,如果发现某个图片或视频的画面内容与提示词一致,就会为其打上对应的标签。

3.2 怎么写提示词

如果标签可以概括提示词内涵,可以直接使用标签作为“提示词”,如“极光”。为了保证召回的效果,也可以使用近义词撰写多个提示词,如“舞台”。

如果标签涵盖的场景较为复杂,提示词要细化不同的场景。如标签“救援”“婚纱照”。

3.3 标签验证

为每个标签添加提示词后,可使用“标签验证”功能,检验提示词是否合适,以确保系统根据提示词匹配的图片与提示词表达的内涵一致。如遇到不一致的情况,可对提示词进行调整。

如“红包”这个标签,本意是想召回在线的各类红包营销活动、红包提示,但进行“标签验证”后发现,系统召回了“红色的手提包”。为了避免系统对红包产生歧义、以至在后续使用过程中,给很多图片错误打上“红包”标签,可以将提示词改写为“电子红包画面”“电子红包”“电子红包弹窗”。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

类似的例子还有标签“平板”,本意是指平板电脑,提示词只写“平板”,召回的内容不符合预期,改为“平板电脑”后,与预期一致。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

3.4 标签阈值

系统支持输入0.26-0.35之间的两位小数作为标签阈值,默认阈值为“0.32”。只有“置信度”大于阈值的标签,才会被输出。阈值将直接影响图片打标签的严格程度。

  • 阈值较低(如0.26或0.27):意味着打标签规则相对宽松,图片更容易被打上当前标签。

  • 阈值较高(如0.34或0.35):意味着打标签规则更加严格,只有高度符合提示词描述的图片才会被打上当前标签,因此被打上标签的图片数量可能会减少。

当阈值设定好之后,在“标签验证”时,也只有“置信度”大于阈值的图片,才会被召回,且最多可以召回20张图片。

Step 4 将标签库绑定至模板

编辑好标签和提示词后,可以在视频分析模板、图片分析模板的“自定义文心标签”项下,绑定对应的标签库。

视频分析模板:

图片分析模板:

Step 5 开始使用

通过API接口或内容分析产品控制台,选择已经绑定好文心标签库的模板,发起“图片内容分析”“视频内容分析”,验证内容打标结果是否符合预期。如与预期不符,可增加或修改提示词。

图片内容分析:

视频内容分析:

三、总结

人工智能“百模大战”已经开启,借助大模型能力满足业务的自定义需求,已经成为大势所趋。文心跨模态大模型和自定义文心标签,突破了应用场景、产业生态、技术成本的限制,呈现出了蓬勃的生机与活力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/872125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32第二十课:FreeRTOS任务管理和信号量

目录 一、任务管理方式二、任务堆栈溢出检测三、二值信号量&#xff08;任务同步&#xff09;四、计数信号量五、互斥信号量六、队列 一、任务管理方式 1.任务创建成功后会添加到就绪链表中&#xff0c;开启调度器&#xff0c;此时任务调度器会去就绪链表中找优先级最高的任务执…

二叉树 —— OJ题目详解

1.二叉树的前序遍历 二叉树的前序遍历比较简单&#xff0c;但是在力扣上写这个接口需要注意几个点&#xff1a; int* preorderTraversal(struct TreeNode* root, int* returnSize) {} preorderTraversal 的返回值是动态开辟的数组&#xff0c;里面存放的是前序遍历的顺序int*…

【Linux取经之路】Linux常见指令

目录 基本指令 常见指令 1&#xff09;ls —— 对于目录&#xff0c;列出该目录下的所有子目录和文件&#xff1b;对于文件&#xff0c;将列出文件名及其他信息 2&#xff09;pwd —— 显示当前所在的目录 ​编辑 3&#xff09;cd —— 切换到指定路径下 4&#xff09;t…

itextpdf字体选择

itextpdf 版本7.2.5 itextpdf-html2pdf 版本4.0.5 这里讲的是通过html转pdf&#xff0c;在html2pdf中是通过html中font-family样式来确定字体的&#xff0c;那已知font-family的情况&#xff0c;怎么确定pdf中实际用的字体&#xff0c;大致分为两步&#xff1a; 1、通过font…

识别 TON 生态系统中前10种加密资产,以bitget 钱包为例

元描述&#xff1a;想要找到下一个 100 倍加密货币投资&#xff1f;请密切关注这篇文章&#xff1b;它揭示了所有可能很快变得非常有价值的 TON 网络宝石。 由 Telegram 提供支持的 TON&#xff08;开放网络&#xff09;生态系统正在蓬勃发展&#xff01;这是一个充满激动人心的…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【25】【分布式事务】

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【25】【分布式事务】 本地事务事务的基本性质事务的隔离级别&#xff08;下面四个越往下&#xff0c;隔离级 别越高&#xff0c;并发能力越差&#xff09;事务的传播行为&#xff08;是否…

【Hive SQL 每日一题】找出各个商品销售额的中位数

文章目录 测试数据需求说明需求实现方法1 —— 升序计算法方法2 —— 正反排序法 补充 测试数据 -- 创建 orders 表 DROP TABLE IF EXISTS orders; CREATE TABLE orders (order_id INT,product_id INT,order_date STRING,amount DOUBLE );-- 插入 orders 数据 INSERT INTO ord…

软件工程课设——成绩管理系统

软件工程课设——成绩管理系统 该文档是软件工程课程设计&#xff0c;成绩管理子系统的开发模块仓库。 功能分析 从面向的用户分&#xff0c;成绩管理子系统主要面向三类用户&#xff0c;即至少需要满足这三类用户的需求&#xff1a; 学生&#xff1a;学生是成绩管理系统的…

深入理解 Git Reset 的三种模式及其使用场景

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a;Android ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 前言 正文 1. --soft 模式 2. --mixed 模式&#xff08;默认&#xff09; 3. --hard 模式 总结 结语 我的其他博客 前言 在日常的开发…

机器学习-1:人工智能、机器学习和深度学习的关系

人工智能&#xff08;AI&#xff09; 简单理解&#xff0c;任何一种事物只要具备了一定的智能就可以把它归类为人工智能。 官方定义&#xff1a;"AI is the field that sdudies the synthesis and analysis of computational agents that act intelligently." 其中&a…

安卓学习中遇到的问题【bug】

安卓学习中遇到的问题 1Gradle下载慢怎么办&#xff1f; Gradle下载慢怎么办&#xff1f; distributionUrlhttps://mirrors.cloud.tencent.com/gradle/gradle-7.5-bin.zip 2 Could not resolve all files for configuration ‘:classpath‘. &#xff1e; Could not resolv…

uniapp-vue3-vite 搭建小程序、H5 项目模板

uniapp-vue3-vite 搭建小程序、H5 项目模板 特色准备拉取默认UniApp模板安装依赖启动项目测试结果 配置自动化导入安装依赖在vite.config.js中配置 引入 prerttier eslint stylelint.editorconfig.prettierrc.cjs.eslintrc.cjs.stylelintrc.cjs 引入 husky lint-staged com…

处理在 electron 中使用开启了懒加载的 el-image 后,窗口最大化或窗口尺寸变化后图片无法显示的问题

文章目录 1、问题描述2、详情动图3、解决思路4、解决方案5、效果展示 1、问题描述 在 electron 中使用 el-image 时&#xff0c;开启了懒加载后&#xff0c;发现只有当窗口滚动后&#xff0c;图片才会显示&#xff0c;即便图片已经处于窗口的可视区域。当拖动窗口使其尺寸变大…

基于JAVA+SpringBoot+Vue+uniapp+协同过滤算法+爬虫+AI的减肥小程序

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 小程序用户登录&#…

前端开发体系+html文件详解

目录 html骨架 body主体内基本元素 基本元素 超文本&#xff08;超链接跳转&#xff09; 锚点 图片标签 列表标签 表格标签 框架标签&#xff08;窗口标签&#xff09; 音频标签 视频标签 VScode编译器 输入框 字体样式 实例展示&#xff1a; 首先简要介绍前端的整…

在VS2017下FFmpeg+SDL编写最简单的视频播放器

1.下载ShiftMediaProject/FFmpeg 2.下载SDL2 3.新建VC控制台应用 3.配置include和lib 4.把FFmpeg和SDL的dll 复制到工程Debug目录下&#xff0c;并设置调试命令 5.复制一下mp4视频到工程Debug目录下&#xff08;复制一份到*.vcxproj同一目录&#xff0c;用于调试&#xff09; 6…

python中的re模块--正则表达式

正则表达式&#xff0c;又称规则表达式。&#xff08;英语&#xff1a;Regular Expression&#xff0c;在代码中常简写为regex、regexp或RE&#xff09;&#xff0c;计算机科 学的一个概念。正则表达式通常被用来检索、替换那些符合某个模 式(规则)的文本 re模块作用 通过使用…

JVM 内存介绍

本文主要介绍&#xff1a; JVM 内存分哪几个区&#xff0c;每个区的作用是什么 备注: 橙色:堆 和 方法区 &#xff0c;属于jvm公有部分,可以进行调优 灰色:java栈,本地方法栈和计数器 属于jvm的私有部分,不可进行调优 一个对象从创建到被回收的过程是怎样的? Personpnew Perso…

【HarmonyOS】HarmonyOS NEXT学习日记:一、创建和运行一个页面

【HarmonyOS】HarmonyOS NEXT学习日记&#xff1a;一 DevEco Studio下载与安装 直接到官网的下载地址下载即可 正常下载、解压、安装完成后 正常来说不会有项目&#xff0c;并且是英文界面。 需要汉化的话可以按照下面的步骤设置插件 选择customize里的 all setting 进入…

macOS Sequoia 15(Macos15系统)v15.0 Beta 3发布 macOS Sequoia 15 功能预览

macOS Sequoia 15 功能预览 犀利一如 Mac macOS Sequoia 15(Macos15系统)v15.0 Beta 3测试版本下载安装 连续互通 你的 Mac 上&#xff0c;iPhone 用起来。 有了 iPhone 镜像功能&#xff0c;在 Mac 上就能看到 iPhone 屏幕画面&#xff0c;还能直接进行操控&#xff0c;不拿…