Azure Machine Learning - 视频AI技术

Azure AI 视频索引器是构建在 Azure 媒体服务和 Azure AI 服务(如人脸检测、翻译器、Azure AI 视觉和语音)基础之上的一个云应用程序,是 Azure AI 服务的一部分。 有了 Azure 视频索引器,就可以使用 Azure AI 视频索引器视频和音频模型从视频中提取见解。

file

我可以使用 Azure AI 视频索引器执行哪些操作?

Azure AI 视频索引器通过运行 30 多个 AI 模型来分析视频和音频内容,从而生成丰富的见解。 下面是 Azure AI 视频索引器在后台执行的音频和视频分析的图示:

file

Azure AI 视频索引器的见解可应用于许多方案:

  • 深度搜索:使用从视频中提取的见解可增强整个视频库的搜索体验。 例如,对所说内容和人脸进行索引,可以实现在视频中查找特定瞬间的搜索体验,例如,查找视频中某个人说出某些话时刻,或者看到两个人出现在一起的时刻。 根据视频中的此类见解进行的搜索,适用于新闻机构、教育机构、广播公司、娱乐内容所有者、企业 LOB 应用。一般来说,它适用于拥有视频库、用户需要对照搜索的任何行业。
  • 内容创建:根据 Azure AI 视频索引器从你的内容中提取的见解,创建预告片、亮点片段、社交媒体内容或新闻剪辑。 人物和标签外观的关键帧、场景标记和时间戳使创建过程更顺畅、更简单,让你能够在创建内容时轻松访问所需的视频部分。
  • 辅助功能:无论你是想将内容提供给残障人士使用,还是要使用不同的语言将内容分发到不同地区,你都可以使用 Azure AI 视频索引器提供多种语言的转录和翻译。
  • 盈利:Azure AI 视频索引器有助于提高视频的价值。 例如,依赖于广告收入(新闻媒体、社交媒体等)的行业,可以将提取的见解用作附加信号,向广告服务器投放相关广告。
  • 内容审核:使用文本和视觉内容审核模型可保护用户远离不当内容,并验证发布的内容是否与组织的价值观相符。 你可以自动阻止某些视频,或向用户发出有关这些内容的警报。
  • 建议:视频见解可以通过向用户重点显示相关视频瞬间来提高用户的参与度。 通过使用其他元数据标记每个视频,可以为用户推荐最相关的视频,并重点显示符合用户需求的视频的部分内容。

file

file

file

视频/音频 AI 功能

以下列表显示了可使用 Azure AI 视频索引器视频和音频 AI 功能(模型)从视频/音频文件中检索的见解。

视频模型

  • 人脸检测:检测和分组视频中显示的人脸。

  • 名人识别:识别超过 100 万名人,如世界各国/地区领导人、演员、艺术家、运动员、研究人员、商业和科技领袖。 有关这些名人的数据也可以在各种网站(IMDB、维基百科等)上找到。

  • 基于帐户的人脸识别:为特定帐户训练模型。 然后,根据已训练的模型识别视频中的人脸。

  • 人脸缩略图提取:在每组人脸中识别捕获的最佳人脸(基于质量、大小和正面位置),并将其提取为图像资产。

  • 光学字符识别 (OCR):从媒体文件中的图片、街道标志和产品等图像中提取文本以创建见解。

  • 视觉内容审核:检测成人和/或挑逗性视觉对象。

  • 标签识别:识别显示的视觉对象和动作。

  • 场景分割:根据视觉提示确定视频中的场景何时发生了变化。一个场景描绘的是一个单一事件,由一系列在语义上相关的连续镜头组成。

  • 镜头检测:根据视觉提示确定视频中的镜头何时发生了变化。镜头是指从同一台运动摄像机拍摄的一系列画面。

  • 黑帧检测:识别视频中的黑帧。

  • 关键帧提取:检测视频中稳定的关键帧。

  • 滚动字幕:识别电视节目和电影末尾的滚动字幕的开头和结尾。

  • 编辑镜头类型检测:根据镜头类型(如广角镜头、中景镜头、特写、极特写、双人镜头、多人、室外和室内等)进行标记。

  • 跟踪观测到的人员(预览版):检测视频中观测到的人员,并提供视频帧中人员的位置(使用边界框)以及人员出现时确切的时间戳(开始时间、结束时间)和置信度等信息。

    • 检测到的人员服装(预览版):检测视频中出现的人的服装类型,并提供长袖或短袖、长裤或短裤、半身裙或连衣裙等信息。 检测到的服装与其穿着者相关联,并且提供检测的确切时间戳(开始、结束)及置信度。
    • 特色服装(预览版):捕获视频中出现的特色服装图像。 可以使用特色服装见解改进定向广告。
  • 匹配的人员(预览版):将视频中观测到的人员与检测到的相应面孔进行匹配。 被观察人员与面孔之间的匹配包含置信度。

  • 在使用高级索引选项为视频编制索引时,静态图像检测(预览版)会识别以下影片后期制作见解:

    • 使用元数据提取进行 Clapperboard 检测。
    • 数字模式检测,包括色条。
    • 无文本静态图像检测,包括场景匹配。
  • 文本徽标检测(预览版):使用 Azure AI 视频索引器 OCR 匹配特定的预定义文本。 例如,如果用户创建了一个文本徽标:“Microsoft”,则单词 Microsoft 的不同外观将被检测为“Microsoft”徽标。 有关详细信息,请参阅检测文本徽标。

音频模型

  • 音频听录:将语音转换为超过 50 种语言的文本并允许扩展。

  • 自动语言检测:识别主要讲述语言。

  • 多语言语音识别和听录:识别音频中不同片段的口述语言。 它会发送要转录的媒体文件的每个片段,然后将转录合并成一个完成的转录。

  • 隐藏式字幕:以三种格式创建隐藏式字幕:VTT、TTML、SRT。

  • 双通道处理:自动检测单独的脚本并合并到单个时间轴。

  • 噪声消减:清理电话音频或有噪音的录制内容(基于 Skype 滤波器)。

  • 脚本自定义 (CRIS):训练自定义语音转文本模型,以创建行业特定的脚本。

  • 说话人枚举:映射和了解哪个说话人在何时说了哪些话。 可在一个音频文件中检测出 16 位说话人。

  • 说话人统计信息:提供说话人发言比率的统计数据。

  • 文本内容审核:检测音频脚本中的显式文本。

  • 基于文本的情绪检测:通过脚本分析检测到的喜悦、悲伤、愤怒和恐惧等情绪。

  • 翻译:将音频脚本翻译成许多种不同的语言。

  • ** 音频效果检测(预览版)**:检测内容的非语音部分中的以下音频效果:警报或警笛声、犬吠、人群反应(欢呼、拍手和起哄)、枪声或爆炸声、笑声、玻璃破裂以及无声。

    检测到的声学事件包含在隐藏式字幕文件中。 可以从 Azure AI 视频索引器网站下载该文件。

音频和视频模型(多通道)

通过一个通道编制索引时,这些模型的部分结果可用。

  • 关键字提取:从语音和视觉文本中提取关键字。

  • 命名实体提取:通过自然语言处理 (NLP) 从语音和视觉文本中提取品牌、位置和人员。

  • 主题推理:根据各种关键字提取主题(即,关键字“证券交易所”、“华尔街”会生成主题“经济”)。 该模型使用三种不同的本体(IPTC、Wikipedia 和视频索引器分层主题本体)。 该模型使用听录(口语)、OCR 内容(视觉文本),以及使用视频索引器面部识别模型在视频中识别的名人。

  • 项目:提取每个模型的丰富的“下一种详细程度”项目。

  • 情绪分析:在语音和视觉文本中识别积极、消极和中性情绪。

  • 项目

  • 2023/11/21

上传视频至视频索引器

按照以下步骤使用快速上传选项上传和索引媒体文件。
file

  1. 登录到视频索引器网站。

  2. 选择上载

  3. 选择文件源。 一次最多可以上传 10 个文件。

    • 若要从文件系统上传,请选择“ 浏览文件 ”,然后选择要上传的文件。

    • 若要从 URL 上传,请选择 Enter URL,粘贴源文件 URL,然后选择“ 添加”。

      确保 URL 有效且文件可访问。

  4. 配置用于编制索引的基本设置或使用默认配置。 需要为每个文件指定以下设置:

    • 隐私:选择在编制索引后视频 URL 是公开可用的还是私有的。
    • 流式处理质量:选择视频的流式处理质量。 可以选择**“无流式处理**”、“单比特率”或“自适应比特率****”。
    • 视频源语言:选择视频的口语,以确保高质量的脚本和见解提取。 如果不知道语言或有多个口语,请选择“ 自动检测单种语言 ”或 “自动检测多语言”。
  5. 如果这是你第一次上传媒体文件,则需要检查同意检查框同意条款和条件。

  6. 选择 “上传+索引”。

  7. 查看显示索引设置和上传进度的摘要页。

  8. 完成索引编制后,可以通过选择视频来查看见解。

使用 Azure AI 视频索引器

  1. 浏览到 Azure AI 视频索引器网站并登录。

  2. 查找要从中创建 Azure AI 视频索引器见解的视频。

  3. 按“播放”。

    此页面显示视频的见解。
    file

  4. 选择要查看的见解。 例如,人脸、关键字、情绪。 可以看到人脸和每个人脸出现的时间范围,以及显示人脸的时间百分比。

    “时间线”选项卡显示包含时间线的脚本,以及可从“视图”下拉列表中选择的其他信息。
    file
    播放器和见解是同步的。 例如,如果单击某个关键字或脚本行,播放器会将你带到视频中的相应时刻。 可以在应用程序中获得播放器/见解视图和同步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/621123.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯练习题(八)

📑前言 本文主要是【算法】——蓝桥杯练习题(八)的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是听风与他🥇 ☁️博客首页:CSDN主页听风与他 …

Java重修第五天—面向对象3

通过学习本篇文章可以掌握如下知识 1、多态; 2、抽象类; 3、接口。 之前已经学过了继承,static等基础知识,这篇文章我们就开始深入了解面向对象多态、抽象类和接口的学习。 多态 多态是在继承/实现情况下的一种现象&#xf…

【汇编要笑着学】汇编模块化编程 | call和ret调用指令 | jmp跳转指令 | inc自加指令

Ⅰ.汇编模块化编程 0x00 一个简单的例子 我们了解模块化编程前先给出一个例子,方便大家快速了解。 SECTION MBR vstart0x7c00 ; 起始地址编译在0x7c00mov ax,cs mov ds,ax mov es,axmov ss,axmov fs,axmov sp,0x7c00 ; 上面这些都没什…

camtasia studio2024免费版如何下载?怎么录屏?

camtasia studio怎么录屏?Camtasia Studio是一款专门录制屏幕动作的工具,它能在任何颜色模式下轻松地记录屏幕动作,包括影像、音效、鼠标移动轨迹、解说声音等等。一般情况下,用户使用camtasia studio进行录屏时,需要注…

【进程调度】基于优先级的轮转调度C++实现算法

一、简介 1.1 背景 在计算机科学领域,进程调度是操作系统中一个关键的组成部分,它负责协调系统中各个进程的执行顺序,以最大程度地提高系统资源利用率。在这篇博客中,将深入探讨基于优先级的轮转调度算法,该算法结合…

Vue3-customRef的使用

读取数据前,需要先track() 告诉Vue数据msg很重要,你要对msg进行持续关注,一旦msg变化就去更新 修改数据后,需要trigger()收尾 通知Vue一下数据msg变化了 自定义ref如何防抖 hooks中…

UniApp调试支付宝沙箱(安卓)

先看下这里完整的交互的图:小程序文档 - 支付宝文档中心 一、打包 不管怎样,先打个包先。可以直接使用云端证书、云端打包,只需要指定包名即可。 二、在支付宝开放平台创建应用 这个参考官方的过程就可以了,只要有刚才打的包&…

Fastadmin上传图片服务端压缩图片,实测13.45M压缩为29.91K

先前条件:第一步安装compose,已安装忽略。 先上截图看效果 一、在fastadmin的根目录里面输入命令安装think-image composer require topthink/think-image二、找到公共上传类,application/common/library/Upload.php,在最下面…

TensorRT(C++)基础代码解析

TensorRT(C)基础代码解析 文章目录 TensorRT(C)基础代码解析前言一、TensorRT工作流程二、C API2.1 构建阶段2.1.1 创建builder2.1.2 创建网络定义2.1.3 定义网络结构2.1.4 定义网络输入输出2.1.5 配置参数2.1.6 生成Engine2.1.7 保存为模型文件2.1.8 释放资源 2.2 运行期2.2.1…

【elastic search】详解elastic search集群

目录 1.与集群有关的一些概念 2.集群搭建 3.集群搭建 4.kibana链接集群 5.选举流程 6.请求流程 7.master的作用 1.与集群有关的一些概念 数据分片: 数据分片(shard),单台服务器的存储容量是有限的,把一份数据…

git提交记录全部删除

目录 问题描述 解决方案 结果 问题描述 新复制的项目具有特比多的提交记录我想给他清除,因为不清楚过多历史也就导致包特别大下载和提交等方面都不是很快 解决方案 查看代码clone网址; 打开远程仓库,选择要去除历史记代码分支&#xff08…

低代码助力制造业数智转型,激发创新力迎接工业 4.0

随着科技的不断进步,我们迈入了一个崭新的工业时代——工业4.0。这场工业革命不仅颠覆了制造业的传统形象,还为全球生产方式带来了前所未有的变革。 在这一过程中,制造业数字化转型逐渐成为主旋律,而低代码技术在这其中发挥着重要…

近红外光谱分析技术与基于深度学习的化学计量学方法

郁磊【副教授】:主要从事AI人工智能与大数据分析等相关研究,长期致力于人工智能与近红外生物医学工程等领域融合,主持并完成多项科研课题。著有《神经网络43个案例分析》等书籍。 // 讲座内容 1、近红外光谱基本理论、近红外光谱仪基本原理…

python爬虫-代理ip理解

目录 1、为什么使用代理IP 2、代理IP 3、IP池 4、代理分类: 5、python中使用代理IP 6、如何找可以使用的代理IP 7、拿到IP后,测试IP的有效性 8、扩展理解正向代理和反向代理 1、为什么使用代理IP 就是为了防止ip被封禁,提高爬虫的效…

【Proteus仿真】【Arduino单片机】智能窗户设计

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真Arduino单片机控制器,使用蜂鸣器模块、LCD1602显示模块、雨滴传感器、风速传感器、人体红外模块、ADC模块、按键模块、28BYJ48步进电机 模块、DS18B20温度传感器等。 …

2023年北邮渣硕的暑期秋招总结

背景 实验室一般是在研究生二年级的时候会放实习,在以后的日子就是自己完成毕业工作要求,基本上不再涉及实验室的活了,目前是一月份也是开始准备暑期实习的好时间。实验室每年这个时候都会有学长学姐组织暑期实习经验分享,本着不…

外国入境的免签国家以及中外互免(普通护照*、普通公务护照)

2024.1.11起,外籍人员在北京首都、北京大兴、上海浦东、杭州萧山、厦门高崎、广州白云、深圳宝安、成都天府、西安咸阳9个国际机场,推行24小时直接过境旅客免办边检手续。对于持24小时内国际联程机票,经上述任一机场过境前往第三国或地区的出…

C#中对浮点数NaN,PositiveInfinity,NegativeInfinity的特殊处理

NAN NAN 整体意思为Not a Number 不是一个数, NaN(Not a Number,非数)是计算机科学中数值数据类型的一类值,表示未定义或不可表示的值。常在浮点数运算中使用。首次引入NaN的是1985年的IEEE 754浮点数标准。 EEE 75…

论文阅读 Self-Supervised Burst Super-Resolution

这是一篇 ICCV 2023 的文章,主要介绍的是用自监督的方式进行多帧超分的学习 Abstract 这篇文章介绍了一种基于自监督的学习方式来进行多帧超分的任务,这种方法只需要原始的带噪的低分辨率的图。它不需要利用模拟退化的方法来构造数据,而且模…

API设计:从基础到最佳实践

1*vWvkkgG6uvgmJT8GkId98A.png 在这次深入探讨中,我们将深入了解API设计,从基础知识开始,逐步进阶到定义出色API的最佳实践。 作为开发者,你可能对许多这些概念很熟悉,但我将提供详细的解释,以加深你的理解…