笔者按:
昨日复习的信息网络安全约莫是挂了,常言道:知耻而后勇。诚如斯言
于是决心多媒体是不能再挂了,不然直接变成xxx之流,自增笑耳
语雀链接:多媒体基础
一.多媒体计算机概述
-
媒体:承载信息的载体
-
分类:
- 感觉媒体:作用于人的感觉器官
- 传输媒体:传输表示媒体的物理介质,电缆,光缆等
- 表示媒体:传送感觉媒体的媒体:视频等
- 显示媒体:电信号 与感觉媒体产生交换的媒体,鼠标,显示器等
- 存储媒体:存储表示媒体的媒体,如固态硬盘
综合以上即为多媒体
-
-
多媒体技术:
综合处理多种媒体信息,集成为一个系统并具有良好的交互性的技术。是计算机技术,大众传媒技术,通信网络技术发展的产物
- 三大特性:
- 多样性:计算机处理信息的多样化
- 集成性:信息媒体,处理设备的集成
- 交互性:提供有效控制和使用信息的手段
- 研究热点:
- 媒体处理技术
- 媒体语义理解
- 虚拟现实技术
- 三大特性:
二.图像基础与图像处理
-
用数字表示图像
- 采样:空间连续坐标的离散化
- 量化:对每一个采样点的颜色的离散化处理(用数值表示颜色)
- 采样频率越高,量化位数越大,数字图像质量越好
- 数字图像以矩阵的形式存储:元素代表像素点位置;元素值代表了像素点的值
- 显示时逐点映射为屏幕上相应像素的颜色值
- 采样频率-》分辨率;量化位数-》颜色深度(位深度)
- 分辨率:
- 像素分辨率(pixel)
- 设备分辨率 dpi(dots per inch;每英寸点数)如:1920*1080
- 水平分辨率:水平方向上一英寸多少个点
- 颜色深度(位深度)
- 1:黑白二级图像
- 8:256级灰度图
- 8:索引256色图
- 24:真彩色图,1670万种颜色
-
图像的色彩模式:
-
RGB模式:计算机;红绿蓝三原色显光合成可见颜色;加色原理;(R,G,B)
-
CMYK模式:油墨印刷;青(Cray),品红(Magenta),黄(Yellow),黑(blacK);减色原理
(66%,97%,9%,0%)
-
HSB模式:适合于人眼
色相(Hue),饱和度(Saturation),亮度(Brightness)
-
色彩空间:某种颜色模式所能表示的所有颜色组成的空间,每个设备的色彩空间都是不同的
-
-
亮度直方图:
- 如何使用亮度直方图发现图像中的色彩问题
-
图像的数据量(Byte):总像素数*颜色深度 / 8
-
行程编码
- 检测记录连续符号出现次数
- 1 1 1 1 3 3 3 3 3 3 -》 1 4 3 6
-
Huffman编码
- 可变字长编码
- 频率二叉树编码
-
JPEG压缩
- 图像分割
- 将RGB模式转换为YUV模式
- 离散余弦变换(DCT变换)
- 量化(有损)
- 熵编码(无损):zigzag扫描 + Huffman编码
-
图像压缩的评价标准:
具有信息冗余和视觉冗余,故可以压缩
- 压缩比
- 压缩质量:损失程度
- 压缩和解压缩的速度
-
常见图像文件种类:
-
.bmp:不压缩,保存原始图像
-
.jpg / .jpeg:最常用的文件格式,JPEG压缩算法,压缩比几十比一到一百比一(高),压缩质量好
jpeg2000:压缩率比jpeg(部分呈现加载)高约30%,支持渐进传输(全部呈现,从模糊到清晰)
-
.gif:无损压缩,约2:1,最大不超过64MB,不支持真彩色,包含透明区域和多帧动画
-
.tif / .tiff:适合所有领域,工业标准格式;支持压缩(多种算法)与非压缩(独立于软硬件,良好的兼容性)
-
.png :无损压缩,支持渐进传输
-
.psd: PS专用格式,支持全部图像色彩格式,占存大
-
矢量图(图形):.ai,.cdr,.dwg;只记录生成图的要素和图上的某些特征点
图形的最小单位是图元,图像的最小单位是像素
显示时:图形按图元顺序计算绘制,图像按像素顺序逐一映射至显示器
图形变换无失真,图像变换有失真
-
- 图像变换
- 几何变换:平移,缩放,旋转,镜像,错切,扭曲变形
- 频域变换离散余弦变换(DCT),傅里叶变换(DFT),小波变换
- 图像增加
- 改善图像的质量
- 突出图像中的有用信息
- 扩大不同物体特征间的差别
- 对比度增强
- 直方图增强
- 低通滤波(平滑)
- 高通滤波(锐化)
- 图像修复
- 图像恢复
- 找到图像降质的原因
- 描述物理过程,提出数学模型
- 沿着质量降质的逆过程来重现原始图像
- 图像分割
- 按一定要求分割为一些有意义的区域,特征或属性相似
- 图像识别
- 一般需要先对图像进行增强和分割
- 判断是什么
- 人脸识别,字幕识别等
- 特效处理
- 模糊化,浮雕化等
三.音频基础及音频处理
-
声音:物体振动在介质中的传播所引起的一种感知
- 分类:
- 次声(小于20Hz)
- 音频(20Hz~20kHz)
- 规则声音:
- 语音:300~3.4kHz,语言的载体
- 音乐:规范的符号化声音
- 音效:自然界中的各种声音
- 不规则声音:
- 噪声
- 规则声音:
- 超声(大于20kHz)
- 频率范围越宽,声音质量越好
- 分类:
-
声波:通过弹性介质传播的一种连续波
- 振幅:声音的强弱
- 频率:声音的高低
- 相位:声音的方位
-
声音媒体:
- 连续性时基媒体(随时间变化的连续媒体)
- 具有三个主观要素:
- 音调
- 音强
- 音色:与声波的波形有关,对声源发声特色的主观感受
- 具有方向性
-
数字音频:
按采样的频率间隔,不断获取幅度的量值,使得连续的声音转变为离散的数字量
-
指标:
- 采样频率
- 量化位数
- 5.1声道
-
采样+量化+编码
-
采样频率:越高,质量越好,所需的存储空间越大
-
当采样频率大于最高输入频率的两倍时,采样后的数字信号可以完整的保留原始信号中的信息
-
常见采样频率:
- 44.1kHz:CD
- 22.025kHz:FM广播
- 8kHz:电话语音
-
量化位数:同采样频率
-
常见量化位数:8位,16位
-
单声道,双声道(立体声,在硬件中占两条线路,所占空间自然也多了一倍)
-
数据量:采样频率 * 声道数 * 量化位数 * 持续时间 / 8
-
-
音频的采集和获取
-
硬件设备和环境
- 麦克风:输入设备
- 声卡:声音合成设备
- 音箱:输出设备
-
声卡:最基本的声音合成设备
-
可以把来自话筒等的原始声信号加以转换,输出到耳机,扬声器等声响设备,完成对声音信号的录制与回放
-
实现模拟信号与数字信号的转换(A/D,D/A转换,A:模拟信号,D:数字信号)
-
声卡类型:
- 集成式
- 板卡式
- 外置式
-
MIDI:乐器数字接口
数字音乐的国际标准,一种小巧的描述性的“音乐语言”
- MIDI音乐合成:
- 波表合成法:
- 波表:录制真实乐器的声音并存储下来的
- 采用真实乐器的采样,效果比较好
- 调频合成法:
- 用声音振荡的原理合成MIDI
- 波表合成法:
- MIDI音乐合成:
-
-
音频压缩:
-
存在大量冗余:
- 时域冗余:相邻样本间的相关性,信号周期的相关性,语音间隙的冗余等
- 听觉冗余
- 频域冗余:低频分量多余高频分量,语音信号的共振峰等
-
MPEG-1编码
- 第一个高保真立体声音频压缩标准
-
MPEG-2编码
- 增加了声道数,支持5.1声道
- 扩展了输出范围:32~384kbps -》 8~640kbps
- 增加了更低的采样频率:16kHz,22.05kHz,24kHz
- MPEG-2 BC是为多声道开发的低码率方案
- MPEG-2 AAC:
- 感知编码:利用听觉系统的掩蔽特性来减少声音编码的 数据量,通过子带编码将量化噪声分散到各个子带,用全局声音信号将噪声掩蔽掉
- 模块化:AAC编码使用模块化的编码方式
-
常见音频格式:
- CD:.cda;音质最好,近似无损;无法编辑,仅包含一个44字节的索引,不真正包含声音信息(CD音轨);大
- WAV:Windows用的标准数字音频格式,无损音频,记录对各种音质的采样,可重现各种声音,包括噪声,CD
- MIDI:.mid,存储的是指令,告诉声卡应当如何再现音乐
- 数据量小
- 编辑灵活
- 不能重现真实自然声音
- 音质受到声卡的限制
- 有几个变通的格式:RMI,CMF
- MP3:.mp3 :MPEG-1 Audio Layer 3
- 采用感知编码技术
- 保持低频不失真,牺牲了12kHz的高频质量
- 大小为WAV的十一,音质仅次于CD和WAV
- 因特网上流行
- WMA:微软的音频文件格式
- 支持流媒体技术(边下边播)
- 内置版权保护协议
- 音质好,文件小
- RA(Real Audio):根由带宽改变音质
- APE:高保真,几近无损压缩
-
音频编辑技术:
-
语音识别
- 识别准确率:应大于95%
- 识别速度:接近口语速度
- 能力要求:
- 适应口音的能力
- 适应各领域的广泛应用
- 适应环境变化和使用者变化
- 系统本身的可扩充性
-
语音合成:
将计算机内的文字转换为连续自然的语音流
-
有限词汇的语音输出
-
基于语音合成技术的文字-语音转换技术(TTS)
文本输入 -》文本处理 -》韵律分析控制 -》语音合成 -》输出
-
-
-
-
四.多媒体数据压缩编码技术
-
为什么可以压缩?
- 空间冗余,一副图像上记录的 景物的颜色往往存在空间连贯性
- 时间冗余:前后帧的数据存在大量相似
- 结构冗余:相似的分布模式
- 知识冗余:某些图像存在相关性,如人脸的结构
- 视觉冗余:无法发觉
-
编码:将一种数据转换为另一种形式 的数据的过程 ,以便计算机可以理解并处理
-
信源编码器和信源解码器,信道编码器和信道解码器
-
信源编码器:减少或消除输入图像中的冗余
一阶段:减少输入图像中像素间的冗余
二阶段:去除原图像信号的相关性
三阶段:找到一种近于熵,有利于计算机处理的编码 方式
-
信源解码器:
-
信道编码解码器:
- 当信道带有噪声或易于出错,用到信道编码解码器
-
-
Hamming校验码
向被编码数据加入足够的位数,确保可用的码字间变化的位数最小
海明校验码 - 掘金 (juejin.cn)
-
信息熵的计算公式:
-
Huffman编码(算术编码)
这个默认都会,就不介绍了
- 最佳,编码不唯一,平均码长相同
- 码长参差不齐,存在输入输出速率匹配问题,因此需要设置缓冲存储器
- 若出现误码,可能引起误码的连续传播
- 对不同信源的编码效率不尽相同
- 与其他编码结合起来,才能进一步提高数据压缩比
-
香农-费诺编码
香农-范诺编码(Shannon–Fano Coding)-CSDN博客
-
算术编码:对于更高频的符号,使用更短的编码。这样在对整个信息进行编码时,就可以进行大幅度压缩。
什么是算术编码、算术编码的编码和解码 CSDN博客
- 计算机精度问题,可能出现溢出
- 对整个消息只产生一个码字,在接收到所有位后才能开始译码
- 错误敏感,一位错误导致整个消息错误
-
预测编码
记录的是预测值与真实值之间的差值
-
帧内预测编码:空间相关性
-
帧间预测编码:时间相关性
-
运动估计:将图像分为小块,将当前帧与参考帧进行比较,寻找与当前块最相似的部分
一旦确定每个块的运动就会得到一组运动矢量,用以描述相对位移
-
运动补偿:用前帧预测和补偿后帧
利用运动矢量移动参考帧的像素块
-
性能受到块的大小和搜索范围影响
-
-
子像素运动补偿:提升运动估计的精细度
- 运动矢量只能以整数像素为单位,可能导致像素级别的精细运动被忽略
- 在整数像素之间插值来对精细运动建模,将图像分为更精细的子像素网格
-
数字视频编码—预测编码-CSDN博客
-
-
变换编码:
- K-L变换,DCT变换
- 利用图像间的相关性将图像变换到一组新的基底上,通过存储变换系数达到压缩的目的
-
量化:使得数据比特率下降
- 多对一的处理过程,不可逆,存在信息丢失
- 把一批输入量化到同一输出级上
-
索引色压缩转变
- 原图 -》 16色,32se,4色。。。
- 位深度减少
-
JPEG算法
-
MPEG压缩算法
-
空间上,使用JPEG算法去除冗余
-
时间上,使用运动补偿算法去除冗余
-
目的:质量基本不降低又获得高压缩比
-
分类:
- 帧内图像 I
- 预测图像 P
- 双向预测图像 B
-
一个内帧 I 是一个随机访问点,双向预测图像 B 不能作为参考帧
-
运动补偿在宏块一级运作,宏块分类:
- 帧内宏块 I块
- 前向预测宏块 F块
- 后向预测宏块 B块
- 平均宏块 A块
-
I图包含I块;P图包含I块,F块;B图可以包含四种类型宏块
-
块匹配(BMA)-基于块的运动矢量估计算法:
-
匹配准则:
-
搜索算法:
- 二维对数搜索算法
- 三步搜索算法
- 对偶搜索算法
-
-
视频压缩标准发展:
-
MPEG:
- 离散余弦变换(DCT):将音频和视频信号由时域转换到频域,可以使用更少信息表示,实现压缩
- 运动补偿:只存储发生变化的部分
- 帧内预测:
- 量化:使用量化减少频域系数精度,减少数据量
- 熵编码:利用信息中的统计特性,将出现频率高的符号用较短编码表示,从而实现更高的压缩率
- 频域掩蔽
- 时域掩蔽
-
H.261(P*64)
-
解决了:
- 编码算法问题:合理,保证质量,公认的统一算法
- PCM兼容问题
- 电视制式不同问题
-
信源框架:
- 利用二维DCT减少图像的空间域的冗余度;
- 利用运动补偿预测减少图像的时间冗余;
- 利用视觉加权量化减少图像"灰度域的冗余度;
- 利用熵编码来减少图像的"频率域"的冗余度。
-
MPEG-2
-
- MPEG-4
- 支持基于内容的编码解码功能,对场景中使用分割算法抽取的单独对象进行编码解码
五.多媒体体系结构
-
多媒体计算机系统:基本计算机系统的软硬件功能扩展
-
第五层:应用:
-
第四层:工具:图像处理等
在多媒体操作系统的支持下,图形和图像编辑软件﹑视频处理软件﹑音频处理软件等来编辑与制作多媒体节目素材
-
第三层:接口层:应用程序接口(API)
为上一层提供软件接口,便于高层通过软件调用系统功能,并能在应用程序中控制多媒体硬件设备。
-
第二层:软件系统:多媒体操作系统等
操作系统:实时任务调度﹑多媒体数据转换和同步控制﹑多媒体设备的驱动和控制以及图形用户界面管理
多媒体通信软件:支持网络环境下的多媒体信息的传输﹑交互与控制
-
第一层:硬件系统:多媒体存储
主要任务:实时地综合处理文﹑图、声﹑像信息,实现全动态视像和立体声的处理,实时压缩与解压缩多媒体信息。
-
集成度越来越高,速度也越来越快
- 芯片类:视频处理芯片等
- 板卡类:音频处理卡等
- 外设类:
-
CPU:中央处理单元
微型计算机的CPU是由一块大规模集成电路芯片组成,计算机系统的核心,其内部结构可以分为控制器·运算器和寄存储器3个部分
-
主板:最大的一块电路板,布满各种电子元件
-
总线(BUS):传输联系各部件
总线的性能以总线的时钟﹑带宽及相应的总线数据传输速率来衡量·
-
内存储器:
- ROM与RAM:
- ROM:只读存储器
- RAM:随机存储器
- Cache:SRAM比DRAM快两三倍
- ROM与RAM:
-
磁存储系统
- 磁盘:涂有磁介质的盘,将脉冲信号转变为磁信号;关键部位磁头
- 硬盘
- 磁带
-
显示适配器(显卡)
- 集成在主机板
- 独立显卡(独显)
-
显示屏
-
CRT:阴极射线管
-
LCD:液晶
-
性能指标:
-
屏幕尺寸:
- 显像管尺寸:显示管正对角线长度
- 可视尺寸:可视屏幕正对角线长度
- 光栅尺寸:显示管最大扫描区域尺寸
-
点距:通过色像素点之间的距离,单位毫米
-
扫描频率:
-
水平扫描频率
kHz为单位,水平扫描频率85kHz:一秒横向扫描85 000个像素点
-
垂直扫描频率
Hz为单位,屏幕重写的频率,过低闪烁,人眼易疲劳
-
-
显示分辨率:如1280*1024
- 也取决于缓冲存储器
-
颜色数量:位深度
-
音频卡(声卡)
- 数字音频的播放:数字量化位数,立体声声道的多少
- 录制生成WAVE文件
- MIDI和音乐合成:MIDI接口获取MIDI消息
- 多路音源的混合和处理
-
4.1声道四个方位+一个低音声道
- 5.1,7.1类似
-
双工理论:人耳感知声源,声音到达的时间差和强度差
-
-
摄像头
-
性能指标:
- 镜头
- 像素
- 接口
- 视频捕获能力
- 调焦
-
数码相机
将拍摄的图像转换为数字形式,并编码,如JPEG
-
扫描仪:
- CCD:阵列,将光信号转变为电信号
- 性能指标:
- 扫描分辨率
- 扫描色彩精度
- 扫描速度
-
打印机
- 针式打印机
- 喷墨打印机
- 激光打印机
-
光盘存储系统
- CD
- 记录密度高
- 存储容量大
- 采用非接触方式读╱写信息
- 信息保存时间长
- 不同平台可以互换
- 多种媒体融合
- 价格低廉
- DVD:使用红色激光,更高的道密度和位密度,采用MPEG-2标准
- CD
-
-
多媒体软件:
- 驱动程序
- 支持软件的操作系统/环境
- windows环境
- QuickTime环境
- Movie管理器
- 图像压缩管理器
- 部件管理器
- 软件
-
-
六.超文本和超媒体
- 超文本
- 三要素:
- 节点:围绕某主题组织的数据集合,表达信息的单位
- 链:
- 链源:链的起始端,如热字
- 链宿:链的目的,一般为节点
- 链的属性:链的类型
- 网络
- 特点
- 多种媒体信息化
- 网络结构:信息表达方式接近现实世界
- 交互性
- 三重理论模型:
- 数据库层
- 超文本抽象机层
- 用户接口层
- 工具:
- 编辑器
- 编译器
- 阅读器
- 导航工具
- 前景:
- 超文本 -》超媒体
- 超媒体 -》智能超媒体
- 超媒体 -》协作超媒体
- 三要素:
七.多媒体应用前沿
-
文本
- 机器翻译
- 信息检索
- 情感分析
- 知识抽取
- 人机对话
-
图像:
- 图像增强
- 图像修复
- 图像分割
- 图像识别
-
音频
-
波形编码
- 波形编码:将语音信号的波形数字化处理,以保持处理后的语音信号波形与原始语音信号波形一致
- 波形编码是将时间域信号直接变换为数字代码,由于这种系统保留了信号原始样值的细节变化,从而保留了信号的各种过渡特征,所以波形编码系统的解码音频信号质量一般较高.
- 波形编码系统的不足之处是传输码率比较高,压缩比不大。
-
参数编码
参数编码技术以语音信号产生的数学模型为基础,根据输人语音信号分析出表征声门振动的激励参数和表征声道特性的声道参数,然后在解码端根据这些模型参数来恢复语音。这种编码算法并不忠实地反映输人语音的原始波形,而是着眼于人耳的听觉特性,确保解码语音的可懂度和清晰度.
-
混合编码
混合编码是波形编码和参数编码的综合:既利用了语音生成模型,通过模型中的参数(主要是声道参数)进行编码,减少波形编码中被编码对象的动态范围或数目;又使编码的过程,产生接近原始语音波形的合成语音,保留说话人的各种自然特征,提高了合成语音质量.
-
感知编码
-
MPEG系列编码
-
八.自然语言处理简介
旨在探索人与计算机之间用自然语言进行有效交流的理论和方法
- 语言是人与其他动物最重要的区别
- 逻辑思维以语言呈现
- 知识通过文字记录并传播
- 自然语言难点
- 语音歧义
- 词语切分起义
- 词义歧义
- 结构歧义
- 指代歧义
- 省略歧义
- 语用歧义:不同人,不同语境,意义不同
- 机器学习步骤:
- 数据构建阶段主要工作是针对任务的要求构建训练语料,也称为语料库(Corpus)
- 数据预处理阶段主要工作是利用自然语言处理基础算法对原始输入,从词汇句法、结构、语义等层面进行处理,为特征构建提供基础。
- 特征构建阶段主要工作是针对不同任务从原始输入、词性标注、句法分析、语义分析等结果和数据中提取对于机器学习模型有用的特征。
- 模型学习阶段主要工作是根据任务,选择合适的机器学习模型,确定学习准则,采用相应的优化算法,利用语料库训练模型参数。
这种编码算法并不忠实地反映输人语音的原始波形,而是着眼于人耳的听觉特性,确保解码语音的可懂度和清晰度.
-
混合编码
混合编码是波形编码和参数编码的综合:既利用了语音生成模型,通过模型中的参数(主要是声道参数)进行编码,减少波形编码中被编码对象的动态范围或数目;又使编码的过程,产生接近原始语音波形的合成语音,保留说话人的各种自然特征,提高了合成语音质量.
-
感知编码
-
MPEG系列编码
八.自然语言处理简介
旨在探索人与计算机之间用自然语言进行有效交流的理论和方法
- 语言是人与其他动物最重要的区别
- 逻辑思维以语言呈现
- 知识通过文字记录并传播
- 自然语言难点
- 语音歧义
- 词语切分起义
- 词义歧义
- 结构歧义
- 指代歧义
- 省略歧义
- 语用歧义:不同人,不同语境,意义不同
- 机器学习步骤:
- 数据构建阶段主要工作是针对任务的要求构建训练语料,也称为语料库(Corpus)
- 数据预处理阶段主要工作是利用自然语言处理基础算法对原始输入,从词汇句法、结构、语义等层面进行处理,为特征构建提供基础。
- 特征构建阶段主要工作是针对不同任务从原始输入、词性标注、句法分析、语义分析等结果和数据中提取对于机器学习模型有用的特征。
- 模型学习阶段主要工作是根据任务,选择合适的机器学习模型,确定学习准则,采用相应的优化算法,利用语料库训练模型参数。