【PyTorch】7-生态简介

PyTorch:7-生态简介

注:所有资料来源且归属于thorough-pytorch(https://datawhalechina.github.io/thorough-pytorch/),下文仅为学习记录

7.1:torchvision

7.1.1:简介

The torchvision package consists of popular datasets, model architectures, and common image transformations for computer vision.

常用库:

  • torchvision.datasets
  • torchvision.models
  • torchvision.tramsforms
  • torchvision.io
  • torchvision.ops
  • torchvision.utils

7.1.2:torchvision.datasets

包含在计算机视觉中常见的数据集

例如:

  • CIFAR
  • ImageNet
  • VOC
  • MNIST

7.1.3:torchvision.transforms

包含数据预处理方法和数据增强方法

Transforming and augmenting images — Torchvision 0.18 documentation (pytorch.org)

案例:

from torchvision import transforms
data_transform = transforms.Compose([transforms.ToPILImage(),   # 这一步取决于后续的数据读取方式,如果使用内置数据集则不需要transforms.Resize(image_size),transforms.ToTensor()
])

7.1.4:torchvision.models

包含常用模型及其预训练模型

**图像分类:**例如AlexNet、VGG等;其预训练模型使用的数据集是ImageNet-1K

**语义分割:**例如FCN ResNet50、DeepLabV3 ResNet50等;其预训练模型使用的数据集是COCO train2017

**目标检测/实例分割/关键点检测:**例如Faster R-CNN、RetinaNet等;其预训练模型使用的数据集是COCO train2017

**视频分类:**例如ResNet 3D 18等;其预训练模型使用的数据集是COCO train2017

7.1.5:torchvision.io

提供视频、图片和文件的 IO 操作的功能,包括读取、写入、编解码处理操作

注意事项:

  • 不同版本之间,torchvision.io有着较大变化。在使用时,需要查看下当前的torchvision版本是否存在想使用的方法。
  • 除了read_video()等方法,torchvision.io提供了一个细粒度的视频API torchvision.io.VideoReader() ,它具有更高的效率并且更加接近底层处理。在使用时,需要先安装ffmpeg然后从源码重新编译torchvision我们才能我们能使用这些方法。
  • 在使用Video相关API时,最好提前安装好PyAV这个库。

7.1.6:torchvision.ops

提供许多计算机视觉的特定操作,包括但不仅限于NMS,RoIAlign(MASK R-CNN中应用的一种方法),RoIPool(Fast R-CNN中用到的一种方法)

Operators — Torchvision 0.18 documentation (pytorch.org)

7.1.7:torchvision.utils

提供一些可视化的方法,帮助将若干张图片拼接在一起、可视化检测和分割的效果

7.2:PyTorchVideo

Meta推出了PyTorchVideo深度学习库,专注于视频理解工作

PytorchVideo 提供了加速视频理解研究所需的可重用、模块化和高效的组件。

支持不同的深度学习视频组件,如视频模型、视频数据集和视频特定转换。

7.2.1:主要部件和亮点

  • 基于 PyTorch
  • **Model Zoo:**提供包含I3D、R(2+1)D、SlowFast、X3D、MViT等SOTA模型的高质量model zoo,并且PyTorchVideo的model zoo调用与PyTorch Hub | PyTorch做了整合,大大简化模型调用。
  • **数据预处理和常见数据:**支持Kinetics-400, Something-Something V2, Charades, Ava (v2.2), Epic Kitchen, HMDB51, UCF101, Domsev等主流数据集和相应的数据预处理,同时还支持randaug, augmix等数据增强trick。
  • **模块化设计:**包括data, transforms, layer, model, accelerator等模块,方便用户进行调用和读取。
  • 支持多模态
  • 移动端部署优化

7.2.2:安装

使用pip:

pip install pytorchvideo
  • 安装的虚拟环境的python版本 >= 3.7
  • PyTorch >= 1.8.0,安装的torchvision也需要匹配
  • CUDA >= 10.2
  • ioPath:具体情况
  • fvcore版本 >= 0.1.4:具体情况

7.2.3:model zoo和benchmark

提供三种使用方法,并且给每一种都配备了tutorial

  • TorchHub,模型已在TorchHub存在,可以根据实际情况来选择需不需要使用预训练模型。官方教程 tutorial 。
  • PySlowFast,使用 PySlowFast workflow 去训练或测试PyTorchVideo models/datasets.
  • PyTorch Lightning建立一个工作流进行处理,官方教程 tutorial。

7.3:torchtext

用于自然语言处理(NLP)的工具包

和CV工具包的功能差异:

  • 数据集(dataset)定义方式不同
  • 数据预处理工具
  • 没有琳琅满目的model zoo

torchtext可以方便的对文本进行预处理,例如截断补长、构建词表等。

7.3.1:主要组成部分

torchtext主要包含了以下的主要组成部分:

  • 数据处理工具 torchtext.data.functional、torchtext.data.utils
  • 数据集 torchtext.data.datasets
  • 词表工具 torchtext.vocab
  • 评测指标 torchtext.metrics

7.3.2:安装

使用pip安装:

pip install torchtext

7.3.3:构建数据集

【1】Field

Field是torchtext中定义数据类型以及转换为张量的指令。

torchtext 认为一个样本是由多个字段(文本字段,标签字段)组成,不同的字段可能会有不同的处理方式。

定义Field对象是为了明确如何处理不同类型的数据,但具体的处理则是在Dataset中完成的。

案例:

(1)构建Field

tokenize = lambda x: x.split()
TEXT = data.Field(sequential=True, tokenize=tokenize, lower=True, fix_length=200)
LABEL = data.Field(sequential=False, use_vocab=False)
  • sequential:设置数据是否是顺序表示
  • tokenize:设置将字符串标记为顺序实例的函数
  • lower:设置是否将字符串全部转为小写
  • fix_length:设置此字段所有实例填充到一个固定的长度,方便后续处理
  • use_vocab:设置是否引入Vocab object,如果为False,则需要保证之后输入field中的data都是numerical的

(2)进一步构建dataset

from torchtext import data
def get_dataset(csv_data, text_field, label_field, test=False):fields = [("id", None), # we won't be needing the id, so we pass in None as the field("comment_text", text_field), ("toxic", label_field)]       examples = []if test:# 如果为测试集,则不加载labelfor text in tqdm(csv_data['comment_text']):examples.append(data.Example.fromlist([None, text, None], fields))else:for text, label in tqdm(zip(csv_data['comment_text'], csv_data['toxic'])):examples.append(data.Example.fromlist([None, text, label], fields))return examples, fields

使用数据csv_data中有"comment_text"和"toxic"两列,分别对应text和label。

train_data = pd.read_csv('train_toxic_comments.csv')
valid_data = pd.read_csv('valid_toxic_comments.csv')
test_data = pd.read_csv("test_toxic_comments.csv")
TEXT = data.Field(sequential=True, tokenize=tokenize, lower=True)
LABEL = data.Field(sequential=False, use_vocab=False)# 得到构建Dataset所需的examples和fields
train_examples, train_fields = get_dataset(train_data, TEXT, LABEL)
valid_examples, valid_fields = get_dataset(valid_data, TEXT, LABEL)
test_examples, test_fields = get_dataset(test_data, TEXT, None, test=True)
# 构建Dataset数据集
train = data.Dataset(train_examples, train_fields)
valid = data.Dataset(valid_examples, valid_fields)
test = data.Dataset(test_examples, test_fields)

(3)检查读入的数据情况

# 检查keys是否正确
print(train[0].__dict__.keys())
print(test[0].__dict__.keys())
# 抽查内容是否正确
print(train[0].comment_text)

总结

定义Field对象完成后,通过get_dataset函数可以读入数据的文本和标签,将二者(examples)连同field一起送到torchtext.data.Dataset类中,即可完成数据集的构建。

【2】词汇表vocab

Word Embedding:将字符串形式的词语(word)转变为数字形式的向量表示(embedding)

基本思想:收集一个比较大的语料库(尽量与所做的任务相关),在语料库中使用word2vec之类的方法构建词语到向量(或数字)的映射关系,之后将这一映射关系应用于当前的任务,将句子中的词语转为向量表示。

可以使用Field自带的build_vocab函数完成词汇表构建。

TEXT.build_vocab(train)

【3】数据迭代器

本质:torchtext中的DataLoader

orchtext支持只对一个dataset和同时对多个dataset构建数据迭代器。

from torchtext.data import Iterator, BucketIterator
# 若只针对训练集构造迭代器
# train_iter = data.BucketIterator(dataset=train, batch_size=8, shuffle=True, sort_within_batch=False, repeat=False)# 同时对训练集和验证集进行迭代器的构建
train_iter, val_iter = BucketIterator.splits((train, valid), # 构建数据集所需的数据集batch_sizes=(8, 8),device=-1, # 如果使用gpu,此处将-1更换为GPU的编号sort_key=lambda x: len(x.comment_text), # the BucketIterator needs to be told what function it should use to group the data.sort_within_batch=False
)test_iter = Iterator(test, batch_size=8, device=-1, sort=False, sort_within_batch=False)

【4】使用自带数据集

torchtext提供若干常用的数据集方便快速进行算法测试。

7.3.4:评测指标metric

机器翻译任务常用BLEU (bilingual evaluation understudy) score来评价预测文本和标签文本之间的相似程度。

torchtext中可以直接调用torchtext.data.metrics.bleu_score来快速实现BLEU。

案例:

from torchtext.data.metrics import bleu_score
candidate_corpus = [['My', 'full', 'pytorch', 'test'], ['Another', 'Sentence']]
references_corpus = [[['My', 'full', 'pytorch', 'test'], ['Completely', 'Different']], [['No', 'Match']]]
bleu_score(candidate_corpus, references_corpus)

7.3.5:其他

由于NLP常用的网络结构比较固定,torchtext并不像torchvision那样提供一系列常用的网络结构。模型主要通过torch.nn中的模块来实现,比如torch.nn.LSTM、torch.nn.RNN等。

7.4:torchaudio

用于语音处理的工具包

应用场景包括说话人识别(Speaker Identification),说话人分离(Speaker Diarization),音素识别(Phoneme Recognition),语音识别(Automatic Speech Recognition),语音分离(Speech Separation),文本转语音(TTS)等任务。

CV有torchvision,NLP有torchtext,Audio有torchaudio。

7.4.1:主要组成部分

torchaduio主要包括以下几个部分:

  • torchaudio.io:有关音频的I/O
  • torchaudio.backend:提供了音频处理的后端,包括:sox,soundfile等
  • torchaudio.functional:包含了常用的语音数据处理方法,如:spectrogram,create_fb_matrix等
  • torchaudio.transforms:包含了常用的语音数据预处理方法,如:MFCC,MelScale,AmplitudeToDB等
  • torchaudio.datasets:包含了常用的语音数据集,如:VCTK,LibriSpeech,yesno等
  • torchaudio.models:包含了常用的语音模型,如:Wav2Letter,DeepSpeech等
  • torchaudio.models.decoder:包含了常用的语音解码器,如:GreedyDecoder,BeamSearchDecoder等
  • torchaudio.pipelines:包含了常用的语音处理流水线,如:SpeechRecognitionPipeline,SpeakerRecognitionPipeline等
  • torchaudio.sox_effects:包含了常用的语音处理方法,如:apply_effects_tensor,apply_effects_file等
  • torchaudio.compliance.kaldi:包含了与Kaldi工具兼容的方法,如:load_kaldi_fst,load_kaldi_ark等
  • torchaudio.kalid_io:包含了与Kaldi工具兼容的方法,如:read_vec_flt_scp,read_vec_int_scp等
  • torchaudio.utils:包含了常用的语音工具方法,如:get_audio_backend,set_audio_backend等

7.4.2:安装

pip install torchaudioconda install torchaudio

7.4.3:datasets的构建

对于一些公共数据集,可以主要通过torchaudio.datasets来实现。

对于私有数据集,可以通过继承torch.utils.data.Dataset来构建自己的数据集。

数据集的读取和处理,可以通过torch.utils.data.DataLoader来实现。

案例:

import torchaudio
import torch# 公共数据集的构建
yesno_data = torchaudio.datasets.YESNO('.', download=True)
data_loader = torch.utils.data.DataLoader(yesno_data,batch_size=1,shuffle=True,num_workers=4)

通过命令查看语音数据集

import torchaudio
dir(torchaudio.datasets)
"""
['CMUARCTIC','CMUDict','COMMONVOICE','DR_VCTK','FluentSpeechCommands',
'GTZAN','IEMOCAP','LIBRISPEECH','LIBRITTS','LJSPEECH','LibriLightLimited',
'LibriMix','MUSDB_HQ','QUESST14','SPEECHCOMMANDS','Snips','TEDLIUM',
'VCTK_092','VoxCeleb1Identification','VoxCeleb1Verification','YESNO']
"""

7.4.4:model和pipeline构建

torchaudio.models包含了常见语音任务的模型的定义,包括:Wav2Letter,DeepSpeech,HuBERTPretrainModel等。

torchaudio.pipelines则是将预训练模型和其对应的任务组合在一起,构成了一个完整的语音处理流水线。

7.4.5:transforms和functional的使用

torchaudio.transform包含常见的音频处理和特征提取。torchaudio.functional包括了一些常见的音频操作的函数。

torchaudio.transforms继承于torch.nn.Module,但是不同于torchvision.transforms,torchaudio没有compose方法将多个transform组合起来。

因此,torchaudio构建transform pipeline的常见方法是自定义模块类或使用torch.nn.Sequential将他们在一起,然后将其移动到目标设备和数据类型。

# Define custom feature extraction pipeline.
#
# 1. Resample audio
# 2. Convert to power spectrogram
# 3. Apply augmentations
# 4. Convert to mel-scale
#
class MyPipeline(torch.nn.Module):def __init__(self,input_freq=16000,resample_freq=8000,n_fft=1024,n_mel=256,stretch_factor=0.8,):super().__init__()self.resample = Resample(orig_freq=input_freq, new_freq=resample_freq)self.spec = Spectrogram(n_fft=n_fft, power=2)self.spec_aug = torch.nn.Sequential(TimeStretch(stretch_factor, fixed_rate=True),FrequencyMasking(freq_mask_param=80),TimeMasking(time_mask_param=80),)self.mel_scale = MelScale(n_mels=n_mel, sample_rate=resample_freq, n_stft=n_fft // 2 + 1)def forward(self, waveform: torch.Tensor) -> torch.Tensor:# Resample the inputresampled = self.resample(waveform)# Convert to power spectrogramspec = self.spec(resampled)# Apply SpecAugmentspec = self.spec_aug(spec)# Convert to mel-scalemel = self.mel_scale(spec)return mel

7.4.6:compliance和kaldi_io的使用

Kaldi是一个用于语音识别研究的工具箱

在torchaudio.compliance.kaldi中,torchaudio提供了以下三种方法:

  • torchaudio.compliance.kaldi.spectrogram:从语音信号中提取Spectrogram特征
  • torchaudio.compliance.kaldi.fbank:从语音信号中提取FBank特征
  • torchaduio.compliance.kaldi.mfcc:从语音信号中提取MFCC特征

torchaudio.kaldi_io的主要接口包括:

  • torchaudio.kaldi_io.read_vec_int_ark:从Kaldi的scp文件中读取float类型的数据
  • torchaudio.kaldi_io.read_vec_flt_scp
  • torchaudio.kaldi_io.read_vec_flt_ark
  • torchaudio.kaldi_io.read_mat_scp
  • torchaudio.kaldi_io.read_mat_ark

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/6705.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【busybox记录】【shell指令】md5sum

目录 内容来源: 【GUN】【md5sum】指令介绍 【busybox】【md5sum】指令介绍 【linux】【md5sum】指令介绍 使用示例: 128位MD5 - 默认输出 128位MD5 - 将每个文件当做二进制处理 128位MD5 - 从文件中读取MD5值并做检查 128位MD5 - 创建一个BSD风…

李廉洋:5.5-5.6现货黄金,WTI原油必看分析及策略。

美联储2024年5月议息会议将联邦基金利率的目标区间维持在5.25%-5.5%。本次会议声明发生较大变化,宣布6月开始放缓缩表。鲍威尔讲话总体中性偏鸽,指出美联储的下一步行动不太可能是加息。中信证券认为在美国失业率升至4%以上之前,美联储政策重…

美易官方:致敬芒格令人泪目

在今年的巴菲特股东大会上,许多投资者和媒体都期待着能从这位传奇投资家那里听到一些新的投资理念或策略。然而,大会上的一个感人瞬间,却让人们更加关注到了巴菲特身边的那位智者——查理芒格。 今年的股东大会从始至终贯穿着对芒格的致敬与…

【iOS】KVC

文章目录 前言一、KVC常用方法二、key与keypath区别key用法keypath用法 三、批量存值操作四、字典与模型相互转化五、KVC底层原理KVC设值底层原理KVC取值底层原理 前言 KVC的全称是Key-Value Coding,翻译成中文叫做键值编码 KVC提供了一种间接访问属性方法或成员变…

[粉丝问题] 主键使用自增ID还是UUID?

推荐使用自增ID,不要使用UUID。 因为在InnoDB存储引擎中,主键索引是作为聚簇索引存在的,也就是说,主键索引的B树叶子节点上存储了主键索引以及全部的数据(按照顺序),如果主键索引是自增ID,那么只需要不断向…

JavaScript中的DOM和BOM

个人主页:学习前端的小z 个人专栏:JavaScript 精粹 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 💯Web API🍀1 API的概念🍀2 Web API的概念…

【C++ | 关键字】C++ 关键字介绍

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 ⏰发布时间⏰:2024-05-04 0…

手摸手,带你用vue撸后台

前言 说好的教程终于来了,第一篇文章主要来说一说在开始写实际业务代码之前的一些准备工作吧,但这里不会教你 webpack 的基础配置,热更新原理是什么,webpack速度优化等等,有需求的请自行 google,相关文章已…

【JDBC】Apache DbUtils工具类使用

1 简介 Commons DbUtils是Apache 组织提供的一个对]DBC进行简单封装的开源工具类库,简化JDBC应用程序的开发,同时也不会影响程序的性能,是一个小巧简单实用的工具。对于数据表的读操作,可以把结果转换成List、Array、Set等java集…

【C++】详解STL的容器之一:list

目录 简介 初识list 模型 list容器的优缺点 list的迭代器 常用接口介绍 获取迭代器 begin end empty size front back insert push_front pop_front push_back pop_back clear 源代码思路 节点设计 迭代器的设计 list的设计 begin() end() 空构造 ins…

代码随想录35期Day30-Java

Day30题目 写在前面 五一收假&#xff0c;并且这三道题都是选做&#xff0c;明天看一下吧。 LeetCode332.重新安排行程 &#xff1a;todo LeetCode51. N皇后 class Solution {List<String> path new ArrayList<>();List<List<String>> res new …

使用360绿色清理工具释放磁盘空间

缘起&#xff1a; 配置差的电脑&#xff0c;在尝试安装360安全卫士时&#xff0c;它变得非常卡顿&#xff0c;无法正常使用。我安装360的初衷其实是想定期清理C盘的空间&#xff0c;以优化电脑的性能。 经过一番探索&#xff0c;发现了一个方法&#xff0c;可以单独提取出360…

Mybatis扩展

1. Myabtis注解开发 ​ 这几年来注解开发越来越流行&#xff0c;Mybatis也可以使用注解开发方式&#xff0c;这样我们就可以减少编写Mapper映射文件了。我们先围绕一些基本的CRUD来学习&#xff0c;再学习复杂映射多表操作。 1.1 常见注解 Insert&#xff1a;实现新增 Up…

Docker镜像的创建和Dockerfile

一. Docker 镜像的创建&#xff1a; 1.基于现有镜像创建: &#xff08;1&#xff09;首先启动一个镜像&#xff0c;在容器里做修改docker run -it --name web3 centos:7 /bin/bash #启动容器​yum install -y epel-release #安装epel源yum install -y nginx #安…

物联网小demo

机智云生成代码 具体参考之前的文章 初始化 ADC用来使用光敏电阻 连续采样开启 采样的周期调高 定时器 定时器1用来实现延时 为了只用温湿度模块DHT11 定时器4用来和51进行交互 实现定时的发送和检测心跳信号 IIC 用来使用oled屏幕 USART 串口1和串口2是机智云自己…

ROS是什么

一、ROS通信机制--松耦合分布式通信 1、核心概念 ①节点&#xff08;node&#xff09;---软件模块 ②节点管理器&#xff08;ROS master&#xff09;---控制中心&#xff0c;提供参数管理 ③话题&#xff08;topic&#xff09;---异步通信机制&#xff0c;传输消息&#xf…

【设计模式】13、template 模板模式

文章目录 十三、template 模板模式13.1 ppl13.1.1 目录层级13.1.2 ppl_test.go13.1.3 ppl.go13.1.4 llm_ppl.go13.1.5 ocr_ppl.go 十三、template 模板模式 https://refactoringguru.cn/design-patterns/template-method 如果是一套标准流程, 但有多种实现, 可以用 template …

Leetcode 3132. Find the Integer Added to Array II

Leetcode 3132. Find the Integer Added to Array II 1. 解题思路2. 代码实现 题目链接&#xff1a;3132. Find the Integer Added to Array II 1. 解题思路 这一题由于是统一增加了一个位移&#xff0c;然后再删除了两个元素&#xff0c;因此我们将两个数组进行排序&#x…

MySQL入门学习-使用数据库.创建和删除数据库

MySQL是一种流行的关系型数据库管理系统&#xff0c;可以用于存储和管理大量数据。在MySQL中&#xff0c;可以通过创建和删除数据库来组织和管理数据。 一、关于MySQL中创建和删除数据库的概述&#xff1a; 1. 创建数据库&#xff1a; 在MySQL中&#xff0c;可以使用CREATE …

Py脚本_文件分类

最近发现通过Edge和chrome或者其他浏览器下载的文件都存放在一个地方就很繁琐&#xff0c;于是翻找以前的脚本来归纳这些文件&#xff0c;虽然有IDM下载独有会自动分类&#xff0c;但是相信很多同学都在一个文件里找文件&#xff0c;这次就写个Py脚本来实现这个功能。 # -*- c…