【Transformer 】 Hugging Face手册 (02/10)

一、说明

启动🤗并运行变形金刚！无论您是开发人员还是日常用户，此快速教程都将帮助您入门，并向您展示如何使用 pipeline（）进行推理、使用 AutoClass 加载预训练模型和预处理器，以及使用 PyTorch 或 TensorFlow 快速训练模型。如果您是初学者，我们建议您接下来查看我们的教程或课程，以更深入地解释此处介绍的概念。

二、快速浏览

2.1 安装

在开始之前，请确保已安装所有必需的库：

!pip install transformers datasets

您还需要安装首选的机器学习框架：

pytorch

pip install torch

TensorFlow （张量流）

pip install tensorflow

2.2 管道

pipeline（）是使用预训练模型进行推理的最简单、最快捷的方法。您可以将pipeline（）用于不同模式的许多任务，其中一些任务如下表所示：

有关可用任务的完整列表，请查看管道 API 参考。

任务	描述	形态	管道标识符
文本分类	为给定的文本序列指定标签	自然语言处理	pipeline(task=“sentiment-analysis”)
文本生成	在给定提示的情况下生成文本	自然语言处理	pipeline(task=“text-generation”)
综述	生成一系列文本或文档的摘要	自然语言处理	pipeline(task=“summarization”)
图像分类	为图像分配标签	计算机视觉	pipeline(task=“image-classification”)
图像分割	为图像的每个像素分配标签（支持语义、全景和实例分割）	计算机视觉	pipeline(task=“image-segmentation”)
物体检测	预测图像中对象的边界框和类	计算机视觉	pipeline(task=“object-detection”)
音频分类	为某些音频数据分配标签	音频	pipeline(task=“audio-classification”)
自动语音识别	将语音转录为文本	音频	pipeline(task=“automatic-speech-recognition”)
视觉问答	回答有关图像的问题，给定图像和问题	模态	pipeline(task=“vqa”)
文档问题解答	回答有关文档的问题，给定文档和问题	模态	pipeline(task=“document-question-answering”)
图片说明	为给定图像生成标题	模态	pipeline(task=“image-to-text”)

首先创建一个 pipeline（）实例并指定要使用它的任务。在本指南中，你将使用 pipeline（）进行情绪分析作为示例：

from transformers import pipeline
classifier = pipeline("sentiment-analysis")

2.3 分类器

pipeline（）下载并缓存默认的预训练模型和分词器，用于情绪分析。现在，您可以在目标文本上使用：classifier

>>> classifier("We are very happy to show you the 🤗 Transformers library.")
[{'label': 'POSITIVE', 'score': 0.9998}]

如果您有多个输入，请将您的输入作为列表传递给 pipeline（）以返回字典列表：

>>> results = classifier(["We are very happy to show you the 🤗 Transformers library.", "We hope you don't hate it."])
>>> for result in results:
...     print(f"label: {result['label']}, with score: {round(result['score'], 4)}")
label: POSITIVE, with score: 0.9998
label: NEGATIVE, with score: 0.5309

pipeline（）还可以针对您喜欢的任何任务遍历整个数据集。在此示例中，让我们选择自动语音识别作为我们的任务：

>>> import torch
>>> from transformers import pipeline>>> speech_recognizer = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-base-960h")

加载要循环访问的音频数据集（有关详细信息，🤗请参阅数据集快速入门）。例如，加载 MInDS-14 数据集：

>>> from datasets import load_dataset, Audio>>> dataset = load_dataset("PolyAI/minds14", name="en-US", split="train")

您需要确保数据集的采样率与采样率相匹配评价 facebook/wav2vec2-base-960h 接受过以下培训：

>>> dataset = dataset.cast_column("audio", Audio(sampling_rate=speech_recognizer.feature_extractor.sampling_rate))

调用列时，会自动加载音频文件并重新采样。从前 4 个样本中提取原始波形数组，并将其作为列表传递到管道："audio"

>>> result = speech_recognizer(dataset[:4]["audio"])
>>> print([d["text"] for d in result])
['I WOULD LIKE TO SET UP A JOINT ACCOUNT WITH MY PARTNER HOW DO I PROCEED WITH DOING THAT', "FONDERING HOW I'D SET UP A JOIN TO HELL T WITH MY WIFE AND WHERE THE AP MIGHT BE", "I I'D LIKE TOY SET UP A JOINT ACCOUNT WITH MY PARTNER I'M NOT SEEING THE OPTION TO DO IT ON THE APSO I CALLED IN TO GET SOME HELP CAN I JUST DO IT OVER THE PHONE WITH YOU AND GIVE YOU THE INFORMATION OR SHOULD I DO IT IN THE AP AN I'M MISSING SOMETHING UQUETTE HAD PREFERRED TO JUST DO IT OVER THE PHONE OF POSSIBLE THINGS", 'HOW DO I FURN A JOINA COUT']

对于输入较大的大型数据集（如语音或视觉），需要传递生成器而不是列表，以将所有输入加载到内存中。有关详细信息，请查看管道 API 参考。

2.4 在管道中使用另一个模型和分词器

pipeline（）可以容纳 Hub 中的任何模型，从而可以轻松地将 pipeline（）用于其他用例。例如，如果您想要一个能够处理法语文本的模型，请使用 Hub 上的标签来筛选适当的模型。顶部筛选的结果返回一个多语言 BERT 模型，该模型针对可用于法语文本的情绪分析进行了微调：

>>> model_name = "nlptown/bert-base-multilingual-uncased-sentiment"

pytorch

隐藏 Pytorch 内容

使用 AutoModelForSequenceClassification 和 AutoTokenizer 加载预训练模型及其关联的标记器（下一节中将详细介绍）：AutoClass

>>> from transformers import AutoTokenizer, AutoModelForSequenceClassification>>> model = AutoModelForSequenceClassification.from_pretrained(model_name)
>>> tokenizer = AutoTokenizer.from_pretrained(model_name)

TensorFlow （张量流）

使用 TFAutoModelForSequenceClassification 和 AutoTokenizer 加载预训练模型及其关联的标记器（下一节将详细介绍）：TFAutoClass

>>> from transformers import AutoTokenizer, TFAutoModelForSequenceClassification>>> model = TFAutoModelForSequenceClassification.from_pretrained(model_name)
>>> tokenizer = AutoTokenizer.from_pretrained(model_name)

在 pipeline（）中指定模型和分词器，现在您可以应用法语文本：classifier

>>> classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
>>> classifier("Nous sommes très heureux de vous présenter la bibliothèque 🤗 Transformers.")
[{'label': '5 stars', 'score': 0.7273}]

如果找不到适合用例的模型，则需要对数据进行预训练模型的微调。请查看我们的微调教程，了解如何操作。最后，在对预训练模型进行微调后，请考虑在 Hub 上与社区共享该模型，让每个人都能实现机器学习的民主化！🤗

三、自动类

在后台，AutoModelForSequenceClassification 和 AutoTokenizer 类协同工作，为上面使用的 pipeline（）提供支持。AutoClass 是一种快捷方式，可自动从预训练模型的名称或路径中检索其架构。您只需要为您的任务选择合适的预处理类及其关联的预处理类。AutoClass

让我们回到上一节的示例，看看如何使用来复制 pipeline（）的结果。AutoClass

3.1 自动分词器

分词器负责将文本预处理为数字数组作为模型的输入。有多个规则控制标记化过程，包括如何拆分单词以及应该在什么级别拆分单词（在标记器摘要中了解有关标记化的更多信息）。要记住的最重要的一点是，您需要实例化具有相同模型名称的标记器，以确保使用与模型预训练相同的标记化规则。

使用 AutoTokenizer 加载分词器：

>>> from transformers import AutoTokenizer>>> model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
>>> tokenizer = AutoTokenizer.from_pretrained(model_name)

将文本传递给分词器：

>>> encoding = tokenizer("We are very happy to show you the 🤗 Transformers library.")
>>> print(encoding)
{'input_ids': [101, 11312, 10320, 12495, 19308, 10114, 11391, 10855, 10103, 100, 58263, 13299, 119, 102],'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

分词器返回一个字典，其中包含：

input_ids：代币的数字表示。
attention_mask：指示应注意哪些令牌。

分词器还可以接受输入列表，并填充和截断文本以返回长度均匀的批处理：

Pytorch 内容

>>> pt_batch = tokenizer(
...     ["We are very happy to show you the 🤗 Transformers library.", "We hope you don't hate it."],
...     padding=True,
...     truncation=True,
...     max_length=512,
...     return_tensors="pt",
... )

TensorFlow （张量流）

>>> tf_batch = tokenizer(
...     ["We are very happy to show you the 🤗 Transformers library.", "We hope you don't hate it."],
...     padding=True,
...     truncation=True,
...     max_length=512,
...     return_tensors="tf",
... )

查看预处理教程，了解有关标记化的更多详细信息，以及如何使用 AutoImageProcessor、AutoFeatureExtractor 和 AutoProcessor 对图像、音频和多模态输入进行预处理。

3.2 自动模型

Pytorch 内容

Transformers 提供了一种简单而统一的方式来加载预训练实例。这意味着您可以像加载 AutoTokenizer 一样加载 AutoModel。唯一的区别是为任务选择了正确的 AutoModel。对于文本（或序列）分类，应加载 AutoModelForSequenceClassification：

>>> from transformers import AutoModelForSequenceClassification>>> model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
>>> pt_model = AutoModelForSequenceClassification.from_pretrained(model_name)

有关 AutoModel 类支持的任务，请参阅任务摘要。

现在，将预处理的输入批次直接传递到模型。您只需要通过添加以下内容来解压缩字典：**

>>> pt_outputs = pt_model(**pt_batch)

模型在属性中输出最终激活。将 softmax 函数应用于以检索概率：logitslogits

>>> from torch import nn>>> pt_predictions = nn.functional.softmax(pt_outputs.logits, dim=-1)
>>> print(pt_predictions)
tensor([[0.0021, 0.0018, 0.0115, 0.2121, 0.7725],[0.2084, 0.1826, 0.1969, 0.1755, 0.2365]], grad_fn=<SoftmaxBackward0>)

TensorFlow （张量流）

transformers 提供了一种简单而统一的方式来加载预训练实例。这意味着您可以像加载 AutoTokenizer 一样加载 TFAutoModel。唯一的区别是为任务选择了正确的 TFAutoModel。对于文本（或序列）分类，应加载 TFAutoModelForSequenceClassification：

>>> from transformers import TFAutoModelForSequenceClassification>>> model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
>>> tf_model = TFAutoModelForSequenceClassification.from_pretrained(model_name)

有关 AutoModel 类支持的任务，请参阅任务摘要。

现在，将预处理的输入批次直接传递到模型。您可以按原样传递张量：

>>> tf_outputs = tf_model(tf_batch)

模型在属性中输出最终激活。将 softmax 函数应用于以检索概率：logitslogits

>>> import tensorflow as tf>>> tf_predictions = tf.nn.softmax(tf_outputs.logits, axis=-1)
>>> tf_predictions

所有 🤗 Transformer 模型（PyTorch 或 TensorFlow）都会在最终激活之前输出张量函数（如 softmax），因为最终激活函数通常与损耗融合在一起。模型输出是特殊的数据类，因此其属性会在 IDE 中自动完成。模型输出的行为类似于元组或字典（可以使用整数、切片或字符串进行索引），在这种情况下，将忽略 None 的属性。

3.3 保存模型

Pytorch 内容

对模型进行微调后，可以使用 PreTrainedModel.save_pretrained（）将其与分词器一起保存：

>>> pt_save_directory = "./pt_save_pretrained"
>>> tokenizer.save_pretrained(pt_save_directory)
>>> pt_model.save_pretrained(pt_save_directory)

当您准备好再次使用模型时，请使用 PreTrainedModel.from_pretrained（））重新加载它：

>>> pt_model = AutoModelForSequenceClassification.from_pretrained("./pt_save_pretrained")

TensorFlow （张量流）

对模型进行微调后，可以使用 TFPreTrainedModel.save_pretrained（）将其与分词器一起保存：

>>> tf_save_directory = "./tf_save_pretrained"
>>> tokenizer.save_pretrained(tf_save_directory)
>>> tf_model.save_pretrained(tf_save_directory)

当您准备好再次使用模型时，请使用 TFPreTrainedModel.from_pretrained（））重新加载它：

>>> tf_model = TFAutoModelForSequenceClassification.from_pretrained("./tf_save_pretrained")

Transformers 的一个特别酷🤗的功能是能够保存模型并将其重新加载为 PyTorch 或 TensorFlow 模型。or 参数可以将模型从一个框架转换为另一个框架：from_ptfrom_tf

Pytorch 内容

>>> from transformers import AutoModel>>> tokenizer = AutoTokenizer.from_pretrained(tf_save_directory)
>>> pt_model = AutoModelForSequenceClassification.from_pretrained(tf_save_directory, from_tf=True)

TensorFlow （张量流）

>>> from transformers import TFAutoModel>>> tokenizer = AutoTokenizer.from_pretrained(pt_save_directory)
>>> tf_model = TFAutoModelForSequenceClassification.from_pretrained(pt_save_directory, from_pt=True)

四、自定义模型构建

您可以修改模型的配置类以更改模型的构建方式。该配置指定模型的属性，例如隐藏层数或注意力头数。从自定义配置类初始化模型时，可以从头开始。模型属性是随机初始化的，需要先训练模型，然后才能使用它来获得有意义的结果。

首先导入 AutoConfig，然后加载要修改的预训练模型。在 AutoConfig.from_pretrained（）中，您可以指定要更改的属性，例如注意力头的数量：

>>> from transformers import AutoConfig>>> my_config = AutoConfig.from_pretrained("distilbert-base-uncased", n_heads=12)

Pytorch 内容

使用 AutoModel.from_config（）从自定义配置创建模型：

>>> from transformers import AutoModel>>> my_model = AutoModel.from_config(my_config)

TensorFlow （张量流）

使用 TFAutoModel.from_config（）从自定义配置创建模型：

>>> from transformers import TFAutoModel>>> my_model = TFAutoModel.from_config(my_config)

有关构建自定义配置的更多信息，请查看创建自定义体系结构指南。

4.1 Trainer - PyTorch 优化的训练循环

所有模型都是标准的 torch.nn.Module，因此您可以在任何典型的训练循环中使用它们。虽然您可以编写自己的训练循环，🤗但 Transformers 为 PyTorch 提供了一个 Trainer 类，其中包含基本的训练循环，并为分布式训练、混合精度等功能添加了附加功能。

根据您的任务，您通常会将以下参数传递给 Trainer：

您将从 PreTrainedModel 或 torch.nn.Module 开始：

>>> from transformers import AutoModelForSequenceClassification>>> model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")

TrainingArguments 包含可以更改的模型超参数，例如学习速率、批处理大小和要训练的 epoch 数。如果未指定任何训练参数，则使用默认值：

>>> from transformers import TrainingArguments>>> training_args = TrainingArguments(
...     output_dir="path/to/save/folder/",
...     learning_rate=2e-5,
...     per_device_train_batch_size=8,
...     per_device_eval_batch_size=8,
...     num_train_epochs=2,
... )

加载预处理类，如分词器、图像处理器、特征提取器或处理器：

>>> from transformers import AutoTokenizer>>> tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

加载数据集：

>>> from datasets import load_dataset>>> dataset = load_dataset("rotten_tomatoes")  # doctest: +IGNORE_RESULT

创建一个函数来标记数据集：

>>> def tokenize_dataset(dataset):
...     return tokenizer(dataset["text"])

然后使用 map 将其应用于整个数据集：

>>> dataset = dataset.map(tokenize_dataset, batched=True)

一个 DataCollatorWithPadding，用于从数据集创建一批示例：

>>> from transformers import DataCollatorWithPadding>>> data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

现在在 Trainer 中收集所有这些类：

>>> from transformers import Trainer>>> trainer = Trainer(
...     model=model,
...     args=training_args,
...     train_dataset=dataset["train"],
...     eval_dataset=dataset["test"],
...     tokenizer=tokenizer,
...     data_collator=data_collator,
... )  # doctest: +SKIP

准备就绪后，调用 train（）开始训练：

>>> trainer.train()

对于使用序列到序列模型的任务（如翻译或摘要），请改用 Seq2SeqTrainer 和 Seq2SeqTrainingArguments 类。

您可以通过在 Trainer 中对方法进行子类化来自定义训练循环行为。这允许您自定义损失函数、优化器和调度器等功能。查看 Trainer 参考，了解哪些方法可以进行子类化。

自定义训练循环的另一种方法是使用 Callbacks。您可以使用回调与其他库集成，并检查训练循环以报告进度或提前停止训练。回调不会修改训练循环本身中的任何内容。要自定义类似损失函数的东西，您需要改为子类化 Trainer。

4.2 使用 TensorFlow 进行训练

所有模型都是标准的 tf.keras.Model，因此可以使用 Keras API 在 TensorFlow 中进行训练。🤗 Transformers 提供了 prepare_tf_dataset（）方法，可以轻松地将数据集加载为 a，因此您可以立即开始使用 Keras 的编译和拟合方法进行训练。tf.data.Dataset

您将从 TFPreTrainedModel 或 tf.keras.Model 开始：

>>> from transformers import TFAutoModelForSequenceClassification>>> model = TFAutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")

加载预处理类，如分词器、图像处理器、特征提取器或处理器：

>>> from transformers import AutoTokenizer>>> tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

创建一个函数来标记数据集：

>>> def tokenize_dataset(dataset):
...     return tokenizer(dataset["text"])  # doctest: +SKIP

使用 map 将分词器应用于整个数据集，然后将数据集和分词器传递给 prepare_tf_dataset（）。如果需要，还可以在此处更改批处理大小并随机排列数据集：

>>> dataset = dataset.map(tokenize_dataset)  # doctest: +SKIP
>>> tf_dataset = model.prepare_tf_dataset(
...     dataset["train"], batch_size=16, shuffle=True, tokenizer=tokenizer
... )  # doctest: +SKIP

准备就绪后，您可以拨打电话开始训练。请注意，Transformer 模型都具有与任务相关的默认损失函数，因此除非您想要：compilefit
```
>>> from tensorflow.keras.optimizers import Adam>>> model.compile(optimizer=Adam(3e-5))  # No loss argument!
>>> model.fit(tf_dataset)  # doctest: +SKIP
```