github中fasttext库README官文文档翻译

参考链接:fastText/python/README.md at main · facebookresearch/fastText (github.com)

fastText模块介绍

fastText 是一个用于高效学习单词表述和句子分类的库。在本文档中,我们将介绍如何在 python 中使用 fastText。

环境要求

fastText 可在现代 Mac OS 和 Linux 发行版上运行。由于它使用了 C++11 功能,因此需要一个支持 C++11 的编译器。您需要 Python(版本 2.7 或 ≥ 3.4)、NumPy & SciPy 和 pybind11。

安装

要安装最新版本,可以执行:

$ pip install fasttext

或者,要获取 fasttext 的最新开发版本,您可以从我们的 github 代码库中安装:

$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ sudo pip install .
$ # or :
$ sudo python setup.py install

使用概览

词语表征模型

为了像这里描述的那样学习单词向量,我们可以像这样使用 fasttext.train_unsupervised 函数:

import fasttext# Skipgram model :
model = fasttext.train_unsupervised('data.txt', model='skipgram')# or, cbow model :
model = fasttext.train_unsupervised('data.txt', model='cbow')

其中,data.txt 是包含 utf-8 编码文本的训练文件。返回的模型对象代表您学习的模型,您可以用它来检索信息。

print(model.words)   # list of words in dictionary
print(model['king']) # get the vector of the word 'king'

保存和加载模型对象

调用函数 save_model 可以保存训练好的模型对象。

model.save_model("model_filename.bin")

并通过函数 load_model 加载模型参数:

model = fasttext.load_model("model_filename.bin")

文本分类模型

为了使用这里介绍的方法训练文本分类器,我们可以这样使用 fasttext.train_supervised 函数:

import fasttextmodel = fasttext.train_supervised('data.train.txt')

其中 data.train.txt 是一个文本文件,每行包含一个训练句子和标签。默认情况下,我们假定标签是以字符串 __label__ 为前缀的单词。模型训练完成后,我们就可以检索单词和标签列表:

print(model.words)
print(model.labels)

为了通过在测试集上计算精度为 1 (P@1) 和召回率来评估我们的模型,我们使用了测试函数:

def print_results(N, p, r):print("N\t" + str(N))print("P@{}\t{:.3f}".format(1, p))print("R@{}\t{:.3f}".format(1, r))print_results(*model.test('test.txt'))

我们还可以预测特定文本的标签:

model.predict("Which baking dish is best to bake a banana bread ?")

默认情况下,predict 只返回一个标签:概率最高的标签。您也可以通过指定参数 k 来预测多个标签:

model.predict("Which baking dish is best to bake a banana bread ?", k=3)

如果您想预测多个句子,可以传递一个字符串数组:

model.predict(["Which baking dish is best to bake a banana bread ?", "Why not put knives in the dishwasher?"], k=3)

当然,您也可以像文字表示法那样,将模型保存到文件或从文件加载模型。

用量化技术压缩模型文件

当您想保存一个经过监督的模型文件时,fastText 可以对其进行压缩,从而只牺牲一点点性能,获得更小的模型文件。

# with the previously trained `model` object, call :
model.quantize(input='data.train.txt', retrain=True)# then display results and save the new model :
print_results(*model.test(valid_data))
model.save_model("model_filename.ftz")

model_filename.ftz 的大小将远远小于 model_filename.bin。

重要:预处理数据/编码约定

一般来说,对数据进行适当的预处理非常重要。特别是根文件夹中的示例脚本可以做到这一点。

fastText 假定使用 UTF-8 编码的文本。对于 Python2,所有文本都必须是 unicode;对于 Python3,所有文本都必须是 str。传入的文本将由 pybind11 编码为 UTF-8,然后再传给 fastText C++ 库。这意味着在构建模型时,使用 UTF-8 编码的文本非常重要。在类 Unix 系统中,可以使用 iconv 转换文本。

fastText 将根据以下 ASCII 字符(字节)进行标记化(将文本分割成片段)。特别是,它无法识别 UTF-8 的空白。我们建议用户将UTF-8 空格/单词边界转换为以下适当的符号之一。

空间
选项卡
垂直制表符
回车
换页
空字符

换行符用于分隔文本行。特别是,如果遇到换行符,EOS 标记就会被附加到文本行中。唯一的例外情况是,标记的数量超过了字典标题中定义的 MAX_LINE_SIZE 常量。这意味着,如果文本没有换行符分隔,例如 fil9 数据集,它将被分割成具有 MAX_LINE_SIZE 的标记块,而 EOS 标记不会被附加。

标记符的长度是UTF-8 字符的数量,通过考虑字节的前两位来识别多字节序列的后续字节。在选择子字的最小和最大长度时,了解这一点尤为重要。此外,EOS 标记(在字典标头中指定)被视为一个字符,不会被分解为子字。

更多实例

为了更好地了解 fastText 模型,请参阅主 README,特别是我们网站上的教程。您还可以在 doc 文件夹中找到更多 Python 示例。与其他软件包一样,您可以使用 help 函数获得有关任何 Python 函数的帮助。

例如

+>>> import fasttext
+>>> help(fasttext.FastText)Help on module fasttext.FastText in fasttext:NAMEfasttext.FastTextDESCRIPTION# Copyright (c) 2017-present, Facebook, Inc.# All rights reserved.## This source code is licensed under the MIT license found in the# LICENSE file in the root directory of this source tree.FUNCTIONSload_model(path)Load a model given a filepath and return a model object.tokenize(text)Given a string of text, tokenize it and return a list of tokens
[...]

API——应用程序接口

train_unsupervised (无监督训练参数)

    input             # training file path (required)model             # unsupervised fasttext model {cbow, skipgram} [skipgram]lr                # learning rate [0.05]dim               # size of word vectors [100]ws                # size of the context window [5]epoch             # number of epochs [5]minCount          # minimal number of word occurences [5]minn              # min length of char ngram [3]maxn              # max length of char ngram [6]neg               # number of negatives sampled [5]wordNgrams        # max length of word ngram [1]loss              # loss function {ns, hs, softmax, ova} [ns]bucket            # number of buckets [2000000]thread            # number of threads [number of cpus]lrUpdateRate      # change the rate of updates for the learning rate [100]t                 # sampling threshold [0.0001]verbose           # verbose [2]

train_supervised parameters(监督训练参数)

    input             # training file path (required)lr                # learning rate [0.1]dim               # size of word vectors [100]ws                # size of the context window [5]epoch             # number of epochs [5]minCount          # minimal number of word occurences [1]minCountLabel     # minimal number of label occurences [1]minn              # min length of char ngram [0]maxn              # max length of char ngram [0]neg               # number of negatives sampled [5]wordNgrams        # max length of word ngram [1]loss              # loss function {ns, hs, softmax, ova} [softmax]bucket            # number of buckets [2000000]thread            # number of threads [number of cpus]lrUpdateRate      # change the rate of updates for the learning rate [100]t                 # sampling threshold [0.0001]label             # label prefix ['__label__']verbose           # verbose [2]pretrainedVectors # pretrained word vectors (.vec file) for supervised learning []

模型对象、

train_supervised、train_unsupervised 和 load_model 函数返回 _FastText 类的一个实例,我们一般将其命名为模型对象。

该对象将这些训练参数作为属性公开:lr、dim、ws、epoch、minCount、minCountLabel、minn、maxn、neg、wordNgrams、loss、bucket、thread、lrUpdateRate、t、label、verbose、pretrainedVectors。因此,model.wordNgrams 将给出用于训练该模型的单词 ngram 的最大长度。

此外,该对象还公开了多个函数:

    get_dimension           # Get the dimension (size) of a lookup vector (hidden layer).# This is equivalent to `dim` property.get_input_vector        # Given an index, get the corresponding vector of the Input Matrix.get_input_matrix        # Get a copy of the full input matrix of a Model.get_labels              # Get the entire list of labels of the dictionary# This is equivalent to `labels` property.get_line                # Split a line of text into words and labels.get_output_matrix       # Get a copy of the full output matrix of a Model.get_sentence_vector     # Given a string, get a single vector represenation. This function# assumes to be given a single line of text. We split words on# whitespace (space, newline, tab, vertical tab) and the control# characters carriage return, formfeed and the null character.get_subword_id          # Given a subword, return the index (within input matrix) it hashes to.get_subwords            # Given a word, get the subwords and their indicies.get_word_id             # Given a word, get the word id within the dictionary.get_word_vector         # Get the vector representation of word.get_words               # Get the entire list of words of the dictionary# This is equivalent to `words` property.is_quantized            # whether the model has been quantizedpredict                 # Given a string, get a list of labels and a list of corresponding probabilities.quantize                # Quantize the model reducing the size of the model and it's memory footprint.save_model              # Save the model to the given pathtest                    # Evaluate supervised model using file given by pathtest_label              # Return the precision and recall score for each label.    

属性 words, labels 返回字典中的单词和标签:

model.words         # equivalent to model.get_words()
model.labels        # equivalent to model.get_labels()

该对象重载了 __getitem__ 和 __contains__ 函数,以便返回单词的表示形式和检查单词是否在词汇表中

model['king']       # equivalent to model.get_word_vector('king')
'king' in model     # equivalent to `'king' in model.get_words()`

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/5366.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

http作业

综合练习:请给openlab搭建web网站 网站需求: 1.基于域名www.openlab.com可以访问网站内容为 welcome to openlab!!! 2.给该公司创建三个子界面分别显示学生信息,教学资料和缴费网站,基于www.openlab.com/student 网站访问学生信息…

CGAL 网格热力图

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 这里实现一个很有趣的功能,生成网格热力图,思路其实很简单:通过指定一个点,计算网格其他点到指定点的测地线距离,以此来为每个网格顶点进行赋色即可。 二、实现代码 //CGAL #include <CGAL/Simple_cartesi…

用HTML5实现播放gif文件

用HTML5实现播放gif文件 在HTML5中&#xff0c;你可以使用<img>标签来播放GIF文件。GIF文件本质上是一种图像格式&#xff0c;它支持动画效果&#xff0c;因此当在网页上加载时&#xff0c;它会自动播放动画。先看一个简单的示例&#xff1a; <!DOCTYPE html> &l…

Elasticsearch:探索 11 种流行的机器学习算法

作者&#xff1a;来自 Elastic Elastic Platform Team 过去几年中&#xff0c;机器学习&#xff08;ML&#xff09;已经悄然成为我们日常生活中不可或缺的一部分。它影响着从购物网站和流媒体网站上的个性化推荐&#xff0c;到保护我们的收件箱免受我们每天收到的大量垃圾邮件的…

2024年第二十六届“华东杯”(B题)大学生数学建模挑战赛|数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2022年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题。 让我们来看看华东杯 (B题&#xff09;&#xff01; 第一个问题…

神经网络与深度学习(四)--自然语言处理NLP

这里写目录标题 1.序列模型2.数据预处理2.1特征编码2.2文本处理 3.文本预处理与词嵌入3.1文本预处理3.2文本嵌入 3.RNN模型3.1RNN概要3.2RNN误差反传 4.门控循环单元&#xff08;GRU&#xff09;4.1GRU基本结构 5.长短期记忆网络 (LSTM) 1.序列模型 分类问题与预测问题 图像分…

K8S安装Calico节点总是NotReady

问题场景&#xff1a; 今天部署了K8S主节点&#xff0c;Master节点安装了Calico网络插件&#xff0c;在运行node列表结果是NotReady&#xff1a; [rootmaster ~]# kubectl get nodes NAME STATUS ROLES AGE VERSION master NotReady master 22h v1.19.4…

关于chatgpt的理解与探索

引言 人工智能&#xff08;AI&#xff09;的发展一直以来都备受关注&#xff0c;而自然语言处理&#xff08;NLP&#xff09;领域的进展尤其引人瞩目。ChatGPT 作为其中的一员&#xff0c;以其强大的语言理解和生成能力而备受关注。本文将深入探讨 ChatGPT 的原理、应用以及对…

显示和隐藏两个不同表格在同一个位置,列的宽度错乱。

当切换按钮&#xff0c;显示和隐藏两个不同表格在同一个位置的时候。列的宽度又是不固定的&#xff0c;会出现列宽度错乱的问题 刚开始我是用的el-table自带的doLayout()&#xff0c;并不适合用。反正我这边是不起作用的&#xff0c;不知道是不是我用错了。 1&#xff0c; 在…

java版本共存与fastjson反序列化rmi服务器的搭建

文章目录 java 8下载远程加载类工具编译工具mvn多版本共存配置mvn编译marshalsec编译rce文件利用marshalsec加载远程RCE类 java 8下载 链接&#xff1a;https://pan.baidu.com/s/1B8U9v8QAe4Vc67Q84_nqcg?pwd0000 提取码&#xff1a;0000 远程加载类工具 https://github.co…

C++类的设计编程示例

一、银行账户类 【问题描述】 定义银行账户BankAccount类。 私有数据成员&#xff1a;余额balance&#xff08;整型&#xff09;。 公有成员方法&#xff1a; 无参构造方法BankAccount()&#xff1a;将账户余额初始化为0&#xff1b; 带参构造方法BankAccount(int m)&#xff1…

Cesium 3dTileset 支持 uv 和 纹理贴图

原理: 使用自定义shader实现uv自动计算 贴图效果: uv效果:

(Microsoft SQL Server,错误: 233)

错误信息: A connection was successfully established with the server, but then an error occurred during the pre-login handshake. (provider: Shared Memory Provider, error: 0 - 管道的另一端上无任何进程。) (Microsoft SQL Server&#xff0c;错误: 233) 原因&…

富格林:落实安全出金可信操作

富格林指出&#xff0c;在现货黄金交易理财中&#xff0c;投资者的唯一目标就是降低亏损风险&#xff0c;同时增加安全出金的几率。然而&#xff0c;由于现货黄金行情的多样变化给投资者增加了控制的难度。那么&#xff0c;我们要如何实现安全出金呢&#xff1f;其实有一些可信…

vue 设置输入框只能输入数字且只能输入小数点后两位,并且不能输入减号

<el-input v-model.trim"sb.price" placeholder"现价" class"input_w3" oninput"valuevalue.replace(/[^0-9.]/g,).replace(/\.{2,}/g,.).replace(/^(\-)*(\d)\.(\d\d).*$/,$1$2.$3)"/> 嘎嘎简单、、、、、、、、、

自定义之道:学习 Java 中如何打磨独特的异常

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一个人虽可以走的更快&#xff0c;但一群人可以走的更远。 我是一名后…

智能科技的飞跃:LLAMA3引领的人工智能新时代

大家好&#xff01;相信大家对于AI&#xff08;人工智能&#xff09;的发展已经有了一定的了解&#xff0c;但你是否意识到&#xff0c;到了2024年&#xff0c;AI已经变得如此强大和普及&#xff0c;带来了我们从未想象过的便利和创新呢&#xff1f;让我们一起来看看AI在这个时…

mysqlbinlog恢复delete的数据

实验目的 delete数据后&#xff0c;用mysqlbinlog进行数据恢复 实验过程 原表 mysql> select * from mytest; ----------------- | id | name | score | ----------------- | 1 | xw01 | 90 | | 2 | xw02 | 92 | | 3 | xw03 | 93 | | 4 | xw04 | 94 | |…

3D看车有哪些强大的功能?适合哪些企业使用?

3D看车是一种创新的汽车展示方式&#xff0c;它提供了许多强大的功能&#xff0c;特别适合汽车行业的企业使用。 3D看车可实现哪些功能&#xff1f; 1、细节展示&#xff1a; 51建模网提供全套汽车行业3D数字化解决方案&#xff0c;3D看车能够将汽车展示得更加栩栩如生&…

maven聚合,继承等方式

需要install安装到本地仓库&#xff0c;或者私服&#xff0c;方可使用自己封装项目 编译&#xff0c;测试&#xff0c;打包&#xff0c;安装&#xff0c;发布 parent: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://mav…