python中以表示语块_scikitlearn：将数据拟合成块与将其全部拟合到on

这取决于您使用的矢量器。在

CountVectorizer统计文档中单词的出现次数。

它为每个文档输出一个(n_words, 1)向量，其中包含每个单词在文档中出现的次数。n_words是文档中的单词总数(也就是词汇表的大小)。

它也适合词汇表，这样您就可以反省模型(看看哪个词是重要的，等等)。您可以使用vectorizer.get_feature_names()查看它。在

当你把它放在前500个文档中时，词汇表将只由500个文档中的单词组成。假设有30k个这样的矩阵，fit_transform输出一个500x30k稀疏矩阵。

现在您再次使用接下来的500个文档fit_transform，但是它们只包含29k个单词，所以您得到了一个500x29k矩阵…

现在，如何调整矩阵以确保所有文档都具有一致的表示形式？

我现在想不出一个简单的办法来做这件事。在

对于TfidfVectorizer您还有另一个问题，那就是文档频率的倒数：为了能够计算文档频率，您需要一次查看所有文档。

但是TfidfVectorizer只是一个CountVectorizer，后面跟着一个TfIdfTransformer，因此，如果您设法获得CountVectorizer的输出，那么您可以对数据应用TfIdfTransformer。在

使用HashingVectorizer，情况有所不同：这里没有词汇表。在In [51]: hvect = HashingVectorizer()

In [52]: hvect.fit_transform(X[:1000])

<1000x1048576 sparse matrix of type ''

with 156733 stored elements in Compressed Sparse Row format>

在这里，前1000个文档中没有1M+个不同的单词，但是我们得到的矩阵有1M+列。

HashingVectorizer不在内存中存储单词。这样可以提高内存效率，并确保返回的矩阵始终具有相同的列数。

所以您不会遇到与CountVectorizer相同的问题。在

这可能是您所描述的批处理的最佳解决方案。有两个缺点，即你不能得到idf权重，你不知道单词和你的特征之间的映射。在

希望这有帮助。在

编辑：

如果您有太多的数据，HashingVectorizer是最好的选择。

如果您仍然想使用CountVectorizer，一个可能的解决方法是自己调整词汇表并将其传递给向量器，这样您只需要调用tranform。在

下面是一个您可以修改的示例：

^{pr2}$

现在，不起作用的方法是：# Fitting directly:

vect = CountVectorizer()

vect.fit_transform(X[:1000])

<1000x27953 sparse matrix of type ''

with 156751 stored elements in Compressed Sparse Row format>

注意我们得到的矩阵的大小。

“手动”匹配词汇：def tokenizer(doc):

# Using default pattern from CountVectorizer

token_pattern = re.compile('(?u)\\b\\w\\w+\\b')

return [t for t in token_pattern.findall(doc)]

stop_words = set() # Whatever you want to have as stop words.

vocabulary = set([word for doc in X for word in tokenizer(doc) if word not in stop_words])

vectorizer = CountVectorizer(vocabulary=vocabulary)

X_counts = vectorizer.transform(X[:1000])

# Now X_counts is:

# <1000x155448 sparse matrix of type ''

# with 149624 stored elements in Compressed Sparse Row format>

X_tfidf = tfidf.transform(X_counts)

在您的示例中，您需要在应用tfidf转换之前首先构建整个矩阵X_计数(对于所有文档)。在

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/530943.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python中以表示语块_scikitlearn：将数据拟合成块与将其全部拟合到on

相关文章

大数据学习路线

input层级高小程序_获客、引流成本越来越高？开发小程序：低成本获客、引流...

聚宽macd底背离_许多散户不知道：MACD月线金叉，MACD月金叉都会带来一波牛市！...

E: Could not get lock /var/lib/dpkg/lock-frontend - open (11: Resource temporarly unavailable)

ubuntu 报错E: Unable To Locate Package Software-properties-common

dbscan算法中参数的意义_无监督机器学习中，最常见的聚类算法有哪些？

大数据与云计算的理解与基本认识

造完家怎么拆东西_吸顶灯灯管怎么拆？吸顶灯拆灯管的注意事项有哪些？

DockerCompose构建Springboot项目

mac nginx 非brew安装_Nginx服务器环境手动安装Discuz! Q非详细教程

工作生活可能用得到的资源

idea 注释中类跳转_javaSE第一部分数据类型、idea快捷键

linux ntp时间立即同步命令_记一次生产环境部署NTP服务及配置时间同步

fdtd中时间监视器怎么放_利用FDTD软件仿真拓扑光子（六）-单向传播仿真与软件设置...

会计云课堂实名认证后怎么更改_离职了，税务局的会计信息还是我，老板就不更改，怎么办？...

各层电子数排布规则_原子核外电子排布原理

idea 关联jdk源码_[项目源码]ERP进销存系统

发布项目_项目发布会活动到底应该怎么办

mybatis if test 判断参数_什么？你还在if判断参数？Spring Boot 注解进行参数校验真香...

西门子array数据类型_西门子S71200之间以太网通信(图文)