python编码解码单词_在使用w2v时python中的编码问题

我正在使用word2vec模型在python中编写我的第一个应用程序。 这里是我的简单的代码在使用w2v时python中的编码问题

import gensim, logging

import sys

import warnings

from gensim.models import Word2Vec

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

def main():

####LOAD MODEL

model = Word2Vec.load_word2vec_format('models/vec-cbow.txt', binary=False)

model.similarity('man', 'women')

if __name__ == '__main__':

with warnings.catch_warnings():

warnings.simplefilter("error")

#warnings.simplefilter("ignore")

main()

我得到这个以下错误:

UnicodeDecodeError: 'utf8' codec can't decode bytes in position 96-97: invalid continuation byte

我试图通过增加这两条线解决它,但我仍然得到错误。

reload(sys) # Reload does the trick!

sys.setdefaultencoding('UTF8') #UTF8 #latin-1

该w2v模型是在英语句子训练。

编辑:以下是完整的堆栈:

**%run "...\getSimilarity.py"**

---------------------------------------------------------------------------

UnicodeDecodeError Traceback (most recent call last)

**...\getSimilarity.py in ()**

64 warnings.simplefilter("error")

65 #warnings.simplefilter("ignore")

---> 66 main()

**...\getSimilarity.py in main()**

30 ####LOAD MODEL

---> 31 model = Word2Vec.load_word2vec_format('models/vec-cbow.txt', binary=False) # C binary format

32 model.similarity('man', 'women')

**...\AppData\Local\Enthought\Canopy\User\lib\site-packages\gensim-0.12.4-py2.7-win-amd64.egg\gensim\models\word2vec.pyc in load_word2vec_format(cls, fname, fvocab, binary, encoding, unicode_errors)**

1090 else:

1091 for line_no, line in enumerate(fin):

-> 1092 parts = utils.to_unicode(line.rstrip(), encoding=encoding, errors=unicode_errors).split(" ")

1093 if len(parts) != vector_size + 1:

1094 raise ValueError("invalid vector on line %s (is this really the text format?)" % (line_no))

**...\AppData\Local\Enthought\Canopy\User\lib\site-packages\gensim-0.12.4-py2.7-win-amd64.egg\gensim\utils.pyc in any2unicode(text, encoding, errors)**

215 if isinstance(text, unicode):

216 return text

--> 217 return unicode(text, encoding, errors=errors)

218 to_unicode = any2unicode

219

**...\AppData\Local\Enthought\Canopy\App\appdata\canopy-1.6.2.3262.win-x86_64\lib\encodings\utf_8.pyc in decode(input, errors)**

14

15 def decode(input, errors='strict'):

---> 16 return codecs.utf_8_decode(input, errors, True)

17

18 class IncrementalEncoder(codecs.IncrementalEncoder):

**UnicodeDecodeError: 'utf8' codec can't decode bytes in position 96-97: invalid continuation byte**

任何提示如何解决这个问题呢? 在此先感谢。

2017-01-02

sareem

+0

'models/vec-cbow.txt'有多大?可以通过文件共享网站将其包含在问题中?它似乎不是'utf-8'编码的。 –

+0

它是2.25 GB。我没有得到你的意思“可以通过文件共享网站将它包含在问题中?”? –

+0

不是太大了。没有意义。 –

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/437266.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt开发技巧:编写.pro文件,在构建流程中加入命令行的方法

1、在项目构建前执行命令 在项目构建前执行命令cmd存在问题system(cmd)存在执行多次的问题,可以参考message函数的QMake Manual说明 优化后的表达式如下,这样此命令只会在构建前执行一次: !build_pass:system(cmd) 2、在链接前后执行&#x…

【转】C# 命名空间 Namespace (学习心得 23)

命名空间的设计目的是提供一种让一组名称与其他名称分隔开的方式。 超级小白友好,讲解C#基础,每集5分钟轻松学习,拒绝从入门到放弃! 文章目录 一、定义命名空间二、using 关键字三、嵌套命名空间一、定义命名空间 关键字 namesp…

spring boot 对象拷贝工具(Orika)

1.spring 自带拷贝工具 LoginUser user new LoginUser(); // 将data中字段相同的属性拷贝到user中BeanUtils.copyProperties(data , user); 2. 基于Orika的字节码拷贝工具 1) pom <!-- 基于字节码的深拷贝工具类 --><dependency><groupId>ma.glasn…

c++清空输入缓冲区_干货 | C++的输入输出方法

C和C并没有将输入与输出实现在语言中&#xff0c;而是在类库中实现。作为C的超集&#xff0c;C继承了C的输入输出方法。同时将输入与输出视为字流。流充当了程序和流源流目标之间的桥梁。本文将介绍C的输入输出方式&#xff0c;并且浅谈C与C均有的输入输出方式对C有一定学习的同…

【转】c# 命名空间和程序集

命名空间&#xff1a;用于对相关的类型进行逻辑分组&#xff0c;使用命名空间有利于方便定位一个类型 使用类的全权名&#xff1a; System.Text.StringBuilder sb new System.Text.StringBuilder(); 上面的写法很繁琐&#xff0c;使用using语句引入命名空间&#xff1a; usin…

Qt应用程序发布:Qt应用程序添加版本版权生产商等信息

设置方法 在QMake Manual手册中搜索关于QMAKE_TARGET内容可以看到有如下QMake变量&#xff1a; QMAKE_TARGET_COMPANY&#xff1a;用于指定生产商QMAKE_TARGET_DESCRIPTION&#xff1a;用于描述应用程序QMAKE_TARGET_COPYRIGHT&#xff1a;用于声明版权QMAKE_TARGET_PRODUCT&…

SM4前后端数据传输整体加密

1.SM所需包 pom <!--sm加密--><dependency><groupId>org.bouncycastle</groupId><artifactId>bcprov-jdk15on</artifactId><version>1.69</version></dependency><dependency><groupId>com.alibaba</gr…

QWidget::size()和QResizeEvent::size()不一定相同!

问题发现 QGraphicsView中将画布设置为和视图相同大小需要使用e->size()&#xff0c;用this->size()会出现滚动条&#xff01; Qt手册中说&#xff0c; QWidget::size()是窗口大小&#xff08;不包括边框&#xff09;&#xff0c;e->size()是可视区域大小&#xff0…

stl源码剖析_STL源码剖析 阅读笔记(二)allocator

一、空间分配器 allocator从使用上看&#xff0c;空间分配在任何语言的任何组件都不需要我们去过多关心&#xff0c;因为语言、组件的底层肯定都比较完整的做了这件事情。从实现上看&#xff0c;学习 allocator 的原理在源码学习中是首当其冲。因为没有空间分配&#xff0c;则无…

【转】C#中的命名空间namespace全解

.NET Framework 类库提供下列命名空间&#xff1a; 【Microsoft】 Microsoft.CSharp 包含支持用 C# 语言进行编译和代码生成的类。 Microsoft.JScript 包含支持用 JScript 语言进行编译和代码生成的类。 Microsoft.VisualBasic 包含支持用 Visual Basic .NET 语言进行编译和…

easyexcel将对象处理为多列,自增序列

概述 主要记录在开发中遇到的问题&#xff1a;使用easyexcel导出excel&#xff0c;一般数据都是保存在数据库中&#xff0c;如果查询返回的是一个实体类&#xff0c;且里面有嵌套的实体类对象&#xff0c;这时导出的时候要先对查询出的数据进行业务逻辑处理&#xff0c;让它符…

Qt-VS开发:解决VS中使用带有信号槽的导出对象库时,信号槽不工作的问题

解决办法 需要把导出库的头文件加入到调用此动态库的项目中&#xff0c;只加入到搜索目录中是不行的。 加入到项目中后&#xff0c;VS会自动生成moc_xxx.cpp文件&#xff0c;可以在GeneratedFiles/Debug或GeneratedFile/Release中找到&#xff0c;必须有文件才能实现信号槽。

C# 编程规范

一、命名 1.用pascal规则来命名方法和类型. publicclass TextBox { publicvoid DataBind() { } } 2.用camel规则来命名局部变量和方法的参数&#xff0c; string strUserName;public AddUser(string userId, byte[] passWord); (并加前缀 数据类型&#xff0c;可选。)s…

python做excel表格代码_python操作excel表格

我们在写测试用例的时候&#xff0c;是创建一个表格.xlsx&#xff0c;然后把各种条件加到这张表格中去&#xff0c;所以&#xff0c;如何对excel表格操作&#xff0c;是相当重要的一环&#xff0c;那么&#xff0c;接下来&#xff0c;这篇博客就直接教会大家如何通过python去处…

Windows 查看程序ip地址(面对小白)

前言&#xff1a;Windows自带资源管理器可以查看程序的IP地址。下面以微信通话为例&#xff0c;详细步骤如下(面向小白)&#xff1a; 打开任务管理器 打开方法(以下方法都可以)&#xff1a; 键盘按住 【ctrl】 【alt】 【delete】 ,选择【任务管理器】Windows 10 以下系统…

解决Qt graphis-view框架中,上层图元接收hover事件导致底层图元接收不到的问题

问题重现 两个图元&#xff0c;一个在上面&#xff0c;名为item_up&#xff0c;一个在下面&#xff0c;名为item_below。 当item_up->setAcceptHoverEvents(true)时&#xff0c;item_up可以接收到鼠标悬停事件&#xff08;hoverEnter&#xff0c;hoverMove&#xff0c;hove…

【转】C#中相同不同程序集存在相同的命名空间的时候的冲突解决办法

快速解决办法描述描述: 1.将相同命名空间的不同程序集分别进行取别名&#xff1a;【具体操作:右击相同程序的引用&#xff0c;在别名上修改&#xff0c;默认的为global】。 2.调用&#xff1a;在所在调用文件里面最前面写 extern alias 别名&#xff0c;然后using 别名.Names…

chrome webdriver_(最新版)如何正确移除Selenium中的 window.navigator.webdriver

摄影&#xff1a;产品经理产品经理的三文鱼炒饭在《一日一技&#xff1a;如何正确移除Selenium中window.navigator.webdriver的值》一文中&#xff0c;我们介绍了在当时能够正确从Selenium启动的Chrome浏览器中移除window.navigator.webdriver的方法。后来时过境迁&#xff0c;…

【转】2.3async中必须始终返回Task(@Ron.liang)

Asp.Net Core 轻松学-经常使用异步的你,可能需要看看这个文章 目录 前言1. 异常的发生来得太突然2. 问题所在3. 问题的解决方案前言 事情的起因是由于一段简单的数据库连接代码引起&#xff0c;这段代码从语法上看&#xff0c;是没有任何问题&#xff1b;但是就是莫名其妙的报…

Qt事件传递相关问题

事件传递 涉及到深层次窗口结构或者窗口封装时&#xff0c;经常会遇到上层窗口接收不到事件的问题。排除这类问题需要了解窗口间的事件传递过程。 应用程序产生事件时&#xff0c;事件会先派发给父窗口&#xff0c;由父窗口在内部派发给子窗口&#xff0c;子窗口会进一步传递…