unicodeencodeerror latin-1_gbk codec

unicodeencodeerror latin-1_gbk codec最近在搞人工智能的东东,玩了玩词云的东西,在编写代码时,出现了一个问题。目的:统计西游记里出现的词的内容。读取西游记整本小说的内容,然后进行统计分析。代码如下:text=open(‘西游记.txt’).read()但是在执行的时候一直报错:UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x80inposition2:i…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

最近在搞人工智能的东东,玩了玩词云的东西,在编写代码时,出现了一个问题。

目的:统计西游记里出现的词的内容。

读取西游记整本小说的内容,然后进行统计分析。

代码如下:

text = open('西游记.txt').read()

但是在执行的时候一直报错:
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 2: illegal multibyte sequence

分析可能是由于小说里的内容不是标准的gbk的内容导致的。

查看小说内容截图:

在这里插入图片描述

于是乎查找了一番,分析可能是由于小说里还有特殊的符号等内容导致的。

想法:需要进行编码转换。

于是修改代码为,添加了编码范围为utf-8:

text = open('西游记.txt' ,encoding='utf-8').read()

若依然报错,可以添加属性忽略非法字符内容

text = open('西游记.txt', encoding='utf-8', errors='ignore' )

哦了!!问题解决!!成功显示出图如下!!!

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/194510.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 四大主流CA机构_CA机构的作用

    四大主流CA机构_CA机构的作用四大主流CA机构–wosign是唯一支持免费证书的找到免费SSL证书了,刚刚看到他们网站有快捷申请免费SSL证书,很方便,10分钟颁发,试了一下,申请了2个域名,一个颁发很快,另一个稍微有点慢,问他们客服,客户说另外一个域名,涉及到敏感信息,需要两签,所以审核会慢一下,好吧,只要证书好用,等一会也无所谓啦!另外,我是看到微博上面的这个四大主流CA机构证书对比表,才去的申请的哦!…

    2022年10月31日
  • 【建议收藏】MySQL 三万字精华总结 + 面试100 问(一)

    【建议收藏】MySQL 三万字精华总结 + 面试100 问(一)

  • find -name 命令只能查询到当前用户的文件[通俗易懂]

    find -name 命令只能查询到当前用户的文件[通俗易懂]find -name 命令只能查询到当前用户的文件

  • webpack版本问题_webpack查询有没有安装

    webpack版本问题_webpack查询有没有安装卸载后重新安装卸载重新安装卸载#卸载全局npmuninstall-gwebpack-clinpmuninstall-gwebpack#卸载局部npmuninstallwebpack-clinpmuninstallwebpack重新安装npminstall-g–save-devwebpack@version#不指定版本,默认安装最新npminstall-g–save-devwebpack-cli#查看webpack-v#若命令不存在,

  • linux netstat -an命令,linux 命令之netstat[通俗易懂]

    linux netstat -an命令,linux 命令之netstat[通俗易懂]在linux中netstat命令的作用是查看TCP/IP网络当前所开放端口,所对应的本地和外地端口信息。netstat命令的格式netstat[-a][-e][-n][-o][-pProtocol][-r][-s][Interval]各参数选项的含义a显示所有socket,包括正在监听的。-c每隔1秒就重新显示一遍,直到用户中断它。-i显示所有网络接口的信息,格式“netstat-i”…

  • SDN中的LLDP和Openflow协议[通俗易懂]

    SDN中的LLDP和Openflow协议[通俗易懂]OpenFlow交换机把传统网络中,完全由交换机/路由器控制的报文转换为由交换机和控制器来共同完成数据的转发操作,从而实现数据的转发与路由控制的分离。控制器则通过事先规定好的接口操作OpenFlow交换机中的流表,从而达到数据转发的目的。SDN链路发现和拓扑管理主要是控制其利用南向接口的上行通道对底层交换设备上报信息进行统一监控和统计;而策略制定和表项下发则是控制器利用南向接口的下行通道…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号