unicodeencodeerror latin-1_gbk codec

全栈程序员-用户IM • 2022年9月12日下午8:36 • 未分类

unicodeencodeerror latin-1_gbk codec最近在搞人工智能的东东，玩了玩词云的东西，在编写代码时，出现了一个问题。目的：统计西游记里出现的词的内容。读取西游记整本小说的内容，然后进行统计分析。代码如下：text=open(‘西游记.txt’）.read()但是在执行的时候一直报错：UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x80inposition2:i…

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

最近在搞人工智能的东东，玩了玩词云的东西，在编写代码时，出现了一个问题。

目的：统计西游记里出现的词的内容。

读取西游记整本小说的内容，然后进行统计分析。

代码如下：

text = open('西游记.txt'）.read()

但是在执行的时候一直报错：
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 2: illegal multibyte sequence

分析可能是由于小说里的内容不是标准的gbk的内容导致的。

查看小说内容截图：

在这里插入图片描述

于是乎查找了一番，分析可能是由于小说里还有特殊的符号等内容导致的。

想法：需要进行编码转换。

于是修改代码为,添加了编码范围为utf-8：

text = open('西游记.txt' ，encoding='utf-8'）.read()

若依然报错，可以添加属性忽略非法字符内容

text = open('西游记.txt', encoding='utf-8', errors='ignore' )

哦了！！问题解决！！成功显示出图如下！！！

在这里插入图片描述

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/194510.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

IE6下margin双倍边距Bug的处理办法转

IE6下margin双倍边距Bug的处理办法转

全栈程序员-用户IM
2021年8月9日
c# HJ212协议组包

c# HJ212协议组包c#关于HJ212协议组包今天突然想起好久没有登过博客了又将近两年没有更新怪我太懒散了。。。工作中学习到的很多但也很容易忘记用过的东西某天可能想再用的时候却想不起来了或者找不到了只能挠头~~好了进入正题我在工作中关于HJ212协议这块用到的还是很多的今天来写一写在c#中HJ212协议如何组包以及有了报文内容如何转换为完整报文：先放一张转换为完整报文的成果图：以下为实际代码：publicpartialclassForm1:Form

全栈程序员-用户IM
2022年7月25日
VCL组件之编辑控件「建议收藏」

VCL组件之编辑控件「建议收藏」Note以后将用两种方式提及组件，以组件的名称或定义组件的VCL类的名称。可以说“Label组件用于……”或说“TLabel用于……”，这两种方式谈到的是同一组件。编辑控件（EditContro

全栈程序员-用户IM
2022年7月3日
正則表達式匹配号码

正則表達式匹配号码

全栈程序员-用户IM
2022年2月4日
MATLAB绘制折线图和散点图[通俗易懂]

MATLAB绘制折线图和散点图[通俗易懂]来记录一个比较基础的折线图：>>a=[1.3,-0.1,-0.3,0.4,0.1,-0.4,0.2,0.3,0.2,0.3,-0.1,0.5];>>x=1:1:12；%第一个数是起始，最后一个数是最后一个数据，第二个数是间隔>>plot(x,a,’-*’)%先x轴后y轴，第三个是点的形状…

全栈程序员-用户IM
2022年6月6日
深入编程之QQ盗号核心代码[通俗易懂]

深入编程之QQ盗号核心代码[通俗易懂]经常有听到有朋友QQ被盗的消息，总感觉做出这种行为的人是可鄙的，不就是对QQ窗口进行监视，然后再是记录用户输入的号码和密码，认为没什么了不起。对于Windows核心编程，本人还是一只菜鸟，前一段时间把《Windows系统编程》粗略的看一边（当然重点地方仔细的看），由于对于C++有点基础，感觉学起来比较容易上手。但到了这两天真正实践的时候，遇到了各种各样的问题。即使一个小小的问题都足以让我…

全栈程序员-用户IM
2022年6月26日

发表回复

关注全栈程序员社区公众号