python 匹配文本全角转半角字符「建议收藏」

python 匹配文本全角转半角字符「建议收藏」在对文本进行处理的时候经常会遇见要对括号和标点进行匹配常见的英文(半角)符号如()直接用正则匹配即可但是遇见全角字符(中文括号、标点),直接用正则匹配会存在问题:因为编码通常为为utf8,若直接匹配,中文括号的3字节编码会和一些中文的字节编码重复,产生意想不到的结果若用decode转为unicode编码,则可避免产生错误结果,但也无法直接用正则匹配到经过试验,发现一个看上去

大家好,又见面了,我是你们的朋友全栈君。

在对文本进行处理的时候经常会遇见要对括号和标点进行匹配

常见的英文(半角)符号如( ) 直接用正则匹配即可

但是遇见全角字符(中文括号、标点),直接用正则匹配会存在问题:

因为编码通常为为utf8,若直接匹配,中文括号的3字节编码会和一些中文的字节编码重复,产生意想不到的结果

若用decode转为unicode编码,则可避免产生错误结果,但也无法直接用正则匹配到

经过试验,发现一个看上去最佳的解决方法:

将字符串decode之后调用一个将全角符号转为半角符号的方法,然后处理返回的字符串

def strQ2B(ustring):    """全角转半角"""    rstring = ""    for uchar in ustring:        inside_code=ord(uchar)        if inside_code == 12288:                              #全角空格直接转换            inside_code = 32        elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化            inside_code -= 65248        rstring += unichr(inside_code)    return rstringdef p(s):    s1 = strQ2B(s.decode())    p = re.compile('[()]',re.S)    s1 = p.sub('',s1)    return s1

这种方法本质上就是将正则的pattern字符和目标的编码对应, 所以将正则的字符串也用unicode表示就好可以:如下

#!/usr/bin/env python#-*- coding: utf-8 -*-import sysreload(sys)sys.setdefaultencoding('utf8')import reif __name__ == '__main__':    s = '123(45)a啊速度(伤害)有限公司'    ss = re.sub(u'[()()]', '', s.decode())    print ss

总的来说 两种方法都还是有必要存在的。

第二种方法简单直接 如果能快速方便列出所有形式的待匹配符号,就果断选用第二个

反之,若待匹配的各种符号太多太繁琐,就统一转为半角再处理更好

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/159998.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • systick的使用方法_cleardevice函数

    systick的使用方法_cleardevice函数systick的原理前一篇博文有介绍,简而言之就是SysTick定时器是一个24位的倒计数,当倒计数为0时,将从RELOAD寄存器中取值作为定时器的初始值,同时可以选择在这个时候产生中断(异常号:15

  • cefsharp设置cookie,CefSharp如何存储Cookie

    cefsharp设置cookie,CefSharp如何存储CookieIcan’tgetcookiestosaveinCefSharp.HereiswhatItried:CefSettingssettings=newCefSettings();stringpath=Environment.GetFolderPath(Environment.SpecialFolder.Desktop);Cef.Initialize(newCefS…

  • XSD文件结构详解「建议收藏」

    XSD文件结构详解「建议收藏」XSD(xmlSchemaDefinition)XmlSchema的用途1.  定义一个Xml文档中都有什么元素2.  定义一个Xml文档中都会有什么属性3.  定义某个节点的都有什么样的子节点,可以有多少个子节点,子节点出现的顺序4.  定义元素或者属性的数据类型5.  定义元素或者属性的默认值或者固定值XmlSchema的根元素:&lt;?xmlversion="1.0"?&gt;…

    2022年10月25日
  • 414aa[通俗易懂]

    414aa[通俗易懂]m=eval(input())ifm==1:print(“11”)elifm==2:print(“22”)elifm==3:print(“33”)else:print(“4444”)

  • POJO简介

    POJO简介POJO 一:什么是POJOPOJO的名称有多种,pureoldjavaobject、plainordinaryjavaobject等。按照MartinFowler的解释是“PlainOldJavaObject”,从字面上翻译为“纯洁老式的java对象”,但大家都使用“简单java对象”来称呼它。POJO的内在含义是指那些没有从任何类继承、也没有实现任何接口,更没有被其它框…

  • win10怎么完全卸载sql2012_软件卸载了数据还在吗

    win10怎么完全卸载sql2012_软件卸载了数据还在吗怎样才能将SQL Server2012彻底的卸载干净?因为安装目录加上实例目录加上就有10G,由于一些实例目录默认在系统C盘,占据了很大的一部分,又担心怕删除了重要的文件,又担心卸载删除不干净,会导致下一次的安装不成功。以下是彻底删除SQLServer的步骤:第一步,在控制面板里面找到程序——卸载程序这一项,打开之后就会是这样的了 第二步,经过第一步打开卸载程序后,在里面找到Microso…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号