大家好,又见面了,我是你们的朋友全栈君。
最近在进行关键词的分析,中间涉及到对一些特殊的字符进行过滤的需求。包括带符号的(有部分还是SQL注入),并且存在一部分乱码的问题。梳理下来供后续使用。
检测字符串是否包含特殊符号
方案一:通过字符匹配的方式进行判定
def if_contain_symbol(keyword):
symbols = "~!@#$%^&*()_+-*/<>,.[]\/"
for symbol in symbols:
if symbol in keyword:
return True
else:
return False
方案二:使用正则表达式判断(经测试\W在包含中文的情况下可用)
import re
def if_contain_symbol(keyword):
if re.search(r"\W", keyword):
return True
else:
return False
检测字符串中是否有乱码
人眼能识别的乱码在程序看来并没有想象中那么简单。针对程序来说“涓囧厓锛屾厛锽勬崘鐚”本身也是正常的字符。下面分享下一些折中的方案:
方案一:对分词后的分词率进行统计
从概率层面,正常的文本分词率(文本长度/分词后个数)>2,而乱码字符则接近1。
具体代码如下:
''' 遇到问题没人解答?小编创建了一个Python学习交流QQ群:579817333 寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书! '''
# -*- encoding:utf-8 -*-
import jieba
def if_contain_chaos(keyword):
str_len = len(keyword)
seg_len = len(jieba.lcut(keyword))
if str_len / seg_len < 2:
return True
else:
return False
存在的问题,如果字符串内存在英文,则此方法的可用性不高,特别是关键词长度非常小的场景。
方案二:通过是否包含生僻字的方法进行判断
1980年的GB2312一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。这6763个汉字在Unicode中不是连续的,分布在CJK统一汉字字符区(0x4E00-0x9FA5)的20902个汉字中。
对于直接将生僻字定义为非GB2312内字符。由于GB2312的字符不是连续的,所以不能直接使用正则表达式的方式进行限定。而我们的方案是通过将字符串的unicode转化为GB2312来判断是否含有生僻字。即当转化发生异常即为包含生僻字。
def if_contain_chaos(keyword):
try:
keyword.encode("gb2312")
except UnicodeEncodeError:
return True
return False
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/136813.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...