python取余什么意思_python中取余

python取余什么意思_python中取余首先取响应头里的编码,如果是几种中文编码之一,则认为中文网页,如果不是中文编码,也不是几种unicode方案之一,则不是中文.否则再在标签里找charset,如果有并且为几种中文编码之一,则是中文如果不是中文编码,也不是几种unicode方案之一,则不是中文.否则对body的内容(如果考虑性能问题,可以不对整个body,只对前N个字节)用正则洗标签过滤所有ASCII码字符,剩余部分…

大家好,又见面了,我是你们的朋友全栈君。

首先取响应头里的编码,如果是几种中文编码之一,则认为中文网页,如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则再在标签里找 charset ,如果有并且为几种中文编码之一, 则是中文如果不是中文编码, 也不是几种unicode方案之一, 则不是中文.否则对body的内容(如果考虑性能问题,可以不对整个body,只对前N个字节)用正则洗标签过滤所有ASCII码字符, 剩余部分按字取内码,如果考虑性能问题其实取第一个字符就可以了,如果性能不重要,可以多采样几个(防止一个页面有中文日文等各种文字混合)判断采到的字符的内码是否位于中文unicode区域.如果性能非常不重要, 只是要代码简单, 那么做法可以: 正则 1 这样可以取到第一个不是ASCII的字符, 判断这个字符是否是中文字符就可以了参考代码:#! /usr/bin/env python

# -*- encoding: utf-8 -*-

import requests

import cld2

class Detector(object):

zh_cn_encodes = (‘gbk’, ‘gb2312’, ‘gb18030’)

def __init__(self, context):

self.context = context

def is_zh_cn_encoding(self, ctype):

ctype = ctype.lower()

for ec in self.zh_cn_encodes:

if ec in ctype:

return True

return False

def detect(self):

assert type(self.context) == type(u”), ‘detect unicode string only’

ret = cld2.detect(self.context.encode(‘utf-8’))

return ret[2][0][1] == ‘zh’

def url_detect(self):

r = requests.get(self.context)

assert r.status_code == 200, ‘http code 200 is required’

ctype = r.encoding

if ctype and self.is_zh_cn_encoding(ctype):

return True

else:

self.context = r.text

return self.detect()

if __name__ == ‘__main__’:

print Detector(u’短中文有bug’).detect()

print Detector(u’网页文件一般没问题’).detect()

print Detector(u’これは日本で’).detect()

url = ‘http://segmentfault.com/q/1010000000432652’

print Detector(url).url_detect()

url = ‘https://code.google.com/p/chromium-compact-language-detector/source/browse/README’

print Detector(url).url_detect()

x00-xff ↩

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/129873.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • virsh 关机_KVM virsh常用命令篇「建议收藏」

    virsh 关机_KVM virsh常用命令篇「建议收藏」1、查看运行的虚拟机virshlist2、查看所有的虚拟机(关闭和运行的虚拟机)virshlist–all3、连接虚拟机virshconsole+域名(虚拟机的名称)4、退出虚拟机ctrl+]5、关闭虚拟机5.1、virshshutdown+域名这个时候我在virshlist发现test02这个虚拟机还是在运行的,并没有关闭。我们需要安装一个acpid的服务并启动它,什么是AC…

  • linux 复制文件夹内所有文件到另一个文件夹

    linux 复制文件夹内所有文件到另一个文件夹cp-Rf/home/user1/*/root/temp/将/home/user1目录下的所有东西拷到/root/temp/下而不拷贝user1目录本身。即格式为:cp-Rf原路径/目的路径/

  • jedis连接池:JedisPool[通俗易懂]

    jedis连接池:JedisPool[通俗易懂]jedis连接池:JedisPool使用:1.创建JedisPool连接池对象2.调用方法getResource()方法获取Jedis连接//0.创建一个配置对象JedisPoolConfigconfig=newJedisPoolConfig();config.setMaxTotal(50);config.setMaxIdle(10);//1.创建Jedis连接池对象JedisPooljedisPool=newJe

  • 100道最新Java面试题,常见面试题及答案汇总

    除了掌握扎实的专业技能之外,你还需要一份《Java程序员面试宝典》才能在万千面试者中杀出重围,成功拿下offer。小编特意整理了100道Java面试题,送给大家,希望大家都能顺利通过面试,拿下高薪。赶紧码住吧~~Q1:Java内部类和子类之间有什么区别?答案:内部类是指在一个外部类的内部再定义一个类,内部类对外部类有访问权限,可以访问类中定义的所有变量和方法。子类是从父类(superclass)中继承的类,子类可以访问父类所有public和protected的字段和方法。Q2:Java语言中有哪些

  • 1DCNN理解

    1DCNN理解1DCNN理解其实这更像一个滑动窗口

  • C#中如何使用Parallel.For和Parallel.ForEach[通俗易懂]

    C#中如何使用Parallel.For和Parallel.ForEach[通俗易懂]如何在C#中使用Parallel.For和Parallel.ForEach利用C#中的无锁,线程安全的实现来最大化.NET或.NETCore应用程序的吞吐量。并行是在具有多个内核的系统上并行执行任务的能力。.NETFramework4中引入了对.NET中并行编程的支持。.NET中的并行编程使我们能够更有效地使用系统资源,并具有更好的编程控制能力。本文讨论了如何在.NETCore应用程序中使用并行性。若要使用本文提供的代码示例,您应该在系统中安装VisualStudio2019。在Visu

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号