千万级敏感词过滤设计

千万级敏感词过滤设计需求分析系统有千万级的禁词需要去过滤当中包含人名特殊符号组成的语句网址单字组合成的敏感词等等初步设计 1.解决千万级禁词存储及查找问题 2.解决被过滤文本内容过多问题详细设计 1.采用ES作为禁词库千万级数据检索时间在毫秒级满足需求 2.不适用分词器需要完整匹配分词后很多词都是合法的组合之后才是敏感词 3.被过滤文本内容分词不完整利用IK分词器分词结果不适合现…

大家好,又见面了,我是你们的朋友全栈君。

需求分析

系统有千万级的禁词需要去过滤
当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

	1.解决千万级禁词存储及查找问题
	2.解决被过滤文本内容过多问题

详细设计

	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
	2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
	3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
		只能采用字符串分割的方式来匹配ES库
		带来的问题就是效率低下同步多线程下千字也需要将近4秒
		考虑采用异步模式来解决大数据量需要审核状态
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/138801.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • GPG error 解决方案「建议收藏」

    GPG error 解决方案「建议收藏」错误提示:GPG错误:http://mirrors.163.commaverick-updatesRelease:下列签名无效:BADSIG40976EAF437D05B5UbuntuArchiveAutomaticSigningKey@ubuntu.com>修复方法gp

    2022年10月13日
  • net mvc 设置启动页面「建议收藏」

    net mvc 设置启动页面「建议收藏」在项目的App_Start文件夹下的RouteConfig页面设置publicstaticvoidRegisterRoutes(RouteCollectionroutes){routes.IgnoreRoute(“{resource}.axd/{*pathInfo}”);routes.MapRoute(name:”Default”,url:”{controller}/{action}/{id}”,defaults:new{controller=”Home”,

  • 【温故而知新】C和C++篇外篇:COleVariant类型「建议收藏」

    【温故而知新】C和C++篇外篇:COleVariant类型「建议收藏」今天在做一个windows平台的小工具顺便熟悉一下windows开发的一些基础知识,在这个过程中,发现了

  • android之Random.nextInt(k)陷阱「建议收藏」

    android之Random.nextInt(k)陷阱「建议收藏」API:Returnsapseudo-randomuniformlydistributedintinthehalf-openrange[0,k). 意思就是说,nextInt的取值是0到k-1,不包括k。

  • 基于麦克风阵列的现有声源定位技术有_麦克风阵列

    基于麦克风阵列的现有声源定位技术有_麦克风阵列麦克风阵列:麦克风阵列是由一定数目的声学传感器(麦克风)按照一定规则排列的多麦克风系统,而基于麦克风阵列的声源定位是指用麦克风拾取声音信号,通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或者多个声源的位置信息。麦克风阵列系统的声源定位技术研究意义在于:输入的信息只有两个方向难以确定声源的位置,人类的听觉系统主要取决于头和外耳气压差声波实现声源定位。假使没有这个压力差,只能定位在平面上声源的位置,但就无法知道声音是从前面,或从后面传来的。因此,由人的听觉系统,科技研发人员得到了灵感,使用多个麦克风

  • uboot的作用和功能

    uboot的作用和功能uboot是用来干什么的,有什么作用?uboot属于bootloader的一种,是用来引导启动内核的,它的最终目的就是,从flash中读出内核,放到内存中,启动内核所以,由上面描述的,就知道,UBOOT需要具有读写flash的能力。uboot是怎样引导启动内核的?uboot刚开始被放到flash中,板子上电后,会自动把其中的一部分代码拷到内存中执行,这部分代码负责把剩余的uboo…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号