
用户生成内容规模庞大,需要在内容写入时即时完成分类审核,传统后处理方案时效性差,难以满足实时拦截要求。
涉黄涉恐等违规内容通过谐音、拼音、近义词等方式变体绕过,传统精确关键词匹配召回率低、误判率高。
负面舆情一旦发酵可能在数小时内扩散全网,需要快速发现、精准分类、及时响应。
舆情分析涉及内容来源、情感倾向、数值指标(如评分、转发量)等多维度分析,分析场景复杂多样。
Easysearch 规则引擎(Rules 插件)基于高性能 C++ 规则引擎,支持在数据写入时通过 Ingest Pipeline 自动匹配规则库,将命中的规则描述作为标签写入文档的 tags 字段,实现内容的实时分类与标注。规则语法支持 AND/OR/NOT 逻辑组合、字段限定、near 距离匹配、正则表达式和数值范围匹配,可精准描述复杂的内容安全规则,有效应对变体绕过手段。
数据写入时通过 Ingest Pipeline 自动触发规则匹配,无需后处理,实现内容实时分类。
一条内容可同时命中多个规则,所有命中标签保留到 tags 数组,支持多维度内容分类。
支持 AND/OR/NOT、near 距离匹配、正则表达式、数值范围等,精准描述复杂内容安全规则。
支持规则库实时更新并自动广播编译到集群所有节点,规则变更即时生效。
数据写入时自动完成规则匹配和标签标注,实现内容实时分类,大幅缩短违规内容的发现和处置时间。
near 距离匹配和正则表达式有效应对变体绕过手段,结合 NOT 排除干扰词,提升识别精准度和召回率。
数值范围匹配支持对评分、转发量等指标的规则化监控,聚合分析能力支撑舆情趋势和情感分布统计。
规则库支持动态更新、版本管理,快速响应监管要求和新型违规内容,降低内容安全运营成本。