人工智能在内容安全的应用实践

随着网络强国战略思想、加强网络内容建设等指导思想的推出和强化,内容安全已经成为互联网企业生存和发展的生命线。然而,传统的内容技术已难以满足企业日益增长的安全需求,就拿图像来说,传统的色情识别技术为例,就经常会存在误判、错判、漏判等情况。

基于深度学习模型的图像分类,则可以实现更高的准确率,以及图像、内容文本实时处理。实时图像处理的背后是这样的一个技术架构在支撑:下载集群和并行计算,然后再经过色情模型、暴恐模型、涉政模型、广告模型等判断处理,最后给出结果处理。这一套流程下来,平均时长仅在500ms以内。

 

在文本内容识别上,之前的传统技术存在着:

 变化多:垃圾变种形式多样。

 内容重复率低;规则系统需要及时维护,庞大的规则库才能较好的拦截,人工审核量巨大。

 内容短:1-2句话居多,词汇量少;常规的文本分类模型不适用。

 语义:部分敏感词有多重语义;容易误判正常语境下的内容。

 词序敏感:同样的词在不同词序下会有不同的语义;现有方法无法较好地处理这种问题。

而人工智能技术的应用则可以进行准确实时的文本处理,包括垃圾内容变种智能识别与修正、多重意义上下文短文本垃圾检测、Deep Learning垃圾检测等。其中垃圾内容变种智能识别与修正,能够结合上下文,智能识别同音、拼音、形近、拆字、符号等变形内容。通过事先收录的拼音库、形近字库、拆字库、符号库等字典,找出有变种嫌疑的内容,再结合上下文语境信息,使用Machine Learning技术判断是否变种并进行修正。汉字有几万个,人工收集形近字耗时耗力,而且不全面。通过算法计算汉字的相似度,快速找出所有的形近字,再进行人工确认,保证精准度。

此外,音频处理也是其中的重要影响因素。图像分类技术能够基于不同的语音场景分类,对语音事件进行检测和识别,并且返回文本进行文本过滤。基于以上的功能,谛听安全还做了定制化的模型,根据业务需要,将图像处理分为预处理、模型、策略三阶段。预处理阶段输入图像特征分析或质量分析后,会根据需要进入基础服务阶段或定制服务阶段。模型阶段下,基础分类网络下的数据将根据图像全局特征网略、一般网络、局部特征浅层网略进行模型整合和目标检测,定制分类网络则直接进入目标检测。

谛听帮助用户在语种识别、处理效率、安全标准提升、审核团队运营等方面不断实现能力提升,包括增加或即将增加全球性语种识别;提升直播、短视频的处理效率;密切配合监管部门,不断完善内容安全标准;并且不断优化审核系统、培养审核团队。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码

)">
< <上一篇
下一篇>>