基于内容的Web不良文本信息过滤技术研究

您所在的位置:网站首页 信息过滤技术 基于内容的Web不良文本信息过滤技术研究

基于内容的Web不良文本信息过滤技术研究

2024-07-10 15:39| 来源: 网络整理| 查看: 265

来自 万方  喜欢 0

阅读量:

120

作者:

令晓卓

展开

摘要:

Internet是新兴的信息发布和流通媒体,其中文本信息占整个互联网信息总量的60%,由于缺乏类似于传统媒体一样对信息发布的监控手段,大量没有受到监控和控制的网络不良文本信息随之泛滥.如何过滤网络中的不良文本信息,保障互联网的信息安全,是当前网络不良信息过滤研究的热点和富有挑战性的研究课题.本文针对目前网络不良文本的信息过滤技术存在不足,主要开展了如下研究:(1)针对网页文本的文本表达虽然可以使用传统(普通)文本的表达方法,但是它并不完全等同于传统文本等问题,分析研究了现有的Web网页正文预处理的相关技术与算法.(2)针对现有分词技术存在分词歧义性问题,研究了现有的基于字同现频率的文本主题抽取算法在不良文本信息过滤的应用.该算法根据关键词在主题的分布情况,以及在非主题中的分布情况分别给予关键词不同大小的权重,从而实现有针对性的过滤,即该算法在色情文本过滤应用中具有很高的精度.(3)针对现有的基于字同现频率的文本主题抽取算法存在误判率高问题,提出了基于临近类别分类的过滤方法.该方法对文本主题抽取算法过滤的结果进行二次过滤,有效提高了过滤的精度.(4)基于临近类别分类的原理方法,提出了一个基于内容的临近类别分类的过滤模型.该模型对主题抽取的过滤结果进行分类处理,进一步判断该信息是不良信息还是近似信息,以确保信息分类的高精度.(5)针对现有文本过滤算法的不足,改进了传统的KNN,Bayes算法,有效提高了不良文本信息过滤的精度.(6)依据东北大学自然语言实验室开放的CN数据库的文本样本,对本文的算法和现有算法进行了实验比对.

展开

关键词:

网络不良文本 信息过滤 主题抽取 临近类别

学位级别:

硕士

学位年度:

2011

DOI:

10.7666/d.y2118212



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3