学术论文网

  • 当前位置:主页 > 行业论文 > 实践论文 > 正文>2020年高级经济师农业经济专业论文:随机森林垃圾邮件检测算法

    2020年高级经济师农业经济专业论文:随机森林垃圾邮件检测算法

    发布日期:2020-11-17 13:00 实践论文

      【摘要】提起高级经济师评审论文,许多小伙伴不约而同的说比考试难多了,谁能救救我,环球网校小编为大家分享“2020年高级经济师农业经济专业论文:随机森林垃圾邮件检测算法”,希望对准备申报高级经济师农业经济专业的考生有所帮助,快来和我一起看看吧

      电子邮件是使用率最高的网络应用之一,是人们通过网络交流沟通的重要工具。但是,垃圾邮件作为正常邮件的附属产物,已经严重影响到国家、企业和以及个人之间的网络通讯与安全,甚至造成严重的经济损失。现在,越来越多的学者将分类预测技术应用于垃圾邮件识别,如陈龙等提出了一种基于支持向量机的自适应性分类器,并应用于用于检测垃圾邮件[1]。刘洁等提出基于改进互信息的加权朴素贝叶斯算法以提高垃圾邮件识别的精确度和召回率[2]。本文提出了一种结合SMOTE和随机森林的算法,并应用于垃圾邮件检测,以提高垃圾邮件的识别率。

      垃圾邮件检测数据往往是不平衡数据,即数据集中的正常邮件和垃圾邮件的数量是不均衡的。针对此问题,本文提出了基于合成少数类过采样技术(SMOTE)[3]和随机森林集成学习算法[4]的RF-smote算法。算法主要分两步,首先应用SMOTE算法对少数类别的垃圾邮件样本进行分析和新样本合成,将生成的新样本添加到数据集中,消除正常邮件和垃圾邮件样本数量的不平衡。然后,应用随机森林集成学习算法,进行垃圾邮件识别。

      SMOTE算法步骤如下:1.针对训练数据,采取最邻近算法,计算出垃圾邮件样本数据的K个近邻;2.针对每个垃圾邮件样本,与它K近邻中随机选择一个的样本,进行随机线步,直至生成的新样本个数达到合成比率要求。4.将新合成的样本数据与原数据集合成,产生新的训练集。随机森林是一个包含多个决策树的集成分类器。算法步骤如下:1.从SOMTE算法处理后的平衡训练集中,通过有放回的重取样来获得N个样本作为生成决策树的训练集;2.如果每个样本有M个特征,随机选择m(m

      实验选择UCI数据集合Spambase,该数据集包含58个属性和4601个实例,主要用来研究对垃圾邮件的分类检测。该数据集合是一个不平衡数据集合,包含两个类别:垃圾邮件(1813个实例),正常邮件(2788个实例)。实验评估采用准确率(ACC)、检测率(DR)和精确率(PR)三种方法衡量算法的性能。准确率定义如公式(1),表示正确识别正常邮件和垃圾邮件的实例数与全体实例数的比值。公式1-3中,TP表示垃圾邮件的预测实例数,TN表示正常邮件预测实例数,FP表示正常邮件错误的判定为垃圾邮件的实例数,FN表示垃圾邮件判定为正常邮件的实例数。

      实验基于WEKA[5]平台进行,RF-smote在检测垃圾邮件前对数据集合Spambase中的垃圾邮件样本进行了SMOTE合成,使用的最近邻设置为5,合成率设置为50%,随机森林算法中决策树数目设置为10。RF-smote算法应用的合成数据中,垃圾邮件实例数为2719,正常邮件数为2788,基本变为平衡数据。实验评估采用十折交叉验证进行,实验数据如表1所示。从表1可以看出,本文提出的算法RF-smote在准确率、检测率和精确率性能指标上,均优于未应用SMOTE时的算法RandomForenst(RF).在准确率指标上,RF-smote优于RF0.8%。在检测率指标上,RF-smote优于RF3.8%。同样,在精确率指标上,RF-smote优于RF2.9%。因此,本文提出的算法RF-smote在垃圾邮件检测方面展示出了良好的性能。5结束语本文应用SMOTE算法和随机森林集成学习算法进行垃圾邮件识别,并在Spambase数据集上进行实验,结果表明本文提出的算法性能表现良好。

      [1]陈龙,梁意文,谭成予.基于自适应性分类器的垃圾邮件检测[J].计算机工程,2018,(5):194-200.

      [2]刘洁,王铮,王辉.基于IMI-WNB算法的垃圾邮件过滤技术研究[J].计算机工程,2020,(6):1-7.

      [4]袁梅宇.数据挖掘与机器学习-WEKA应用技术与实践[M].北京:清华大学出版社,2014.

      考生可点击下方下载查看更多关于高级经济师论文的相关参考文档,小编建议大家可提前填写免费预约短信提醒服务,届时我们会及时提醒您2020年各地区高级经济师考试合格证书领取时间通知。

      以上内容是2020年高级经济师农业经济专业论文:随机森林垃圾邮件检测算法,小编为广大考生上传更多2020年高级经济师职称评审参考文档,可点击“免费下载”按钮后进入下载页面。

      应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

      什么时候开始2021年高级经济师备考最合适.pdf305 KB下载数 67下 载

      2020年高级经济师论文过不了?那是你没这样写!.pdf281 KB下载数 126下 载

      建议收藏!2020年高级经济师评审流程全解析.pdf278 KB下载数 83下 载


    网友转发请注明出处转载请保留链接:2020年高级经济师农业经济专业论文:随机森林垃圾邮件检测算法本文链接http://www.yule868.com/a/shijianlunwen/18614.html,谢谢合作!868学术论文网


    上一篇:《深化教育个性化:发达城区提升学生核心素养的实践性循证研究》成果报告会暨2020“静安教   下一篇:湖南省肿瘤医院党建论文再登全国核心期刊


    论主学术论文网 学术论文网专业指导写论文的要点和技巧,指导如何写论文,本科毕业论文,写作大学毕业论文,专为工程类,医学类,教育类,经理类,管理类,会计类,艺术类等原创毕业论文如何写,值得信赖值得靠谱的毕业论文写作网站.
  • 文章总数
  • 2321231访问次数
  • 建站天数
  • XML地图 XML_1地图 备案蜀ICP备16030853号