Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Java基础相关 >

云计算中垃圾邮件识别的机器学习算法 PDF 下载


分享到:
时间:2020-06-24 15:19来源:http://www.java1234.com 作者:小锋  侵权举报
云计算中垃圾邮件识别的机器学习算法 PDF 下载
失效链接处理
云计算中垃圾邮件识别的机器学习算法 PDF 下载

本站整理下载:
 
相关截图:
 
主要内容:

垃圾邮件是移动网络中最常见的攻击形式之一[1]。
垃圾邮件发送者通过伪装成普通用户来发送垃圾邮件[2]。
垃圾邮件造成的一个严重问题是,导致带有病毒的链接
被错误地选择,进而用户的个人信息被窃取[3]。现有文献
已经讨论了屏蔽垃圾邮件的解决方案[4-6]。其中,基于机
器学习的分类是将数据样本映射到两个类的学习过程,
但是它有局限性:(1)数据不平衡,未标记的数据比标记的
数据要大得多,这阻碍了直接的模型构造[7];(2)数据维数
较大,太多的特性会导致过度拟合。因此,智能特征选择
尤为重要[8]。
本文研究了移动网络中垃圾邮件发送者和普通用户
的特征。在此基础上,提出并开发了基于高斯混合模型
(SIGMM)的垃圾邮件识别模型。对SIGMM识别垃圾邮
件的性能进行了仿真,将其与现实挖掘算法(RMA)和混
合FCM聚类算法(HFCM)进行了比较,并应用于移动数
据进行了垃圾邮件识别,验证了所提算法的有效性。 2 垃圾邮件数据
为了学习数据结构和规则,由于对原始数据的访问
有限,本文在移动网络中提取任何可用的原始数据后对
数据进行预处理。恶意节点相互通信,垃圾邮件发送者
隐藏在其中,如图1所示。 2.1 数据描述
本文的数据包含以下内容:用户ID、与其他用户的关
系、时间戳的日志记录以及过去三个月的活动。从日志
记录中,本文计算了使用URL或@的频率和比例以及用
户日志之间的平均相似性。活动反映帐户是否正常,它
88
万方数据
辨识建模与仿真 《自动化技术与应用》 2020 年第 39 卷第 5 期
Identification Modeling and Simulation
Techniques of Automation & Applications
6普通用户
■■,
垃圾邮件
l 发送者
圆行为数据
表示跟踪其他人的频率,这是因为垃圾邮件发送者总是
跟踪其他人。 图1 移动云计算中的垃圾邮件发送者
2.2 特征扩展
本文得到的数据有以下两个约束条件:(1)标记数据
远小于未标记数据,严重降低了训练精度。(2)存在较大
的数据噪声,可能导致模型参数不正确。不属于任何类
的数据点定义为数据噪声。有些数据的值可能与样本的
平均值有很大差异。SIGMM通过计算用户之间的相似
度来降低数据噪声,从而提高训练的精度。
为了消除大数据集中的数据噪声,首先根据描述用
户行为的向量计算相似度。相似度测量通常与距离有
关。常用的方法是基于欧氏距离和余弦距离。余弦方法
使用向量角来表示两个数据对象之间的距离。欧氏距离
法计算空间中数据对象之间的绝对距离。如果任意扩展
向量的模,欧氏距离对差值较为敏感,而余弦距离不会检
测到任何变化。因此,本文选取欧氏距离计算相似度。
为了准确地学习模型参数,本文使用皮尔逊相关系
数和主成分分析(PCA)来表征特征。Pearson相关系数用
于得到两个变量 x 和 y 之间的线性相关系数,取值范围
为+1到-1,其中+1为正线性相关,0为无线性相关,-1为
负线性相关。Pearson相关系数为: (1)
其中,Cov(x,y)是变量x和y的协方差,σx和σy分别 是x和y的标准差。两个n维向量之间的相关系数为

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐