基于行为与时间特征的垃圾邮件检测方法 - 范文中心

基于行为与时间特征的垃圾邮件检测方法

11/19

第14卷第5期

解放军理工大学学报(自然科学版)

V01.14No.5

2013年10月

Journalof

PLAUniversityofScienceand

Technology(NaturalScienceFAkion)

Oct.2013

基于行为与时间特征的垃圾邮件检测方法

邵叶秦

1.2

施俭

(1.南通大学现代教育技术中心,江苏南通226019;2.上海交通大学电信学院,上海200240)

摘要:垃圾邮件数量庞大、伪装形式多种多样,给反垃圾邮件带来了巨大的挑战。提出了一个基于行为和时间特征的垃圾邮件检测方法。根据邮件收发记录分析基于社会网络的行为特征和基于邮件发送间隔的时间特征,采用步进式判别分析方法,选择具有较强判别能力的行为特征,形成特征子空间,将训练样本投影到

特征子空间。使用带标签的训练样本训练支持向量机SVM,形成邮件决策信息,以此检测出垃圾邮件。利用最近3年真实邮件数据,从不同的角度进行了对比实验。结果证明,提出的行为与时间特征能有效提升垃圾邮件检测的准确率和查全率,其整体性能优于其他的基于行为的垃圾邮件检测方法。

关键词:社会网络;垃圾邮件;特征选择;支持向量机

中图分类号:TP309

文献标识码:A

DOI:10.3969/j.issn.1009-3443.2013.04.090

Methodforemailspamdetectionbased

on

behavioralandtemporalfeatures

SHAOYeqinl”,SHIQuartl

(1.CenterofModernEducationalTechnology,NantongUniversity,Nantong226019,China)

2.SchoolofElectronicInformationandElectrical

Engineering,ShanghaiJiao

Tong

University,Shanghai200240,China)

Abstract:Thelargenumberofemailspamandtheirvariouscounterfeitsposea

greatchallengetoanti—

spam.Anemailsparedetectionmethodwasproposedbasedon

behavioralandtemporalfeatures.Accord—

ing

to

theemails’sendingandreceivingrecords,behavioralfeatureswereanalyzedbased

on

emailsocial

networkand

temporalfeatureanalyzedbased

on

emaildeliveryinterval.Then,astepwisediscriminant

a—

nalysiswasemployedto

selectdiscriminativefeaturesto

form

featuresub-spacewherealltrainingsam—

pleswereprojectedintothisfeaturesub—space.Finally,those

projected

trainingsampleswithlabelswere

used

to

trainthesupport

vectormachine(SVM)classifier,and

decisioncriteriaweregenerated

SO

asto

i—

dentifyemailspam.Based

on

tealemaildatainrecent

3years,comparativeexperimentswereperformed

to

evaluatetheeffectivenessofthefeaturesandperformanceoftheproposedmethod.Experimentalresultsshowthatthebehavioralandtemporalfeaturesproposedinthispaper

can

significantlyincreasethe

accura—

cyandrecallofspamdetection,andthattheoverallperformanceofthismethodissuperiortothatofother

emailspamdetectionmethodswhich

are

based

on

behavioralfeatures.

Keywords:socialnetwork;emailspam;featureselection;support

vector

machine

电子邮件作为一种低廉、快捷的通信方式得到网络带宽和服务器资源,而且易散播虚假信息,甚至

了人们的广泛使用。然而,垃圾邮件的泛滥严重影传播恶意软件和病毒,攻击用户计算机。因此,垃圾响人们的工作和生活,它不仅浪费用户的时间,占用

邮件检测一直吸引着国内外众多学者的研究兴趣。

收稿日期:2013—04-09

基金项目:国家自然科学基金资助项目(61171132);江苏省自然科学基金资助项目(BK2010280);南通市应用研究计划资助项目

(BK2011003,BK2012034,BK2012001);南京市科技平台计划资助项目(CP2013001)作者简介:邵叶秦,博士生,实验师。主要研究网络安全,hnsyk(鸯163.com通讯作者:施俭,教授,主要从事智能信息处理、社会网络分析.sqt园ntu.edu.cn

第5期

邵叶秦,等:基于行为与时间特征的垃圾邮件检测方法

495

目前,常用的检测技术有3类,第一类是基于黑白名单检测技术,该技术通过对比邮件和黑、白名单完成垃圾邮件的检测。由于垃圾邮件发送者可以申请不同的邮箱来躲避检测,所以黑自名单技术有很

大的局限性,一般作为辅助方法。第二类是基于内容的检测技术,该技术是利用文本分类技术,识别垃圾邮件。W.Cohen[妇利用RIPPER算法,通过学习

训练集中的合法邮件,得到可信规则集,通过垃圾邮件的学习,对可信规则集加以约束,然后利用可信规则检测垃圾邮件。LAI等[23采用数据挖掘的方法生成规则,并通过测试的方式,保留有效规则,确保邮

件过滤的效果。高良诚等口]基于多种规则实现对邮件的检测。曾小宁等“]结合IP信誉评分和过滤规则检测垃圾邮件。WANGE5]采用集成学习的方法,将多种贝叶斯分类器组合起来,提高算法的性能。

CHI等[61利用汉字的形状特点,采用支持向量机来检测中文邮件。Z.R.Abu等[7]把遗传算法和人工免疫系统相结合,检测垃圾邮件。基于内容的检测

技术需要分析邮件内容,但目前垃圾邮件一般都采用伪装技术,有的直接以图片的形式出现,这给基于内容的检测带来了挑战。第三类是基于行为的检测技术。该技术通过分析行为特征,实现垃圾邮件的

检测。S.Naksomboon等[9]结合关键字信息和发件人的行为特征检测垃圾邮件。P.Hayati等[10]通过分析邮件机器人的行为特征检测垃圾邮件。P.

Cortez等[11]分析网络协议中网络层的一些属性来确定行为特性,检测垃圾邮件。邓国强等[12]通过统计邮件通信过程中的报文,分析垃圾邮件的行为模

式。王美珍[13]通过挖掘垃圾邮件数据的行为规则完成邮件分类。这些方法虽然能较好地检测垃圾邮件,但由于垃圾邮件传播渠道丰富,内容形式多样,数量急剧膨胀,给垃圾邮件检测,尤其是检测的准确

率,提出了巨大挑战。

因此,为了准确地检测垃圾邮件,本文根据垃圾邮件收发过程中的行为特征,提出了一个基于行为与时间特征的垃圾邮件检测方法。

1基于行为和时间特征的垃圾邮件检测

1.1问题定义和系统框架

假设{M。)为一个邮件集合,{S。}为这些邮件的发送者,(L;}为这些邮件发送者的标签(i一1,2,…,N),它们取值为1和0,分别表示垃圾邮件制造者和正常用户。每个邮件发送者S;对应一个描述其特点的志维特征向量。如果用S∈R‘表示

邮件发送者的集合,这里就需要找到一个映射厂:S一{0,1),使其准确、唯一地标记每个邮件发件人。若邮件由垃圾邮件发送者发出,即为垃圾邮件;若邮件是由正常用户发出,即为正常邮件。邮件检测的

处理流程如图1所示。

图1本文方法的处理流程

Fig.1

Procedureof

our

method

基于行为和时间特征的垃圾邮件检测首先根据

现有邮件的收发记录,提取邮件实体(邮件地址)和关系(邮件收发关系)构建邮件社会网络。利用邮件收发过程中垃圾邮件制造者和正常用户表现的特性,基于邮件社会网络和邮件发送时间分析每个电

子邮件地址的行为特征。其次,利用步进式判别分析方法,选择具有较强判别能力的行为特征,形成特征子空间,将训练样本投影到该特征子空间。再次,利用带标签的训练样本,有监督的训练支持向量机[15](support

vector

machine,SVM),学习最优分

类面,形成邮件决策信息并保存在数据库中。当新邮件到达时,首先提取新邮件的相应特征(收件人等信息),对比已有的决策信息进行邮件分类,检测出

垃圾邮件,保留正常邮件。同时,利用新邮件的信息更新已有训练集上与收件人和发件人相关的统计信

息,定期训练分类器并更新决策信息,使算法具有适

应能力。

1.2基于社会网络的行为特征

邮件社会网络是通过提取邮件记录中实体和关系来构建的。这里用一个加权有向图G(V,E)来表示,其中,V代表节点的集合,E代表边的集合,口。、口,是图中任意2个节点,代表2个邮件地址,P;i

代表图中一条从u。指向口i的边。如果邮件地址A

向邮件地址B发送了一个邮件,邮件社会网络中就会有一条从A指向B的边,A向B发送的所有邮件的数量代表边的权重。

一般来说,垃圾邮件制造者会发送大量垃圾邮件给其他用户,而其他用户不会回复此类邮件。相比之下,正常用户不仅会向其他用户发送邮件,也会

接受到其他用户的邮件。从社会网络的角度,正常

496

解放军理工大学学报(自然科学版)

第14卷

用户对应的节点既有出边,又有人边,也会有双向的边;垃圾邮件制造者一般只有出边,如图2所示。

人的通信越频繁。通常,正常用户的出边平均权重是一个随机值,而垃圾邮件制造者的出边平均权重

基本上为1。

人度代表了向口发送邮件的邮箱数量。人度越大,表示主动和口通信的人越多。通常情况下,正常

涨一

(a)正常的用户

(b)垃圾邮件制造者

用户都会收到同事、朋友等的邮件,而垃圾邮件制造者发送的是垃圾信息,基本不会有人主动向其发送邮件或回复邮件。

回复比例代表了u和其他用户间通信的交互活

跃程度。回复比例越大表示相互通信越活跃。通常,在正常用户问的通信是有交互的,回复比例一般

图2

Fig.2

Egocentric社会网络示例

IllustrationofEgocentricsocialnetwork

Egocentric(自我中心)社会网络指环绕在自我周围的社会网络,它既包括自我与他人的直接联结,

会保持在某个水平,而垃圾邮件制造者发出的邮件一般是没有回复的,回复比例几乎为0。

也包括这些与自我联结的他人之间的联结。假设用G。(U,E。)表示一个以节点v为中心的Egocentric网络,U代表和口直接相连的节点集合,E。代表它

们和口相连的边。本文主要分析一跳Egocentric网络的特征。限于篇幅,这里主要针对以下6个特征进行描述。如表1所示。

表1基于Egocentric社会网络的行为特征

Tab.1

Behavioralfeaturesbasedwork

on

所在IP地址的出边总权重代表了在发送者所在的IP地址上通过不同的邮箱地址发出的邮件数量。由于垃圾邮件制造者为了逃避检测,会不断

更换邮箱地址来发送垃圾邮件,典型的情况是每次都随机产生一个邮箱地址,但用于发送邮件的IP地址在一段时间内是不变的,和邮箱地址的出

度类似,该特征也能很好地区分正常用户和垃圾

邮件制造者。

Egocentricsocialnet-

邮箱对所在IP地址的占用率代表了邮件地址

与所在的IP地址的出度比值。由于垃圾邮件制造

者会不断更换邮箱地址来发送垃圾邮件,故垃圾邮

件地址的出度接近1,而用于发送邮件的IP地址在一段时间内不变,IP地址的出度较大,它们的比值很小。相比之下,正常的邮件地址是通过一般的IP

地址发送出来的,从邮件记录来看,通常情况下每个IP地址对应相对固定的邮件地址,每个邮件地址也在相对固定的IP地址上使用。因此,邮件地址与所

在的IP地址的出度比值比较大,如图3(d)所示。邮箱对所在IP地址的占用率可定义如下:

定义1邮箱对所在IP地址的占用率:F。砸=out。/out咖,其中,

f=1,…,H

out。

=I

V砖

I,out咖

≥:IV疆J,它们分别代表邮件地址和其所在的IP

地址发送的邮件数量,V砖代表节点i在IP地址k

出度代表了接收到口主动发送邮件的邮箱数量。出度越大,表示口和越多的人通信。通常,一段时间内接受到正常用户主动发送邮件的用户不会太多,从图3(a)可以看出,正常用户的出度在一定的范围内。而圾邮件制造者为了达到自己的目的,需要向尽量多的人发送邮件,出度一般都比较大。

出边的平均权重代表了口向其他邮箱主动发送的平均邮件数量。权重的平均值越大,表示口和他

上发送的邮件数。对于不断更换地址的垃圾邮件制造者,F。;。值基本趋向于0;对于正常的邮件地址,Fm.j。值分布的相对比较均匀。

本文根据上述主要特征来区分正常用户和垃圾邮件制造者,这些行为特征的累计分布如图3所示。

从图3(a)可以看出,正常用户的出度一般都不是很大,且有明显的上限;而垃圾邮件制造者的出度相对较大,有的垃圾邮件制造者出度甚至很大。

第5期邵叶秦,等:基于行为与时间特征的垃圾邮件检测方法

497

从图3(b)可以看出,对于所在IP地址的出边

权重来说,正常用户都较小,而差不多50%以上的垃圾邮件制造者的这个特征值都大于正常用户的上限。因此,这个特征能很好地区分正常用户和垃圾

邮件制造者。

从图3(c)可以看出,垃圾邮件制造者的回复比例基本上为o%,而不少正常用户的回复比例在90%以上。

出度

(a)出度的累积分布

从图3(d)中,90%以上垃圾邮件制造者的邮箱对所在IP地址的占用率几乎为0(如前面所说的,它们的出度很小,而所在IP地址的出度很大),而且

累积概率分布收敛很快,说明邮箱对所在IP地址的占用率大的垃圾邮件制造者很少。相比之下,邮箱对所在IP地址的占用率为0的正常用户非常少。上述实际的数据说明了这些特征能有效地区分正常

用户和垃圾邮件制造者。

1.3基于邮件发送间隔的时间特征

100200300400500600700

8009001000

所在m地址的出边总权重

(b)所在IP地址的出边权重的累积分布

垃圾邮件制造者为了将垃圾信息尽可能多地传

递给不同的人,需要不断向不同的邮件地址发送垃

圾邮件,因此其发送邮件的时间会呈现一定的规律。

相比之下,正常用户发送邮件呈现随机性。为了表

示这种基于时间的行为特征,这里通过计算发件人的相邻两个邮件的发送间隔,来统计相邻邮件的发送时间间隔分布直方图,如图4所示。垃圾邮件制

造者的绝大多数邮件是在很短的时间间隔内发送

的,其分布在较小时间间隔区间中取值较大,其它时

间间隔区间中取值较小,而正常用户的相邻邮件发

回复比例

(c)回复比例的累积分布

送时间间隔则随机分散在横坐标上。

10

15

20

25

30

35

40

45

50

邮箱对所在lP地址的占用率

(d)邮箱对所在m地址的占用率的累积分布

Fig.4

相邻2个邮件的发送时间间隔(5rain)

图4相邻邮件的发送时间间隔分布直方图

Histogramofsendingtimeintervalsofadjacentemails

图3基于社会网络的正常用户和垃圾邮件制造者的行为

特征

Fig.3

Cumulativeprobabilitydistributionofbehaviorallea-

tures

oflegitimateemail

users

andspammersbased

信息论中的熵是对不确定性的测量,可以用来衡量垃圾邮件发送间隔分布的不均衡性。下面使用

on

socialnetwork

498

解放军理工大学学报(自然科学版)

第14卷

邮件发送间隔分布的熵来定义时间特征F。。

定义2基于邮件发送间隔的时间特征F.:设邮件地址i在一段时间内发送的邮件依次为m¨

(.『一1,2,…,竹),相应的发送时间为tⅢ,相邻邮件发送的时间间隔为d¨----t¨+l—t研,根据发送的时间间隔,得到其分布直方图。P。一P(z—k)表示发

送时间间隔是k的邮件占总发送邮件的比例。根据熵的定义,基于邮件发送间隔分布P。的时间特征

F。可表示为F。=一≥:P。In(p。)。对于垃圾邮件

制造者,由于其分布不均匀,F,的值相对较小,而对

于正常用户,F。的值相对较大。

2特征选择和邮件分类

在计算得到每个邮件地址的特征后,首先,考虑到模型简单性、精确度以及算法的效率问题,本文方法采用了步进式判别分析方法,在传统判别

分析的基础上,利用总体样本的方差与组内样本的方差之和组成评价标准,通过对比特征选择前、后定义的评价标准是否显著变化来衡量特征的判

别能力。每次选择判别能力强的特征,淘汰判别能力弱的特征,逐步得到数量不多但具有较强判别能力的特征。其次,上述具有较强判别能力的特征组成判别特征子空间,将各个样本投影到这

个子空间中进行分类。

SVM是建立在统计学习VC维理论和结构风

险最小原理基础上,具有良好泛化能力的机器学习算法。它利用m个带标签的训练样本{(z,,y。),

(z2,Y2),…,(z。,Y。)),其中z;是第i个样本对应的,z维特征;y;是第i个样本对应的标签。对于二分类问题,Y;可以用一1和+1来表示2个不同

的类。SVM通过公式:

min丢硼r叫+c∑o

S.t.

Yj(硼T9(zi)+6)≥1一£f,£‘≥0,

在以维空间中寻找一个最大化类间间隔的最优分类面W1z+b=0来完成分类。其中,C为错误惩罚

系数,9(z,)用于将为z;映射到高维空间。本文将

选择出的特征表示训练样本,并和相应的标签一起

训练SVM,得到分类判别模型。最后利用这个判别模型完成垃圾邮件制造者和正常用户的分类,以此检测出垃圾邮件。在特征空间中,邮件的二分类问题是一个线性不可分问题,本文采用基于高斯核函

数K(zi,zf)=exp(--y

zf—zJ

2),y>o的支

持向量机来训练和分类。

3实验

3.1实验数据

本文研究的邮件社会网络是根据作者单位邮件服务器中的邮件记录,通过分析原始邮件中的收、发件人信息,获得邮件收发关系构建而成。数据包括了2010---2012年的所有邮件收发纪录,其中,垃圾邮件9

312

002个,正常邮件967983个。所有的邮

件在垃圾邮件网关自动分类的基础上,经过人工审核,完成垃圾邮件和正常邮件的标记。垃圾邮件包括商业广告、反动言论、非法或虚假信息以及病毒邮件等。由于数据量较大,为了便于有效地处理这些数据,本文以若干天为一个周期,经过实体、关系提取构建多个邮件社会网络并分析其特性。根据经验

取7d为一个周期,共构建156(3×52)个邮件社会

网络,表2以每年12月份第一周的网络为例,列出

了实验使用的邮件社会网络的实体和关系的数量。

表2实验使用的邮件社会网络的实体和关系的数量

T叠b.2

Demonstrationofentitiesandrelationsofemilsocial

networkusedinOUl"experiments

3.2实验参数确定

本文使用基于高斯核函数的支持向量机来完成

分类。由于实验使用的分类器参数(误差惩罚系数C和高斯核参数y(gamma))对实验结果有较大的影响,因此本文使用网格搜索(GridSearch)的方法,以分类准确率为衡量指标,分析SVM的(C,y)

参数与分类性能的关系。参数(c,y)与分类准确率的关系如图5所示。

根据实验,随着y参数的逐渐变大,分类准确率逐渐变高,在0.1的位置取得最大值,然后慢慢减小。同样,随着C参数的逐渐变大,分类准确率逐

渐变高,在1.3的位置取得最大值,然后慢慢减小。

因此,实验取y参数为0.1,C参数为1.3时,邮件

分类准确率最高。3.3实验结果

为了衡量本文方法的性能,这里使用准确率(Accuracy)、查准率(Precision)、查全率(Recall)作

为指标,采用交叉验证的方法,依次使用一年的数据

第5期邵叶秦,等:基于行为与时间特征的垃圾邮件检测方法

499

作为测试数据,其他作为训练数据,进行定量分析。

鳃3№2

鳃l静嚣磐g{O糕求

卯9卯8卯7

Ol

02

¨

m4

O5

O6O7

r参致

芝糌髂掣j黾{求

Co)c参数

图5

SVM参数与分类准确率的关系

Fig.5

RelationofSVMparameters

andclassification

accuracy

由于邮件分类的准确性主要取决于错分情况,一种是将正常邮件错分为垃圾邮件,这可能会导致

用户正常邮件的丢失。一个典型例子是正常用户的群发邮件(一个组织的联系人向组织内的成员发送通知)被误判为垃圾邮件。由于正常用户邮件发送时间比较随机,虽然群发时会导致群发邮件的发送

间隔较短,但正常群发邮件的收件人不会太多,基于邮件发送间隔的时间特征仍旧比较平缓,而且邮箱

对所在IP地址的占用率也比较大,这些都有别于垃圾邮件制造者。因此,本文采用基于邮件发送间隔的时间特征和邮箱对所在IP地址的占用率等特征,这样可以明显减小对正常群发邮件的误判率。另一种是将垃圾邮件错分为正常邮件,这会导致用户时间的浪费。垃圾邮件制造者为了逃避反垃圾邮件的检测,会不断的变换发件人地址(极端的情况下,每封邮件都自动的产生一个发件人地址),这使得每个邮件地址的出度都接近1,表面上看,似乎并没有向外大量发送垃圾邮件。然而从发送邮件的IP来看,从一个IP地址上发送出的邮件依然很多。因此,这里使用邮箱对所在IP地址的占用率等特征,可以大大减小将垃圾邮件错判为正常邮件的误判率。

为了评价本文提出的邮件分类特征的有效性,

通过实验对比了这些特征使用前后本文方法的性能,这里将采用基本的出度、入度、回复比例作为特征的方法称为使用基本特征的方法,而将使用本文

提出的特征的方法称为使用新特征的方法。实验结果如表3所示。

表3对本文提出的特征的有效性分析

Tab.3

Effectivenessanalysisofproposedfeatures

从表3可以看出,由于仅使用出度等特征不能

有效地检测出垃圾邮件,因此使用基本特征的方法查全率较低;同时,对于特征明显的垃圾邮件制造者(具有很大出度等特征),使用基本特征的方法能够

精确的将其检测出来,因此其查准率较高。相比之下,使用了本文提出的邮箱对所在IP地址的占用

率、所在IP地址的出边总权重和基于邮件发送间隔的时间特征,上面提到的出度很小的垃圾邮件制造

者,因为其IP地址相关的特征比较明显,使用新特

征的本文方法能有效地把它们检测出来,因此,其查全率大幅度提升;同时,本文方法使用了基于发送间隔的时间特征,正常用户的误检率下降,垃圾邮件制造者的查准率也有所提高。这些都使得本文基于行

为特征和时间特征的方法准确率有了明显提高。

为了评价整个方法的有效性,本文方法对比了其他的基于行为的方法,实验结果如表4所示。

表4本文方法与其他方法的定量比较

Tab.4

Quantitativecomparisonof

our

methodandothers

相比于文献E9]利用发送时间、邮件中继数量、

有无超级链接等行为特征,本文从社会网络角度获得,并经过选择后的特征更具有区分能力,更加稳

定。相比于文献r-lo]使用操作的时间和频率作为特

征,本文方法不仅考虑邮件发送时间特征,还利用邮件社会网络的行为特征,能更好地区分垃圾邮件制造者和正常用户。相比于文献[11]使用发送邮件设备的操作系统、相应IP地址、邮件黑名单等网络层

500

解放军理工大学学报(自然科学版)

第14卷

特性过滤垃圾邮件,本文方法采用具有较强分类能力的行为和时间特征,能更准确的描述垃圾邮件制造者的特征。

本文方法运行在配有4G内存,Intel

Corei7

3.4GHZ

CPU的工作站上。在交叉验证过程中,3

年数据的训练时间分别是832.14、785.32和

726.24S,测试时间分别是260.83、295.53和

365.64

S。由于3年中的数据每年都在增加,因此

后面年份的测试时间要比前面年份长一些。

以上的实验证明,本文的方法能有效地分类垃

圾邮件制造者和正常用户,能快速检测出垃圾邮件,

具有更高的准确率、查准率和查全率。

4结语

垃圾邮件检测是一个基本而有挑战性的问题。本文针对垃圾邮件的行为特点,分析基于邮件社会

网络的行为特征和基于邮件发送间隔的时间特征,提出了一个基于行为和时间特征的垃圾邮件检测方法。真实邮件数据上的实验证明,本文的方法具有较高的正确率和较低的错误率。

本文方法的一些特征是基于发送邮件的IP地址的,在DHCP环境下虽然发送邮件的主机IP地址是变化的,但动态IP地址是有一段时间的有效期,在这段时间内IP地址是固定的,因此,这些特征

仍能表现出较好的区分性能。参考文献:

[1]COHENW.Learning

rulesthatclassify

E-mail[C].

ProcofAAAISpringsymposiumon

MachineLearning

inInformationAccess,California:IOSPress。1996.

[2]LAIGH,CHOUCW,CHEN

CM.Anti-spamfilter

based

on

data

mining

and

statistical

test[c].8th

IEEE/ACISInternationalConference

on

Computer

andInformationScience,Shanghai:Peoples

Republic

of

China,2009.

[3]高良诚.基于多规则的客户端邮件过滤系统[J].铜陵

学院学报,2008,7(2):75-76.

GAOLiangcheng.Multi—rulebasedclientemailflitering

system[J].JournalofTongling

College,2008,7

(2):75—76.(inChinese).

[43曾小宁.一种新的垃圾邮件过滤技术的研究与实现

[J].计算机应用与软件,2009,26(7):98-101.

ZENGXiaoning.On

newe-reallspamfilteringtech-

nologyandits

implementation[J].ComputerApplica・

tionsandSoftware,2009,26(7):98-101.(inChinese).

[53

WANGWenjia。Heterogeneous

bayesian

ensembles

forclassifyingspare

emails[C].Barcelona:WorldCOn—

gress

on

Computational

Intelligence(WCCI

2010),

2010.

[6]CHI

HT,HSUYM,WAN

SW.A

research

onu—

singsupportvectormachinetoclassifychinesespam

[C].Kunming:8th

International

Conference

on

Infor—

marionandManagement

Sciences,2009.

[7]ABUZR,MOHAMMADAH.Sparedetectionusing

geneticassistedartificialimmunesystem[J].Interna—

tionalJournalofPatternRecognitionandArtificialIn-

telligence,2011,25(8):1275-1295.

[8]

MOHAMMEDFAHMEDM,MANASRAH,eta1.

Abehaviorbasedalgorithm

tO

detectspam

Sots[C].

Illinois:Collaberative

Technologies

and

Systems

(CTS),2010.

[9]NAKSOMB00NS,CHARNSRIPINY0C,WATTA-

NAPONGSAKORN

N.Considering

behaviorofsend-

er

inspammail

detection[C].Gyeongju:2010

6thIn—

ternational

Conference

on

Networked

Computing

(INC),2010.

[101

HAYATIP,CHAIK。POTDAR

V.Behaviour-based

Web

spambotdetectionbyutilisingactiontimeand

ac-

tion

frequency[C].Fukuoka:InternationalConference

on

ComputationalScience

anditsApplications,2010.

[11]CORTEZP,CORREIAA,SOUSAP.Spamemail

filteringusingnetwork-levelproperties[C].Berlin:

10thIndustrial

Conference

on

DataMining,2010.

[12]邓国强,李芝棠,李冬,等.基于邮件行为异常的垃圾

邮件客户端检测[J].广西大学学报:自然科学版,

2011,36(A01):i00-104.

DENGGuoqiang,LIZhitang,LIEMng。eta1.Design

andimplementationofa

behaviorbasedalgorithmtO

detectspamzombie

client[J].Journal

ofGuangxiUnj—

versity(NaturalScienceEdition),2011,36(A01):

100—104.(inChinese).

[13]王美珍.垃圾邮件行为模式识别与过滤方法研究[D].

武汉:华中科技大学,2009.

[14]FIUMARAG,MARCHIM,PAGAN0

R.

Rule-

basedspamE-mail

annotation[C].WebReasoningand

RuleSystems,FourthInternationalConference,Brix—

en:Springer,2010.

[15]VAPNIK

V.The

nature

ofstatisticallearningtheory

[M].New

York:Springer-Verlag,1995.

(责任编辑:徐金龙)

基于行为与时间特征的垃圾邮件检测方法

作者:

作者单位:刊名:英文刊名:年,卷(期):

邵叶秦, 施佺, SHAO Yeqin, SHI Quan

邵叶秦,SHAO Yeqin(南通大学现代教育技术中心,江苏南通226019;上海交通大学电信学院,上海200240), 施佺,SHI Quan(南通大学现代教育技术中心,江苏南通,226019)

解放军理工大学学报(自然科学版)

Journal of PLA University of Science and Technology(Natural Science Edition)2013,14(5)

参考文献(15条)

1. COHEN W Learning rules that classify E-mail 1996

2. LAI G H;CHOU C W;CHEN C M Anti-spam filter based on data mining and statistical test 20093. 高良诚 基于多规则的客户端邮件过滤系统[期刊论文]-铜陵学院学报 2008(02)

4. 曾小宁 一种新的垃圾邮件过滤技术的研究与实现[期刊论文]-计算机应用与软件 2009(07)5. WANG Wenjia Heterogeneous bayesian ensembles for classifying spam emails 2010

6. CHI H T;HSU Y M;WAN S W A research on using support vector machine to classify chinese spam 20097. ABU Z R;MOHAMMAD A H Spam detection using genetic assisted artificial immune system 2011(08)8. MOHAMMED F AHMED M;MANASRAH A behavior based algorithm to detect spam Bots 2010

9. NAKSOMBOON S;CHARNSRIPINYO C;WATTANAPONGSAKORN N Considering behavior of sender in spam mail detection 201010. HAYATI P;CHAI K;POTDAR V Behaviour-based Web spambot detection by utilising action time and action frequency 201011. CORTEZ P;CORREIA A;SOUSA P Spam email filtering using network-level properties 2010

12. 邓国强;李芝棠;李冬 基于邮件行为异常的垃圾邮件客户端检测[期刊论文]-广西大学学报(自然科学版) 2011(A01)13. 王美珍 垃圾邮件行为模式识别与过滤方法研究[学位论文] 2009

14. FIUMARA G;MARCHI M;PAGANO R Rulebased spam E-mail annotation 201015. VAPNIK V The nature of statistical learning theory 1995

引用本文格式:邵叶秦. 施佺. SHAO Yeqin. SHI Quan 基于行为与时间特征的垃圾邮件检测方法[期刊论文]-解放军理工大学学报(自然科学版) 2013(5)


相关内容

  • 计算机网络工程师笔试面试题汇总
    网路学员面试常见问题: 1.请你修改一下LINUX的视频驱动和声音驱动 答: redhatlinux中用sndconfig来设置声卡,如果没有某个模块,就需要重新编译内核(编译最新发布的linux 内核),如果还不行,只好用ALSA 音效驱 ...
  • 互联网安全责任书
    互联网安全责任书 为明确各互联网接入单位(ISP).互联网数据中心(IDC).互联网信息服务单位(ICP),联网单位和开展托管主机.虚拟空间服务的单位应履行的安全管理责任,确保互联网络与信息安全,营造安全洁净的网络环境,根据<全国人大 ...
  • 网络营销考试复习题及答案
    一. 填空题 1.网站的最大特点是它总是不断变化的,网站的不断更新才具有生命力.对于三种类型网站而言,更新的重要性通常为(基本信息型)> (多媒体广告型 )> (电子商务型). 2.网络营销是指以(互联网)为主要手段进行的.为达 ...
  • 论电子广告邮件的法律规制
    内容摘要:电子广告邮件,通常被人们称为"垃圾邮件",它作为一种新兴的广告营销方式,自产生以来就引发了一系列的问题.本文通过详细分析电子广告邮件的产生和起源.构成以及所引发的社会问题,准确把握其法律性质,并结合国内外立法实 ...
  • 网络安全知识题库中学组C
    江苏省青少年网络信息安全知识竞赛试题 (中学组C) 参赛须知: 一.答题方法:本卷共100题,每题有ABCD四个答案,其中只有一个正确答案,请在答题卡上将你认为正确的选项涂黑.答题卡不得涂改,复印无效.试卷满分100分,每题1分. 二.参赛 ...
  • 信息技术与信息安全20**年0712最全
    2014年度信息技术与信息安全公需科目(20140712更新) 第一部分单选题: 1.特别适用于实时和多任务的应用领域的计算机是(D). A.巨型机 B.大型机 C.微型机 D.嵌入式计算机 2.负责对计算机系统的资源进行管理的核心是(C) ...
  • xcv内蒙古广电网络整改方案
    内蒙古广电网络 整改方案 北京远景助力科技有限公司 2010年5月12日 北京远景助力科技有限公司 地址:北京市海淀区苏州街3号紫金长河4-162 内蒙办事处地址:呼和浩特市荣胜大厦B座5室0471-2524048/49/50 网址:www ...
  • 高中信息技术必修知识点汇总
    主题1 信息的获取 高中信息技术必修知识点汇总 一.信息及其特征 1.信息的基本概念 "信息"一词通常是指数据.消息所包含的内容和意义.信息的表现形式有多种,如:图片.声音.动作.表情.文字等.当今世界的三大要素:物质. ...
  • 网络广告存在的问题.产生原因及解决办法
    一.网络广告存在的问题 (一)网络"牛皮藓"问题泛滥 在网络上,一些小窗口的广告接二连三地跳出来,"牛皮藓"广告表明狂轰乱炸,暗地里以障眼打法.移花接木等手法让人防不胜防,它始终跟随鼠标的移动而移动, ...