基于行为与时间特征的垃圾邮件检测方法

第１４卷第５期

解放军理工大学学报（自然科学版）

Ｖ０１．１４Ｎｏ．５

２０１３年１０月

Ｊｏｕｒｎａｌｏｆ

ＰＬＡＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄ

Ｔｅｃｈｎｏｌｏｇｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＦＡｋｉｏｎ）

Ｏｃｔ．２０１３

基于行为与时间特征的垃圾邮件检测方法

邵叶秦

１．２

＇

施俭

（１．南通大学现代教育技术中心，江苏南通２２６０１９；２．上海交通大学电信学院，上海２００２４０）

摘要：垃圾邮件数量庞大、伪装形式多种多样，给反垃圾邮件带来了巨大的挑战。提出了一个基于行为和时间特征的垃圾邮件检测方法。根据邮件收发记录分析基于社会网络的行为特征和基于邮件发送间隔的时间特征，采用步进式判别分析方法，选择具有较强判别能力的行为特征，形成特征子空间，将训练样本投影到

特征子空间。使用带标签的训练样本训练支持向量机ＳＶＭ，形成邮件决策信息，以此检测出垃圾邮件。利用最近３年真实邮件数据，从不同的角度进行了对比实验。结果证明，提出的行为与时间特征能有效提升垃圾邮件检测的准确率和查全率，其整体性能优于其他的基于行为的垃圾邮件检测方法。

关键词：社会网络；垃圾邮件；特征选择；支持向量机

中图分类号：ＴＰ３０９

文献标识码：Ａ

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００９－３４４３．２０１３．０４．０９０

Ｍｅｔｈｏｄｆｏｒｅｍａｉｌｓｐａｍｄｅｔｅｃｔｉｏｎｂａｓｅｄ

ｏｎ

ｂｅｈａｖｉｏｒａｌａｎｄｔｅｍｐｏｒａｌｆｅａｔｕｒｅｓ

ＳＨＡＯＹｅｑｉｎｌ”，ＳＨＩＱｕａｒｔｌ

（１．ＣｅｎｔｅｒｏｆＭｏｄｅｒｎＥｄｕｃａｔｉｏｎａｌＴｅｃｈｎｏｌｏｇｙ，ＮａｎｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｔｏｎｇ２２６０１９，Ｃｈｉｎａ）

２．ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃＩｎｆｏｒｍａｔｉｏｎａｎｄＥｌｅｃｔｒｉｃａｌ

Ｅｎｇｉｎｅｅｒｉｎｇ，ＳｈａｎｇｈａｉＪｉａｏ

Ｔｏｎｇ

Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２００２４０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｈｅｌａｒｇｅｎｕｍｂｅｒｏｆｅｍａｉｌｓｐａｍａｎｄｔｈｅｉｒｖａｒｉｏｕｓｃｏｕｎｔｅｒｆｅｉｔｓｐｏｓｅａ

ｇｒｅａｔｃｈａｌｌｅｎｇｅｔｏａｎｔｉ—

ｓｐａｍ．Ａｎｅｍａｉｌｓｐａｒｅｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｗａｓｐｒｏｐｏｓｅｄｂａｓｅｄｏｎ

ｂｅｈａｖｉｏｒａｌａｎｄｔｅｍｐｏｒａｌｆｅａｔｕｒｅｓ．Ａｃｃｏｒｄ—

ｉｎｇ

ｔｏ

ｔｈｅｅｍａｉｌｓ’ｓｅｎｄｉｎｇａｎｄｒｅｃｅｉｖｉｎｇｒｅｃｏｒｄｓ，ｂｅｈａｖｉｏｒａｌｆｅａｔｕｒｅｓｗｅｒｅａｎａｌｙｚｅｄｂａｓｅｄ

ｏｎ

ｅｍａｉｌｓｏｃｉａｌ

ｎｅｔｗｏｒｋａｎｄ

ａ

ｔｅｍｐｏｒａｌｆｅａｔｕｒｅａｎａｌｙｚｅｄｂａｓｅｄ

ｏｎ

ｅｍａｉｌｄｅｌｉｖｅｒｙｉｎｔｅｒｖａｌ．Ｔｈｅｎ，ａｓｔｅｐｗｉｓｅｄｉｓｃｒｉｍｉｎａｎｔ

ａ—

ｎａｌｙｓｉｓｗａｓｅｍｐｌｏｙｅｄｔｏ

ｓｅｌｅｃｔｄｉｓｃｒｉｍｉｎａｔｉｖｅｆｅａｔｕｒｅｓｔｏ

ｆｏｒｍ

ａ

ｆｅａｔｕｒｅｓｕｂ－ｓｐａｃｅｗｈｅｒｅａｌｌｔｒａｉｎｉｎｇｓａｍ—

ｐｌｅｓｗｅｒｅｐｒｏｊｅｃｔｅｄｉｎｔｏｔｈｉｓｆｅａｔｕｒｅｓｕｂ—ｓｐａｃｅ．Ｆｉｎａｌｌｙ，ｔｈｏｓｅ

ｐｒｏｊｅｃｔｅｄ

ｔｒａｉｎｉｎｇｓａｍｐｌｅｓｗｉｔｈｌａｂｅｌｓｗｅｒｅ

ｕｓｅｄ

ｔｏ

ｔｒａｉｎｔｈｅｓｕｐｐｏｒｔ

ｖｅｃｔｏｒｍａｃｈｉｎｅ（ＳＶＭ）ｃｌａｓｓｉｆｉｅｒ，ａｎｄ

ｄｅｃｉｓｉｏｎｃｒｉｔｅｒｉａｗｅｒｅｇｅｎｅｒａｔｅｄ

ＳＯ

ａｓｔｏ

ｉ—

ｄｅｎｔｉｆｙｅｍａｉｌｓｐａｍ．Ｂａｓｅｄ

ｏｎ

ｔｅａｌｅｍａｉｌｄａｔａｉｎｒｅｃｅｎｔ

３ｙｅａｒｓ，ｃｏｍｐａｒａｔｉｖｅｅｘｐｅｒｉｍｅｎｔｓｗｅｒｅｐｅｒｆｏｒｍｅｄ

ｔｏ

ｅｖａｌｕａｔｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｆｅａｔｕｒｅｓａｎｄｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｂｅｈａｖｉｏｒａｌａｎｄｔｅｍｐｏｒａｌｆｅａｔｕｒｅｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ

ｃａｎ

ｓｉｇｎｉｆｉｃａｎｔｌｙｉｎｃｒｅａｓｅｔｈｅ

ａｃｃｕｒａ—

ｃｙａｎｄｒｅｃａｌｌｏｆｓｐａｍｄｅｔｅｃｔｉｏｎ，ａｎｄｔｈａｔｔｈｅｏｖｅｒａｌｌｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｉｓｍｅｔｈｏｄｉｓｓｕｐｅｒｉｏｒｔｏｔｈａｔｏｆｏｔｈｅｒ

ｅｍａｉｌｓｐａｍｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｓｗｈｉｃｈ

ａｒｅ

ｂａｓｅｄ

ｏｎ

ｂｅｈａｖｉｏｒａｌｆｅａｔｕｒｅｓ．

Ｋｅｙｗｏｒｄｓ：ｓｏｃｉａｌｎｅｔｗｏｒｋ；ｅｍａｉｌｓｐａｍ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｓｕｐｐｏｒｔ

ｖｅｃｔｏｒ

ｍａｃｈｉｎｅ

电子邮件作为一种低廉、快捷的通信方式得到网络带宽和服务器资源，而且易散播虚假信息，甚至

了人们的广泛使用。然而，垃圾邮件的泛滥严重影传播恶意软件和病毒，攻击用户计算机。因此，垃圾响人们的工作和生活，它不仅浪费用户的时间，占用

邮件检测一直吸引着国内外众多学者的研究兴趣。

收稿日期：２０１３—０４－０９

基金项目：国家自然科学基金资助项目（６１１７１１３２）；江苏省自然科学基金资助项目（ＢＫ２０１０２８０）；南通市应用研究计划资助项目

（ＢＫ２０１１００３，ＢＫ２０１２０３４，ＢＫ２０１２００１）；南京市科技平台计划资助项目（ＣＰ２０１３００１）作者简介：邵叶秦，博士生，实验师。主要研究网络安全，ｈｎｓｙｋ（鸯１６３．ｃｏｍ通讯作者：施俭，教授，主要从事智能信息处理、社会网络分析．ｓｑｔ园ｎｔｕ．ｅｄｕ．ｃｎ

第５期

邵叶秦，等：基于行为与时间特征的垃圾邮件检测方法

４９５

目前，常用的检测技术有３类，第一类是基于黑白名单检测技术，该技术通过对比邮件和黑、白名单完成垃圾邮件的检测。由于垃圾邮件发送者可以申请不同的邮箱来躲避检测，所以黑自名单技术有很

大的局限性，一般作为辅助方法。第二类是基于内容的检测技术，该技术是利用文本分类技术，识别垃圾邮件。Ｗ．Ｃｏｈｅｎ［妇利用ＲＩＰＰＥＲ算法，通过学习

训练集中的合法邮件，得到可信规则集，通过垃圾邮件的学习，对可信规则集加以约束，然后利用可信规则检测垃圾邮件。ＬＡＩ等［２３采用数据挖掘的方法生成规则，并通过测试的方式，保留有效规则，确保邮

件过滤的效果。高良诚等口］基于多种规则实现对邮件的检测。曾小宁等“］结合ＩＰ信誉评分和过滤规则检测垃圾邮件。ＷＡＮＧＥ５］采用集成学习的方法，将多种贝叶斯分类器组合起来，提高算法的性能。

ＣＨＩ等［６１利用汉字的形状特点，采用支持向量机来检测中文邮件。Ｚ．Ｒ．Ａｂｕ等［７］把遗传算法和人工免疫系统相结合，检测垃圾邮件。基于内容的检测

技术需要分析邮件内容，但目前垃圾邮件一般都采用伪装技术，有的直接以图片的形式出现，这给基于内容的检测带来了挑战。第三类是基于行为的检测技术。该技术通过分析行为特征，实现垃圾邮件的

检测。Ｓ．Ｎａｋｓｏｍｂｏｏｎ等［９］结合关键字信息和发件人的行为特征检测垃圾邮件。Ｐ．Ｈａｙａｔｉ等［１０］通过分析邮件机器人的行为特征检测垃圾邮件。Ｐ．

Ｃｏｒｔｅｚ等［１１］分析网络协议中网络层的一些属性来确定行为特性，检测垃圾邮件。邓国强等［１２］通过统计邮件通信过程中的报文，分析垃圾邮件的行为模

式。王美珍［１３］通过挖掘垃圾邮件数据的行为规则完成邮件分类。这些方法虽然能较好地检测垃圾邮件，但由于垃圾邮件传播渠道丰富，内容形式多样，数量急剧膨胀，给垃圾邮件检测，尤其是检测的准确

率，提出了巨大挑战。

因此，为了准确地检测垃圾邮件，本文根据垃圾邮件收发过程中的行为特征，提出了一个基于行为与时间特征的垃圾邮件检测方法。

１基于行为和时间特征的垃圾邮件检测

１．１问题定义和系统框架

假设｛Ｍ。）为一个邮件集合，｛Ｓ。｝为这些邮件的发送者，（Ｌ；｝为这些邮件发送者的标签（ｉ一１，２，…，Ｎ），它们取值为１和０，分别表示垃圾邮件制造者和正常用户。每个邮件发送者Ｓ；对应一个描述其特点的志维特征向量。如果用Ｓ∈Ｒ‘表示

邮件发送者的集合，这里就需要找到一个映射厂：Ｓ一｛０，１），使其准确、唯一地标记每个邮件发件人。若邮件由垃圾邮件发送者发出，即为垃圾邮件；若邮件是由正常用户发出，即为正常邮件。邮件检测的

处理流程如图１所示。

图１本文方法的处理流程

Ｆｉｇ．１

Ｐｒｏｃｅｄｕｒｅｏｆ

ｏｕｒ

ｍｅｔｈｏｄ

基于行为和时间特征的垃圾邮件检测首先根据

现有邮件的收发记录，提取邮件实体（邮件地址）和关系（邮件收发关系）构建邮件社会网络。利用邮件收发过程中垃圾邮件制造者和正常用户表现的特性，基于邮件社会网络和邮件发送时间分析每个电

子邮件地址的行为特征。其次，利用步进式判别分析方法，选择具有较强判别能力的行为特征，形成特征子空间，将训练样本投影到该特征子空间。再次，利用带标签的训练样本，有监督的训练支持向量机［１５］（ｓｕｐｐｏｒｔ

ｖｅｃｔｏｒ

ｍａｃｈｉｎｅ，ＳＶＭ），学习最优分

类面，形成邮件决策信息并保存在数据库中。当新邮件到达时，首先提取新邮件的相应特征（收件人等信息），对比已有的决策信息进行邮件分类，检测出

垃圾邮件，保留正常邮件。同时，利用新邮件的信息更新已有训练集上与收件人和发件人相关的统计信

息，定期训练分类器并更新决策信息，使算法具有适

应能力。

１．２基于社会网络的行为特征

邮件社会网络是通过提取邮件记录中实体和关系来构建的。这里用一个加权有向图Ｇ（Ｖ，Ｅ）来表示，其中，Ｖ代表节点的集合，Ｅ代表边的集合，口。、口，是图中任意２个节点，代表２个邮件地址，Ｐ；ｉ

代表图中一条从ｕ。指向口ｉ的边。如果邮件地址Ａ

向邮件地址Ｂ发送了一个邮件，邮件社会网络中就会有一条从Ａ指向Ｂ的边，Ａ向Ｂ发送的所有邮件的数量代表边的权重。

一般来说，垃圾邮件制造者会发送大量垃圾邮件给其他用户，而其他用户不会回复此类邮件。相比之下，正常用户不仅会向其他用户发送邮件，也会

接受到其他用户的邮件。从社会网络的角度，正常

４９６

解放军理工大学学报（自然科学版）

第１４卷

用户对应的节点既有出边，又有人边，也会有双向的边；垃圾邮件制造者一般只有出边，如图２所示。

人的通信越频繁。通常，正常用户的出边平均权重是一个随机值，而垃圾邮件制造者的出边平均权重

基本上为１。

人度代表了向口发送邮件的邮箱数量。人度越大，表示主动和口通信的人越多。通常情况下，正常

涨一

（ａ）正常的用户

（ｂ）垃圾邮件制造者

用户都会收到同事、朋友等的邮件，而垃圾邮件制造者发送的是垃圾信息，基本不会有人主动向其发送邮件或回复邮件。

回复比例代表了ｕ和其他用户间通信的交互活

跃程度。回复比例越大表示相互通信越活跃。通常，在正常用户问的通信是有交互的，回复比例一般

图２

Ｆｉｇ．２

Ｅｇｏｃｅｎｔｒｉｃ社会网络示例

ＩｌｌｕｓｔｒａｔｉｏｎｏｆＥｇｏｃｅｎｔｒｉｃｓｏｃｉａｌｎｅｔｗｏｒｋ

Ｅｇｏｃｅｎｔｒｉｃ（自我中心）社会网络指环绕在自我周围的社会网络，它既包括自我与他人的直接联结，

会保持在某个水平，而垃圾邮件制造者发出的邮件一般是没有回复的，回复比例几乎为０。

也包括这些与自我联结的他人之间的联结。假设用Ｇ。（Ｕ，Ｅ。）表示一个以节点ｖ为中心的Ｅｇｏｃｅｎｔｒｉｃ网络，Ｕ代表和口直接相连的节点集合，Ｅ。代表它

们和口相连的边。本文主要分析一跳Ｅｇｏｃｅｎｔｒｉｃ网络的特征。限于篇幅，这里主要针对以下６个特征进行描述。如表１所示。

表１基于Ｅｇｏｃｅｎｔｒｉｃ社会网络的行为特征

Ｔａｂ．１

Ｂｅｈａｖｉｏｒａｌｆｅａｔｕｒｅｓｂａｓｅｄｗｏｒｋ

ｏｎ

所在ＩＰ地址的出边总权重代表了在发送者所在的ＩＰ地址上通过不同的邮箱地址发出的邮件数量。由于垃圾邮件制造者为了逃避检测，会不断

更换邮箱地址来发送垃圾邮件，典型的情况是每次都随机产生一个邮箱地址，但用于发送邮件的ＩＰ地址在一段时间内是不变的，和邮箱地址的出

度类似，该特征也能很好地区分正常用户和垃圾

邮件制造者。

Ｅｇｏｃｅｎｔｒｉｃｓｏｃｉａｌｎｅｔ－

邮箱对所在ＩＰ地址的占用率代表了邮件地址

与所在的ＩＰ地址的出度比值。由于垃圾邮件制造

者会不断更换邮箱地址来发送垃圾邮件，故垃圾邮

件地址的出度接近１，而用于发送邮件的ＩＰ地址在一段时间内不变，ＩＰ地址的出度较大，它们的比值很小。相比之下，正常的邮件地址是通过一般的ＩＰ

地址发送出来的，从邮件记录来看，通常情况下每个ＩＰ地址对应相对固定的邮件地址，每个邮件地址也在相对固定的ＩＰ地址上使用。因此，邮件地址与所

在的ＩＰ地址的出度比值比较大，如图３（ｄ）所示。邮箱对所在ＩＰ地址的占用率可定义如下：

定义１邮箱对所在ＩＰ地址的占用率：Ｆ。砸＝ｏｕｔ。／ｏｕｔ咖，其中，

ｆ＝１，…，Ｈ

ｏｕｔ。

＝Ｉ

Ｖ砖

Ｉ，ｏｕｔ咖

＝

≥：ＩＶ疆Ｊ，它们分别代表邮件地址和其所在的ＩＰ

地址发送的邮件数量，Ｖ砖代表节点ｉ在ＩＰ地址ｋ

出度代表了接收到口主动发送邮件的邮箱数量。出度越大，表示口和越多的人通信。通常，一段时间内接受到正常用户主动发送邮件的用户不会太多，从图３（ａ）可以看出，正常用户的出度在一定的范围内。而圾邮件制造者为了达到自己的目的，需要向尽量多的人发送邮件，出度一般都比较大。

出边的平均权重代表了口向其他邮箱主动发送的平均邮件数量。权重的平均值越大，表示口和他

上发送的邮件数。对于不断更换地址的垃圾邮件制造者，Ｆ。；。值基本趋向于０；对于正常的邮件地址，Ｆｍ．ｊ。值分布的相对比较均匀。

本文根据上述主要特征来区分正常用户和垃圾邮件制造者，这些行为特征的累计分布如图３所示。

从图３（ａ）可以看出，正常用户的出度一般都不是很大，且有明显的上限；而垃圾邮件制造者的出度相对较大，有的垃圾邮件制造者出度甚至很大。

第５期邵叶秦，等：基于行为与时间特征的垃圾邮件检测方法

４９７

从图３（ｂ）可以看出，对于所在ＩＰ地址的出边

权重来说，正常用户都较小，而差不多５０％以上的垃圾邮件制造者的这个特征值都大于正常用户的上限。因此，这个特征能很好地区分正常用户和垃圾

邮件制造者。

从图３（ｃ）可以看出，垃圾邮件制造者的回复比例基本上为ｏ％，而不少正常用户的回复比例在９０％以上。

出度

（ａ）出度的累积分布

从图３（ｄ）中，９０％以上垃圾邮件制造者的邮箱对所在ＩＰ地址的占用率几乎为０（如前面所说的，它们的出度很小，而所在ＩＰ地址的出度很大），而且

累积概率分布收敛很快，说明邮箱对所在ＩＰ地址的占用率大的垃圾邮件制造者很少。相比之下，邮箱对所在ＩＰ地址的占用率为０的正常用户非常少。上述实际的数据说明了这些特征能有效地区分正常

用户和垃圾邮件制造者。

１．３基于邮件发送间隔的时间特征

Ｏ

１００２００３００４００５００６００７００

８００９００１０００

所在ｍ地址的出边总权重

（ｂ）所在ＩＰ地址的出边权重的累积分布

垃圾邮件制造者为了将垃圾信息尽可能多地传

递给不同的人，需要不断向不同的邮件地址发送垃

圾邮件，因此其发送邮件的时间会呈现一定的规律。

相比之下，正常用户发送邮件呈现随机性。为了表

示这种基于时间的行为特征，这里通过计算发件人的相邻两个邮件的发送间隔，来统计相邻邮件的发送时间间隔分布直方图，如图４所示。垃圾邮件制

造者的绝大多数邮件是在很短的时间间隔内发送

的，其分布在较小时间间隔区间中取值较大，其它时

间间隔区间中取值较小，而正常用户的相邻邮件发

回复比例

（ｃ）回复比例的累积分布

送时间间隔则随机分散在横坐标上。

０

５

１０

１５

２０

２５

３０

３５

４０

４５

５０

邮箱对所在ｌＰ地址的占用率

（ｄ）邮箱对所在ｍ地址的占用率的累积分布

Ｆｉｇ．４

相邻２个邮件的发送时间间隔（５ｒａｉｎ）

图４相邻邮件的发送时间间隔分布直方图

Ｈｉｓｔｏｇｒａｍｏｆｓｅｎｄｉｎｇｔｉｍｅｉｎｔｅｒｖａｌｓｏｆａｄｊａｃｅｎｔｅｍａｉｌｓ

图３基于社会网络的正常用户和垃圾邮件制造者的行为

特征

Ｆｉｇ．３

Ｃｕｍｕｌａｔｉｖｅｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｏｆｂｅｈａｖｉｏｒａｌｌｅａ－

ｔｕｒｅｓ

ｏｆｌｅｇｉｔｉｍａｔｅｅｍａｉｌ

ｕｓｅｒｓ

ａｎｄｓｐａｍｍｅｒｓｂａｓｅｄ

信息论中的熵是对不确定性的测量，可以用来衡量垃圾邮件发送间隔分布的不均衡性。下面使用

ｏｎ

ｓｏｃｉａｌｎｅｔｗｏｒｋ

４９８

解放军理工大学学报（自然科学版）

第１４卷

邮件发送间隔分布的熵来定义时间特征Ｆ。。

定义２基于邮件发送间隔的时间特征Ｆ．：设邮件地址ｉ在一段时间内发送的邮件依次为ｍ¨

（．『一１，２，…，竹），相应的发送时间为ｔⅢ，相邻邮件发送的时间间隔为ｄ¨－－－－ｔ¨＋ｌ—ｔ研，根据发送的时间间隔，得到其分布直方图。Ｐ。一Ｐ（ｚ—ｋ）表示发

送时间间隔是ｋ的邮件占总发送邮件的比例。根据熵的定义，基于邮件发送间隔分布Ｐ。的时间特征

Ｆ。可表示为Ｆ。＝一≥：Ｐ。Ｉｎ（ｐ。）。对于垃圾邮件

制造者，由于其分布不均匀，Ｆ，的值相对较小，而对

于正常用户，Ｆ。的值相对较大。

２特征选择和邮件分类

在计算得到每个邮件地址的特征后，首先，考虑到模型简单性、精确度以及算法的效率问题，本文方法采用了步进式判别分析方法，在传统判别

分析的基础上，利用总体样本的方差与组内样本的方差之和组成评价标准，通过对比特征选择前、后定义的评价标准是否显著变化来衡量特征的判

别能力。每次选择判别能力强的特征，淘汰判别能力弱的特征，逐步得到数量不多但具有较强判别能力的特征。其次，上述具有较强判别能力的特征组成判别特征子空间，将各个样本投影到这

个子空间中进行分类。

ＳＶＭ是建立在统计学习ＶＣ维理论和结构风

险最小原理基础上，具有良好泛化能力的机器学习算法。它利用ｍ个带标签的训练样本｛（ｚ，，ｙ。），

（ｚ２，Ｙ２），…，（ｚ。，Ｙ。）），其中ｚ；是第ｉ个样本对应的，ｚ维特征；ｙ；是第ｉ个样本对应的标签。对于二分类问题，Ｙ；可以用一１和＋１来表示２个不同

的类。ＳＶＭ通过公式：

ｍｉｎ丢硼ｒ叫＋ｃ∑ｏ

Ｓ．ｔ．

Ｙｊ（硼Ｔ９（ｚｉ）＋６）≥１一￡ｆ，￡‘≥０，

在以维空间中寻找一个最大化类间间隔的最优分类面Ｗ１ｚ＋ｂ＝０来完成分类。其中，Ｃ为错误惩罚

系数，９（ｚ，）用于将为ｚ；映射到高维空间。本文将

选择出的特征表示训练样本，并和相应的标签一起

训练ＳＶＭ，得到分类判别模型。最后利用这个判别模型完成垃圾邮件制造者和正常用户的分类，以此检测出垃圾邮件。在特征空间中，邮件的二分类问题是一个线性不可分问题，本文采用基于高斯核函

数Ｋ（ｚｉ，ｚｆ）＝ｅｘｐ（－－ｙ

ｚｆ—ｚＪ

２），ｙ＞ｏ的支

持向量机来训练和分类。

３实验

３．１实验数据

本文研究的邮件社会网络是根据作者单位邮件服务器中的邮件记录，通过分析原始邮件中的收、发件人信息，获得邮件收发关系构建而成。数据包括了２０１０－－－２０１２年的所有邮件收发纪录，其中，垃圾邮件９

３１２

００２个，正常邮件９６７９８３个。所有的邮

件在垃圾邮件网关自动分类的基础上，经过人工审核，完成垃圾邮件和正常邮件的标记。垃圾邮件包括商业广告、反动言论、非法或虚假信息以及病毒邮件等。由于数据量较大，为了便于有效地处理这些数据，本文以若干天为一个周期，经过实体、关系提取构建多个邮件社会网络并分析其特性。根据经验

取７ｄ为一个周期，共构建１５６（３×５２）个邮件社会

网络，表２以每年１２月份第一周的网络为例，列出

了实验使用的邮件社会网络的实体和关系的数量。

表２实验使用的邮件社会网络的实体和关系的数量

Ｔ叠ｂ．２

Ｄｅｍｏｎｓｔｒａｔｉｏｎｏｆｅｎｔｉｔｉｅｓａｎｄｒｅｌａｔｉｏｎｓｏｆｅｍｉｌｓｏｃｉａｌ

ｎｅｔｗｏｒｋｕｓｅｄｉｎＯＵｌ＂ｅｘｐｅｒｉｍｅｎｔｓ

３．２实验参数确定

本文使用基于高斯核函数的支持向量机来完成

分类。由于实验使用的分类器参数（误差惩罚系数Ｃ和高斯核参数ｙ（ｇａｍｍａ））对实验结果有较大的影响，因此本文使用网格搜索（ＧｒｉｄＳｅａｒｃｈ）的方法，以分类准确率为衡量指标，分析ＳＶＭ的（Ｃ，ｙ）

参数与分类性能的关系。参数（ｃ，ｙ）与分类准确率的关系如图５所示。

根据实验，随着ｙ参数的逐渐变大，分类准确率逐渐变高，在０．１的位置取得最大值，然后慢慢减小。同样，随着Ｃ参数的逐渐变大，分类准确率逐

渐变高，在１．３的位置取得最大值，然后慢慢减小。

因此，实验取ｙ参数为０．１，Ｃ参数为１．３时，邮件

分类准确率最高。３．３实验结果

为了衡量本文方法的性能，这里使用准确率（Ａｃｃｕｒａｃｙ）、查准率（Ｐｒｅｃｉｓｉｏｎ）、查全率（Ｒｅｃａｌｌ）作

为指标，采用交叉验证的方法，依次使用一年的数据

第５期邵叶秦，等：基于行为与时间特征的垃圾邮件检测方法

４９９

作为测试数据，其他作为训练数据，进行定量分析。

鳃３№２

董

鳃ｌ静嚣磐ｇ｛Ｏ糕求

卯９卯８卯７

Ｏ

Ｏｌ

０２

ｍ４

Ｏ５

Ｏ６Ｏ７

ｒ

∞

ｒ参致

芝糌髂掣ｊ黾｛求

Ｃｏ）ｃ参数

图５

ＳＶＭ参数与分类准确率的关系

Ｆｉｇ．５

ＲｅｌａｔｉｏｎｏｆＳＶＭｐａｒａｍｅｔｅｒｓ

ａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ

ａｃｃｕｒａｃｙ

由于邮件分类的准确性主要取决于错分情况，一种是将正常邮件错分为垃圾邮件，这可能会导致

用户正常邮件的丢失。一个典型例子是正常用户的群发邮件（一个组织的联系人向组织内的成员发送通知）被误判为垃圾邮件。由于正常用户邮件发送时间比较随机，虽然群发时会导致群发邮件的发送

间隔较短，但正常群发邮件的收件人不会太多，基于邮件发送间隔的时间特征仍旧比较平缓，而且邮箱

对所在ＩＰ地址的占用率也比较大，这些都有别于垃圾邮件制造者。因此，本文采用基于邮件发送间隔的时间特征和邮箱对所在ＩＰ地址的占用率等特征，这样可以明显减小对正常群发邮件的误判率。另一种是将垃圾邮件错分为正常邮件，这会导致用户时间的浪费。垃圾邮件制造者为了逃避反垃圾邮件的检测，会不断的变换发件人地址（极端的情况下，每封邮件都自动的产生一个发件人地址），这使得每个邮件地址的出度都接近１，表面上看，似乎并没有向外大量发送垃圾邮件。然而从发送邮件的ＩＰ来看，从一个ＩＰ地址上发送出的邮件依然很多。因此，这里使用邮箱对所在ＩＰ地址的占用率等特征，可以大大减小将垃圾邮件错判为正常邮件的误判率。

为了评价本文提出的邮件分类特征的有效性，

通过实验对比了这些特征使用前后本文方法的性能，这里将采用基本的出度、入度、回复比例作为特征的方法称为使用基本特征的方法，而将使用本文

提出的特征的方法称为使用新特征的方法。实验结果如表３所示。

表３对本文提出的特征的有效性分析

Ｔａｂ．３

Ｅｆｆｅｃｔｉｖｅｎｅｓｓａｎａｌｙｓｉｓｏｆｐｒｏｐｏｓｅｄｆｅａｔｕｒｅｓ

％

从表３可以看出，由于仅使用出度等特征不能

有效地检测出垃圾邮件，因此使用基本特征的方法查全率较低；同时，对于特征明显的垃圾邮件制造者（具有很大出度等特征），使用基本特征的方法能够

精确的将其检测出来，因此其查准率较高。相比之下，使用了本文提出的邮箱对所在ＩＰ地址的占用

率、所在ＩＰ地址的出边总权重和基于邮件发送间隔的时间特征，上面提到的出度很小的垃圾邮件制造

者，因为其ＩＰ地址相关的特征比较明显，使用新特

征的本文方法能有效地把它们检测出来，因此，其查全率大幅度提升；同时，本文方法使用了基于发送间隔的时间特征，正常用户的误检率下降，垃圾邮件制造者的查准率也有所提高。这些都使得本文基于行

为特征和时间特征的方法准确率有了明显提高。

为了评价整个方法的有效性，本文方法对比了其他的基于行为的方法，实验结果如表４所示。

表４本文方法与其他方法的定量比较

Ｔａｂ．４

Ｑｕａｎｔｉｔａｔｉｖｅｃｏｍｐａｒｉｓｏｎｏｆ

ｏｕｒ

ｍｅｔｈｏｄａｎｄｏｔｈｅｒｓ

％

相比于文献Ｅ９］利用发送时间、邮件中继数量、

有无超级链接等行为特征，本文从社会网络角度获得，并经过选择后的特征更具有区分能力，更加稳

定。相比于文献ｒ－ｌｏ］使用操作的时间和频率作为特

征，本文方法不仅考虑邮件发送时间特征，还利用邮件社会网络的行为特征，能更好地区分垃圾邮件制造者和正常用户。相比于文献［１１］使用发送邮件设备的操作系统、相应ＩＰ地址、邮件黑名单等网络层

５００

解放军理工大学学报（自然科学版）

第１４卷

特性过滤垃圾邮件，本文方法采用具有较强分类能力的行为和时间特征，能更准确的描述垃圾邮件制造者的特征。

本文方法运行在配有４Ｇ内存，Ｉｎｔｅｌ

Ｃｏｒｅｉ７

３．４ＧＨＺ

ＣＰＵ的工作站上。在交叉验证过程中，３

年数据的训练时间分别是８３２．１４、７８５．３２和

７２６．２４Ｓ，测试时间分别是２６０．８３、２９５．５３和

３６５．６４

Ｓ。由于３年中的数据每年都在增加，因此

后面年份的测试时间要比前面年份长一些。

以上的实验证明，本文的方法能有效地分类垃

圾邮件制造者和正常用户，能快速检测出垃圾邮件，

具有更高的准确率、查准率和查全率。

４结语

垃圾邮件检测是一个基本而有挑战性的问题。本文针对垃圾邮件的行为特点，分析基于邮件社会

网络的行为特征和基于邮件发送间隔的时间特征，提出了一个基于行为和时间特征的垃圾邮件检测方法。真实邮件数据上的实验证明，本文的方法具有较高的正确率和较低的错误率。

本文方法的一些特征是基于发送邮件的ＩＰ地址的，在ＤＨＣＰ环境下虽然发送邮件的主机ＩＰ地址是变化的，但动态ＩＰ地址是有一段时间的有效期，在这段时间内ＩＰ地址是固定的，因此，这些特征

仍能表现出较好的区分性能。参考文献：

［１］ＣＯＨＥＮＷ．Ｌｅａｒｎｉｎｇ

ｒｕｌｅｓｔｈａｔｃｌａｓｓｉｆｙ

Ｅ－ｍａｉｌ［Ｃ］．

ＰｒｏｃｏｆＡＡＡＩＳｐｒｉｎｇｓｙｍｐｏｓｉｕｍｏｎ

ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ

ｉｎＩｎｆｏｒｍａｔｉｏｎＡｃｃｅｓｓ，Ｃａｌｉｆｏｒｎｉａ：ＩＯＳＰｒｅｓｓ。１９９６．

［２］ＬＡＩＧＨ，ＣＨＯＵＣＷ，ＣＨＥＮ

ＣＭ．Ａｎｔｉ－ｓｐａｍｆｉｌｔｅｒ

ｂａｓｅｄ

ｏｎ

ｄａｔａ

ｍｉｎｉｎｇ

ａｎｄ

ｓｔａｔｉｓｔｉｃａｌ

ｔｅｓｔ［ｃ］．８ｔｈ

ＩＥＥＥ／ＡＣＩＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｃｏｍｐｕｔｅｒ

ａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，Ｓｈａｎｇｈａｉ：Ｐｅｏｐｌｅｓ

Ｒｅｐｕｂｌｉｃ

ｏｆ

Ｃｈｉｎａ，２００９．

［３］高良诚．基于多规则的客户端邮件过滤系统［Ｊ］．铜陵

学院学报，２００８，７（２）：７５－７６．

ＧＡＯＬｉａｎｇｃｈｅｎｇ．Ｍｕｌｔｉ—ｒｕｌｅｂａｓｅｄｃｌｉｅｎｔｅｍａｉｌｆｌｉｔｅｒｉｎｇ

ｓｙｓｔｅｍ［Ｊ］．ＪｏｕｒｎａｌｏｆＴｏｎｇｌｉｎｇ

Ｃｏｌｌｅｇｅ，２００８，７

（２）：７５—７６．（ｉｎＣｈｉｎｅｓｅ）．

［４３曾小宁．一种新的垃圾邮件过滤技术的研究与实现

［Ｊ］．计算机应用与软件，２００９，２６（７）：９８－１０１．

ＺＥＮＧＸｉａｏｎｉｎｇ．Ｏｎ

ａ

ｎｅｗｅ－ｒｅａｌｌｓｐａｍｆｉｌｔｅｒｉｎｇｔｅｃｈ－

ｎｏｌｏｇｙａｎｄｉｔｓ

ｉｍｐｌｅｍｅｎｔａｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａ・

ｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ，２００９，２６（７）：９８－１０１．（ｉｎＣｈｉｎｅｓｅ）．

［５３

ＷＡＮＧＷｅｎｊｉａ。Ｈｅｔｅｒｏｇｅｎｅｏｕｓ

ｂａｙｅｓｉａｎ

ｅｎｓｅｍｂｌｅｓ

ｆｏｒｃｌａｓｓｉｆｙｉｎｇｓｐａｒｅ

ｅｍａｉｌｓ［Ｃ］．Ｂａｒｃｅｌｏｎａ：ＷｏｒｌｄＣＯｎ—

ｇｒｅｓｓ

ｏｎ

Ｃｏｍｐｕｔａｔｉｏｎａｌ

Ｉｎｔｅｌｌｉｇｅｎｃｅ（ＷＣＣＩ

２０１０），

２０１０．

［６］ＣＨＩ

ＨＴ，ＨＳＵＹＭ，ＷＡＮ

ＳＷ．Ａ

ｒｅｓｅａｒｃｈ

ｏｎｕ—

ｓｉｎｇｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｔｏｃｌａｓｓｉｆｙｃｈｉｎｅｓｅｓｐａｍ

［Ｃ］．Ｋｕｎｍｉｎｇ：８ｔｈ

Ｉｎｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｉｎｆｏｒ—

ｍａｒｉｏｎａｎｄＭａｎａｇｅｍｅｎｔ

Ｓｃｉｅｎｃｅｓ，２００９．

［７］ＡＢＵＺＲ，ＭＯＨＡＭＭＡＤＡＨ．Ｓｐａｒｅｄｅｔｅｃｔｉｏｎｕｓｉｎｇ

ｇｅｎｅｔｉｃａｓｓｉｓｔｅｄａｒｔｉｆｉｃｉａｌｉｍｍｕｎｅｓｙｓｔｅｍ［Ｊ］．Ｉｎｔｅｒｎａ—

ｔｉｏｎａｌＪｏｕｒｎａｌｏｆＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＡｒｔｉｆｉｃｉａｌＩｎ－

ｔｅｌｌｉｇｅｎｃｅ，２０１１，２５（８）：１２７５－１２９５．

［８］

ＭＯＨＡＭＭＥＤＦＡＨＭＥＤＭ，ＭＡＮＡＳＲＡＨ，ｅｔａ１．

Ａｂｅｈａｖｉｏｒｂａｓｅｄａｌｇｏｒｉｔｈｍ

ｔＯ

ｄｅｔｅｃｔｓｐａｍ

Ｓｏｔｓ［Ｃ］．

Ｉｌｌｉｎｏｉｓ：Ｃｏｌｌａｂｅｒａｔｉｖｅ

Ｔｅｃｈｎｏｌｏｇｉｅｓ

ａｎｄ

Ｓｙｓｔｅｍｓ

（ＣＴＳ），２０１０．

［９］ＮＡＫＳＯＭＢ００ＮＳ，ＣＨＡＲＮＳＲＩＰＩＮＹ０Ｃ，ＷＡＴＴＡ－

ＮＡＰＯＮＧＳＡＫＯＲＮ

Ｎ．Ｃｏｎｓｉｄｅｒｉｎｇ

ｂｅｈａｖｉｏｒｏｆｓｅｎｄ－

ｅｒ

ｉｎｓｐａｍｍａｉｌ

ｄｅｔｅｃｔｉｏｎ［Ｃ］．Ｇｙｅｏｎｇｊｕ：２０１０

６ｔｈＩｎ—

ｔｅｒｎａｔｉｏｎａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

Ｎｅｔｗｏｒｋｅｄ

Ｃｏｍｐｕｔｉｎｇ

（ＩＮＣ），２０１０．

［１０１

ＨＡＹＡＴＩＰ，ＣＨＡＩＫ。ＰＯＴＤＡＲ

Ｖ．Ｂｅｈａｖｉｏｕｒ－ｂａｓｅｄ

Ｗｅｂ

ｓｐａｍｂｏｔｄｅｔｅｃｔｉｏｎｂｙｕｔｉｌｉｓｉｎｇａｃｔｉｏｎｔｉｍｅａｎｄ

ａｃ－

ｔｉｏｎ

ｆｒｅｑｕｅｎｃｙ［Ｃ］．Ｆｕｋｕｏｋａ：ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＣｏｍｐｕｔａｔｉｏｎａｌＳｃｉｅｎｃｅ

ａｎｄｉｔｓＡｐｐｌｉｃａｔｉｏｎｓ，２０１０．

［１１］ＣＯＲＴＥＺＰ，ＣＯＲＲＥＩＡＡ，ＳＯＵＳＡＰ．Ｓｐａｍｅｍａｉｌ

ｆｉｌｔｅｒｉｎｇｕｓｉｎｇｎｅｔｗｏｒｋ－ｌｅｖｅｌｐｒｏｐｅｒｔｉｅｓ［Ｃ］．Ｂｅｒｌｉｎ：

１０ｔｈＩｎｄｕｓｔｒｉａｌ

Ｃｏｎｆｅｒｅｎｃｅ

ｏｎ

ＤａｔａＭｉｎｉｎｇ，２０１０．

［１２］邓国强，李芝棠，李冬，等．基于邮件行为异常的垃圾

邮件客户端检测［Ｊ］．广西大学学报：自然科学版，

２０１１，３６（Ａ０１）：ｉ００－１０４．

ＤＥＮＧＧｕｏｑｉａｎｇ，ＬＩＺｈｉｔａｎｇ，ＬＩＥＭｎｇ。ｅｔａ１．Ｄｅｓｉｇｎ

ａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆａ

ｂｅｈａｖｉｏｒｂａｓｅｄａｌｇｏｒｉｔｈｍｔＯ

ｄｅｔｅｃｔｓｐａｍｚｏｍｂｉｅ

ｃｌｉｅｎｔ［Ｊ］．Ｊｏｕｒｎａｌ

ｏｆＧｕａｎｇｘｉＵｎｊ—

ｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ），２０１１，３６（Ａ０１）：

１００—１０４．（ｉｎＣｈｉｎｅｓｅ）．

［１３］王美珍．垃圾邮件行为模式识别与过滤方法研究［Ｄ］．

武汉：华中科技大学，２００９．

［１４］ＦＩＵＭＡＲＡＧ，ＭＡＲＣＨＩＭ，ＰＡＧＡＮ０

Ｒ．

Ｒｕｌｅ－

ｂａｓｅｄｓｐａｍＥ－ｍａｉｌ

ａｎｎｏｔａｔｉｏｎ［Ｃ］．ＷｅｂＲｅａｓｏｎｉｎｇａｎｄ

ＲｕｌｅＳｙｓｔｅｍｓ，ＦｏｕｒｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，Ｂｒｉｘ—

ｅｎ：Ｓｐｒｉｎｇｅｒ，２０１０．

［１５］ＶＡＰＮＩＫ

Ｖ．Ｔｈｅ

ｎａｔｕｒｅ

ｏｆｓｔａｔｉｓｔｉｃａｌｌｅａｒｎｉｎｇｔｈｅｏｒｙ

［Ｍ］．Ｎｅｗ

Ｙｏｒｋ：Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，１９９５．

（责任编辑：徐金龙）

基于行为与时间特征的垃圾邮件检测方法

作者：

作者单位：刊名：英文刊名：年，卷(期)：

邵叶秦，施佺， SHAO Yeqin， SHI Quan

邵叶秦,SHAO Yeqin(南通大学现代教育技术中心,江苏南通226019;上海交通大学电信学院,上海200240)，施佺,SHI Quan(南通大学现代教育技术中心,江苏南通,226019)

解放军理工大学学报（自然科学版）

Journal of PLA University of Science and Technology(Natural Science Edition)2013,14(5)

参考文献(15条)

1. COHEN W Learning rules that classify E-mail 1996

2. LAI G H;CHOU C W;CHEN C M Anti-spam filter based on data mining and statistical test 20093. 高良诚基于多规则的客户端邮件过滤系统[期刊论文]-铜陵学院学报 2008(02)

4. 曾小宁一种新的垃圾邮件过滤技术的研究与实现[期刊论文]-计算机应用与软件 2009(07)5. WANG Wenjia Heterogeneous bayesian ensembles for classifying spam emails 2010

6. CHI H T;HSU Y M;WAN S W A research on using support vector machine to classify chinese spam 20097. ABU Z R;MOHAMMAD A H Spam detection using genetic assisted artificial immune system 2011(08)8. MOHAMMED F AHMED M;MANASRAH A behavior based algorithm to detect spam Bots 2010

9. NAKSOMBOON S;CHARNSRIPINYO C;WATTANAPONGSAKORN N Considering behavior of sender in spam mail detection 201010. HAYATI P;CHAI K;POTDAR V Behaviour-based Web spambot detection by utilising action time and action frequency 201011. CORTEZ P;CORREIA A;SOUSA P Spam email filtering using network-level properties 2010

12. 邓国强;李芝棠;李冬基于邮件行为异常的垃圾邮件客户端检测[期刊论文]-广西大学学报(自然科学版) 2011(A01)13. 王美珍垃圾邮件行为模式识别与过滤方法研究[学位论文] 2009

14. FIUMARA G;MARCHI M;PAGANO R Rulebased spam E-mail annotation 201015. VAPNIK V The nature of statistical learning theory 1995

引用本文格式：邵叶秦. 施佺. SHAO Yeqin. SHI Quan 基于行为与时间特征的垃圾邮件检测方法[期刊论文]-解放军理工大学学报（自然科学版） 2013(5)

基于行为与时间特征的垃圾邮件检测方法

相关内容

热门内容