首页 > 代码库 > 第二周毕业设计任务书(3.8--3.15)

第二周毕业设计任务书(3.8--3.15)

1、周计划表

时间 计划进度 是否完成
3.8--3.15 了解KDDUP99数据集,以及所包含的属性,数据预处理思想  
3.16--3.23  代码实现数据预处理  
3.24--3.30  与算法的融合  
等等    

1、本周内容:

  1)KDDCUP99数据集

   一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。

  KDDCUP99数据集中每个连接(*)用41个特征来描述:

     1. TCP连接基本特征(共9种)

     2. TCP连接的内容特征(共13种)

     3. 基于时间的网络流量统计特征 (共9种,23~31)

     4. 基于主机的网络流量统计特征 (共10种,32~41)

    (具体的特征暂略)


 2)数据的预处理

    (1) protocol type: 1-icmp; 2-tcp; 3-udp; 4-others.  

    (2) service: domain-u 1;  ecr_i 2;  eco-i 3;  finger 4;  ftp-data 5;  ftp 6;  http 7;  hostnames 8; imap4  9;   login 10;  mtp 11;  netstat 12;  other 13;  private 14;  smtp 15;  systat 16;  telnet 17; time 18; uucp 19;   其他服务 20;

    (3) flag: 1-REJ; 2-RSTO; 3-RSTR; 4-S0; 5-S3; 6-SF; 7-SH; 8-OTHERS;

    (4)其他数据归一化处理:x∈[xmin,xmax], t=(x-xmin)/(xmax-xmin) ∈[0,1].

 

 3)相应的算法。

      设技术分享为一个待分类项,而每个a为x的一个特征属性。有类别集合技术分享。(摘自来自第一次任务书)

  1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

      2、统计得到在各类别下各个特征属性的条件概率估计。即技术分享

      3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

      技术分享

      因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

      技术分享

(计算技术分享,如果技术分享,则技术分享。 关键就是如何计算第技术分享中各个条件概率——摘自第一次计划书)

 

4.你本周参考资料。

http://blog.sina.com.cn/s/blog_4ae073680101g1fh.html

http://blog.csdn.net/com_stu_zhang/article/details/6987632

5.你本周实现的代码及截图。

暂无

6.你本周的体会。

KDDCUP99数据具有诸多属性,数据预处理可以简化许多冗余数据,并且通过设定关键值来处理。30万的数据量可能对之后的实验运行会带来一些挑战,不过数据预处理后的样本训练就是机器工作,数据预处理对之后的精确度有很大影响,所以要重视。

 

第二周毕业设计任务书(3.8--3.15)