P2P应用识别与控制技术白皮书 DV OnLine.数码视频在线数字摄像机数字视频处理视频采集卡编辑软件

　　摘要：P2P是peer-to-peer的缩写，peer在英语里有"（地位、能力等）同等者"、"同事"和"伙伴"等意义。这样一来，P2P也就可以理解为"伙伴对伙伴"的意思，或称为对等联网。目前人们认为其在加强网络上人的交流、文件交换、分布计算等方面大有前途。

--------------------------------------------------------------------------------

    1.1 背景

    P2P是peer-to-peer的缩写，peer在英语里有"（地位、能力等）同等者"、"同事"和"伙伴"等意义。这样一来，P2P也就可以理解为"伙伴对伙伴"的意思，或称为对等联网。目前人们认为其在加强网络上人的交流、文件交换、分布计算等方面大有前途。

    P2P还是point to point 点对点下载的意思，它是下载术语，意思是在你自己下载的同时，自己的电脑还要继续做主机上传，这种下载方式，人越多速度越快，但缺点是对你的硬盘损伤比较大（在写的同时还要读），还有就是对你内存占用较多，影响整机速度！

    德国互联网调研机构ipoque称，P2P已经彻底统治了当今的互联网，其中50-90％的总流量都来自P2P程序。在P2P程序里，BitTorrent已经超过eDonkey(含eMule)，占了P2P流量的50~70％，而后者根据地区不同份额为5~50％，不过在某些地方，eDonkey仍是P2P首选。

    P2P(Peer-to-Peer)技术自出现以来，便得到了快速的普及和发展，尤其是应用最为广泛的P2P文件共享技术。由于P2P软件不断地进行更新，新的P2P软件也在不断涌现，并且P2P用户所共享的文件大多是最新或者最流行的，越来越多的人被吸引到P2P的阵营当中，P2P流量在整个网络流量中的比重与日俱增。据统计，仅在短短的几年时间内，P2P流量已经占据了固定网络中6O 以上的带宽，对Web，Email等其他网络服务构成了严重威胁。于是，如何识别P2P流量以及对其进行控制，渐渐成为了人们比较关心的问题。

    基于P2P技术开发的软件，具有如下几个典型特征：

    1、软件类型非常繁多，且采用的通信协议不规范，不标准；

    2、每一个主机既是服务器，也是客户端，没有明显的中央控制单元，流量具有网状连接特征，很难识别；

    3、网络逃避运营商等对P2P业务的控制，普遍采用加密传输、频繁更新协议特征等技术，导致识别控制困难。

    1.2 传统P2P应用识别与控制方法

    到目前为止传统的P2P应用识别与控制方法主要有如下四类：

    第一类技术：利用端口进行P2P流量识别即对各种P2P软件的相应流量进行研究，并归纳出常用的一个或多个固定端口(如KuGoo软件通用的商业端口是7000)。然后在流量检测过程中，一旦发现有流量的端日与已归纳出的端口相同，就可以确定该流量属于P2P流量，并属于某一种P2P软件引。但是对于利用端口识别P2P流量，现在大多数P2P软件都不再使用固定端口，或使用动态端口，或在软件中设有端口设置功能供用户自行设置端口，甚至有的P2P软件使用8O等其它业务的固定端口号，以欺骗流量检测设备。

    第二类技术：用关键字进行P2P流量识别也是在研究各种P2P软件相应流量的基础上实现的。这时对流量研究的目的不再是归纳特征端口，而是归纳出流量所有数据包中都含有的或者出现频率最高的特征字符串即关键字，一般关键字的出现位置也是有严格要求的。然后在流量检测过程中，对数据包进行深度检测。如果关键字匹配成功，就可以确定该流量属于P2P流量及其所属软件类别。但是随着P2P技术的不断发展，上述方法已出现了明显的弊端。对于利用关键字识别P2P流量，关键字符串的部分或全部字节可能随软件的运行环境、版本等的改变而改变。

第三类技术：就是利用大于1024的TCP/UDP端口数进行P2P识别的技术。但是，该方法无法将P2P业务和端口扫描、DdoS攻击等类型的流量区分开来。

    第四类技术：利用IP地址连接的通信对端IP地址的数量进行P2P识别的技术。但是该方法无法区分一个IP地址是否属于一个为众多用户提供服务器的设备，还是一个用户在大量发起P2P连接。

    因此综上所述，传统的P2P应用识别技术已经不能应对P2P技术本身的发展和变化了。

    1.3 BMC P2P应用识别与控制技术概述

    BMC专利技术——<一种基于数学建模技术应用于P2P网络的流量识别与控制的方法>,通过对P2P技术特征的分析，得出典型的P2P流量模型，通过模型特征值的提取，能够非常高效便捷的对它们进行识别。

    BMC的P2P专利识别技术提供一种基于数学建模技术应用于P2P网络的流量识别与控制的方法，具体来说：就是对网络中的每一个IP地址的通信会话进行数学建模，采集该IP地址活动会话所连接的对端IP地址分布、TCP/UDP端口分布和会话状态信息，利用数学建模技术产生数学模型特征值；将数学模型特征值与预设的P2P流量数学模型参数进行匹配；在与P2P流量数学模型参数匹配的情况下，判定该IP地址当前正在使用P2P技术进行数据传输；根据预先配置的P2P流量控制策略，对该IP地址的所有符合P2P特征的流量进行控制。

    上述预设的P2P流量数学模型参数包括最小IP地址扩散度Cip、最小TCP/UDP端口扩散度Mport、最大会话接通率Cratemax和最小会话接通率Cratemin，上述四个参数被配置到数学模型库中。

    本技术优于传统P2P识别技术之处在于：

    1、本技术不依赖于对报文的内容进行关键字或者特征码识别，因此，本技术能够对加密的P2P和未知的新出现的P2P流量进行识别；

    2、本技术不是仅仅依靠对高于1024的TCP/UDP端口进行统计，识别P2P，它避免了把P2P流量和网络扫描、DdoS攻击等流量混淆起来。因此更精确；

    3、本技术不是仅仅依靠对IP地址所连接的对端IP地址数量进行统计，因此避免了把P2P流量和网站服务器的流量混淆。