Исследование сетевого трафика
web-ресурса www.energy-links.com
Петрозаводский
государственный университет,
zhukov@karelia.ru, iaminova@karelia.ru
На сегодняшний день
существуют экспериментальные подтверждения о том, что поведение Internet трафика имеет самоподобную (фрактальную)
структуру, [4-7]. Свойство самоподобия характеризуется тем, что при изменении
шкалы измерений корреляционная структура рассматриваемого самоподобного процесса
не изменяется.
В качестве объекта
исследования была выбрана Интернет система Energy-Links.
База данных системы содержит информацию о компаниях работающих в области энергоэффективных технологий Баренцева региона и позволяет эффективно
осуществлять поиск необходимой информации. Это бесплатная система была создана
совместными усилиями Норвежской группы энергоэффективности
(НГЭЭ), Российскими демонстрационными зонами (РусДем),
Центром энергетической эффективности Мурманской области (ЦЭЭМО) и Карельской
Ассоциации энергетической эффективности (КАЦЭЭ). Заинтересованные организации
размещают информацию о себе по адресу в интернете http://www.energy-links.com. На сегодняшний день в базе
данных зарегистрировано более 2000 компаний.
В данной статье
анализируются статистика посещаемости, сведения об объеме информации,
полученной пользователями системы в
период с августа 2001 по июль 2002 года.
Для начала рассмотрим
основные определения. Пусть Z=(Zn, n ≥
0) – стационарный (2-го порядка) процесс в дискретном времени. Построим новый
процесс Zn(m),
получаемый разделением исходного
процесса на блоки размера
m ≥
1, т.е.
Znm +…+Z(n+1)m-1
Zn(m)=
mH
- это так
называемый агрегированный процесс.
Процесс Z с математическим
ожиданием EZ1< ∞ и дисперсией DZ1< ∞
называется самоподобным с параметром (Херста) самоподобия
H Є (0, 1), если для каждого m ≥ 1 процессы (Zn(m), n ≥ 0) и (Zn, n ≥ 0) имеют одинаковые конечномерные распределения,
[1].
Таким образом, исходный
процесс и агрегированный процесс имеют одинаковую структуру для любого
параметра шкалы m ≥ 1. Если при этом
ковариационная функция агрегированного процесса не зависит от m, то исходный процесс Z называется самоподобным второго порядка, [1].
В качестве
исследуемого объекта мы рассматриваем количество посещений сервера www.energy-links.com
в период с по августа 2001г. по июль
2002г по дням. На рис.1 приведен график посещаемости сервера.
Для проверки процесса посещаемости на самоподобие строятся агрегированные процессы с изменением шкалы. На рис.2 а) и б) изображены графики агрегированных процессов с объединением данных по 3 дня, по 6 дней, соответственно (m=3; 6).
|
|
Рис. 2.
Агрегационный процесс Z(m), а) m=3; б) m=6.
При различных параметрах m и H сравнивались
графики агрегированного и исходного процессов посещаемости. Визуально по
графикам было определено, что структура
исходного процесса не нарушается при параметре самоподобия H=0.84.
Таким
образом, мы экспериментально вычислили параметр Н, значение которого находится
в интервале (1/2, 1), что, кроме того,
подтверждает сохранение долговременной зависимости между данными, [1].
Одна
из возможных причин, объясняющих
самоподобную структуру и
долговременную зависимость сетевого трафика, – размеры передаваемых файлов и
количество одновременных подключений имеют распределение с тяжелым хвостом,
[1-3]. Это означает, что эти данные принимают большие значения с достаточно
большими вероятностями, что может приводить
к отказам и замедлению работы сервера.
Будем
говорить, что случайная величина (с.в.) X имеет распределение с тяжелым хвостом, если хвост ее функции распределения имеет следующий вид:
1-F(x) = x - α L(x),
где L(x) – медленно меняющаяся функция, т.е. L(tx)/L(t) →1 при t→∞, для всех x > 0. Наиболее простой случай медленно меняющейся
функции – константа.
Тогда тангенс угла
наклона линии регрессии,
построенной по группам
данных { Ln ( x ) ; Ln
(1-F(x)) },
равен значению индекса - α. На рис. 3 приведен
график хвоста эмпирической функции распределения 1-F(x)
в логарифмической шкале, где в качестве исходных данных рассматривались длины
пересылаемых файлов за период с августа 2001г. по июль 2002г.
Вычислив тангенс угла
наклона, мы получили, что индекс тяжести
хвоста α=0.4. Для того,
чтобы убедиться в том, что исследуемая выборка действительно имеет
распределение с тяжелым хвостом с параметром
α= 0.4 мы воспользовались критерием
Колмогорова-Смирнова для проверки гипотезы о виде функции распределения с
уровнем значимости 0.05. Аналогично был вычислен параметр α=0.8
для количества уникальных посещений.
Таким образом, в ходе
исследований выяснено наличие самоподобной структуры с индексом H=0.84 и долговременной
зависимости сетевого трафика www.energy-links.com. Кроме того, было
доказано, что размеры передаваемых файлов через этот web
ресурс имеют распределение с очень
тяжелым хвостом с индексом тяжести хвоста α = 0.4,
а количество посещений - с индексом 0.8.