Обычные методы вторжения и обнаружения для оценки сетевых аномалий имеют несколько препятствий для крупномасштабных наборов данных по сверхмощным сетям с разрозненными источниками данных, поступающих с высокой скоростью и в больших объемах. Методы машинного обучения и искусственного интеллекта добывают огромные наборы сетевых данных с распределением IP-адресов, что позволяет проводить дихотомию сетевого трафика на основе потоков для диагностики сетевых аномалий в качестве эффективного решения. Симплекс и аналогичный размер распределения IP-адресов с одинаковыми атрибутами, попадающий в анализ на основе потоков через регулярные промежутки времени, отображают симптомы сетевых аномалий. Различные инструменты мониторинга потоков, такие как nProbe и FlowMon Probe, обнаруживают эти вторжения в гигабитных сетях. Двумя ключевыми методами обнаружения NetFlow, основанными на крупномасштабных и высокоскоростных сетях, являются: a) метод вторжения со злоупотреблением; б) метод обнаружения сетевых аномалий. Система обнаружения вторжений может распознавать шаблоны на основе сигнатур, а также неизвестные атаки с инфляцией попаданий. Методика машинного обучения с искусственной нейронной сетью. Метод обнаружения вторжений с нейронной сетью многослойного восприятия с реализацией метаэвристических алгоритмов позволяет анализировать крупномасштабные сетевые наборы данных. Cisco, одна из первых сетевых компаний, представила собственный протокол NetFlow, установленный в качестве встроенного ПО в маршрутизаторах Cisco, которое может отслеживать и анализировать потоки трафика.

Крупномасштабные журналы, создаваемые высокоскоростными сетями и сетями большого объема, обрабатывающими массивные наборы данных, могут проявлять свойства аномалий сетевого трафика. Наемные инструменты анализа трафика не могут обрабатывать объем и достоверность больших данных, проходящих через высокоскоростную сеть, и не могут обнаруживать сетевые аномалии. Использование алгоритмов кластеризации и интеллектуального анализа данных, таких как K-Means на кластерах Hadoop, может предложить возможное решение для выявления сетевых аномалий. Алгоритм K-средних может создать гистограмму для определения сходства кластеров и разбить кластеры, группируя IP-адреса в распределенной системе, также отображая время другого критического фактора. Разделенные блоки кластеров с помощью алгоритма K-средних могут отображать аномалии и отклонения от других кластеров. Университет Чулалонгкорн реализовал проект путем передачи крупномасштабных файлов журналов в кластер Hadoop в качестве этапа предварительной обработки примерно с четырьмя миллионами обращений в месяц. Apache Mahout используется для применения алгоритма K-средних и создания визуализации данных для отображения консолидированной сводки отклоненных IP-адресов и кластеров. AWStats и Snort - это несколько других систем обнаружения сетевых вторжений для анализа и борьбы с атаками инфляции.

Большое количество пользователей, получающих доступ к определенному общедоступному IP-адресу, составляет размер IP. Размер IP может увеличиваться экспоненциально по мере увеличения трафика. Требуется структура статистики для оценки и определения размера IP с помощью методов анализа данных, визуализации данных и распараллеливания на платформе MapReduce. Аномалии сетевого трафика явно отклоняются от размера распределения IP. Эти сгенерированные машиной атаки показывают частое переназначение протоколов динамической конфигурации хоста. Методы оценки для определения размера IP должны учитывать файлы журнала приложений для оценки размера на основе запроса, запущенного в поисковой системе Google или нажатия на объявление в вычислительной инфраструктуре Google. Оценка может быть двухмерной, учитывая как время, так и приложение для определения конкретного размера IP. Количество пользователей, нажимающих на рекламу или выполняющих запрос в Google, экспоненциально увеличивается и уменьшается в зависимости от времени критического фактора, основанного на уровне активности. С помощью регрессионного анализа и прогнозной аналитики можно предсказать предполагаемый размер IP. Используя платформу MapReduce с алгоритмом PredictSizes и функцией Combiner, можно предсказать размер IP. Выборка данных из 10 миллионов IP-адресов показала более высокую точность такой модели прогнозирования . Масштабный анализ сетевого трафика, выполняемый для обнаружения аномалий в сети с распределением размеров IP, основан на широкомасштабном развертывании Google на их предприятии.

Одним из методов обнаружения аномалий сетевого трафика с помощью компьютерных атак может быть метод фильтрации с учетом размера IP-распределения с техникой распараллеливания на платформе MapReduce с учетом переназначения протоколов динамической конфигурации хоста. Google развернул фильтр трафика на основе распределения IP-адресов для обнаружения компьютерных атак и сетевых аномалий. Атаки ботнета могут быть обнаружены на основе контроля над несколькими хостами и генерации огромного объема трафика через узлы TOR или анонимные прокси. Метод фильтрации гистограммы на основе распределения IP - это еще один метод выявления аномалий сетевого трафика с размером распределения IP. Мало других методов, таких как объединение идентичных издателей для просеивания географических размеров IP-адресов, сгенерированных для издателей, для борьбы с прокси-атаками, генерирующими сетевой трафик. Основываясь на агрегированных издателях по разным группам, можно применить статистическую структуру для трафика кликов с пороговой моделью, основанной на параметрах времени и показателя качества.

Конструктивные принципы метода

Сходство между диапазоном IP-адресов обеспечивает основанный на сигнатуре шаблон для системы обнаружения аномалий для обнаружения аномалий в сети. В этом сценарии большое количество массивов IP-адресов назначается аналогичному IP-адресу. Однако для обнаружения аномалий на основе сигнатур требуется более ранняя идентификация закономерностей без использования статистической основы. Аномалии, не основанные на сигнатуре, требуют нескольких подходов и методов для обработки сетевых аномалий. Распределенный анализ главных компонентов, негауссовская статистическая структура, статистические методы с анализом на основе сигналов и комбинация всех методов могут идентифицировать аномалии в сетевом трафике (Huang, Al-Azzwai, & Brani, 2014) . Большинство методов выявления сетевых аномалий с помощью распределения размеров IP включают в себя принципы разработки статистической структуры, основанную на характеристиках классификацию щелчков по меткам с помощью машинного обучения, алгоритмы, специальные функции Combiner на платформе MapReduce. Эвристика - это часть принципов проектирования, позволяющих маркировать недобросовестный трафик кликов, чтобы найти паттерны сети, отклоняющиеся от обычного сетевого трафика. Построение параметрических статистических моделей для обучения данных с помощью алгоритмов машинного обучения и сопоставление с моделью обычного сетевого потока может выявить различия аномалий. Метод фильтрации гистограммы с использованием массива IP-адресов для обнаружения аномалий в сетях.

Развертывание Google распределенной инфраструктуры MapReduce с методом фильтрации гистограмм для обнаружения аномалий в сети было использовано для выполнения анализа и решения проблем производительности, связанных с колоссальным трафиком, проходящим через сеть. Google использовала методы распределения больших массивов данных по сотням машин с помощью методов map и reduce. Статистическая структура с пороговой моделью была реализована для определения периода для сегментирования данных на основе установленного процентного порогового значения. Фильтры извлекают данные конкретно за определенный период вместе с определенным периодом тестирования. Считается, что показатель качества устанавливает пороговую модель. С помощью этого метода распределение размера IP-адресов было разделено для двух издателей X и Y. По горизонтали на оси X каждый сегмент размера IP был представлен с переменной вероятности, определенной на оси Y. Сходимость точек данных представляет собой количество кликов через издателей и соответствующий показатель качества. Показатель кликов и показатель качества определяют показатель мошенничества для аномалии. Чтобы решить проблемы с производительностью, метод фильтра гистограммы отображает количество запусков за каждый день в течение определенного периода тестирования. Фильтр гистограммы с распределением размера IP помечает объекты оскорбительных кликов, дифференцируя их с законными кликами, чтобы вычислить трафик кликов для оценки качества. Сущность может быть географически распределенной, и каждая представляет конкретную страну, конкретного издателя или город.Метод ансамблевого обучения используется для объединения всех статистических методов, соответствующих каждому помеченному объекту, для сравнения и сопоставления каждого распределения от каждого метода к улучшить точность и высокую точность воспроизведения, сводя к минимуму перекос. Наконец, статистическая структура с регрессионной моделью применяется для категоризации недобросовестных кликов, анализируя огромные журналы данных, генерируемые приложениями с IP-адресами.

использованная литература

Хуанг Х., Аль-Аззвай Х. и Брани Х. (2014). Обнаружение аномалий сетевого трафика. Получено 17 мая 2016 г. с сайта http://arxiv.org/pdf/1402.0856.pdf.

Кинд, А., Стоклин, М. П., & Димитропулос, X. (2009). Обнаружение аномалий трафика на основе гистограмм. Получено 17 мая 2016 г. с веб-сайта http://www.csg.ethz.ch/people/dimitroc/papers/TNSM-I8-P0271.pdf.

Сакр, С., и Габер, М. (2014). Крупномасштабные и большие данные: обработка и управление. Бока-Ратон, Флорида: публикации Auerbach.

Тердпхапиянак, Дж., и Пиромсопа, К. (2013). Применение Hadoop для анализа журналов распределенных IDS. ICUIMC ’13 Труды 7-й Международной конференции по повсеместному управлению информацией и коммуникациям. http://dx.doi.org/10.1145/2448556.2448559

Ю. С., Линь X., Мисич Дж. и Шен X. С. (2015). Сети для больших данных (серия Chapman & Hall / CRC Big Data). Бока-Ратон, Флорида: Чепмен и Холл / CRC.