Проблемы в корпоративных решениях для хранения данных

Отказ диска - серьезная проблема, которая изучается в течение многих лет. Система избыточного массива независимых дисков (RAID), созданная для защиты данных путем хранения одних и тех же данных на нескольких дисках, представляет собой традиционную технологию для преодоления потери данных из-за сбоя диска.

Программно-определяемое хранилище (SDS) позволяет предприятиям снизить стоимость ИТ-инфраструктуры. В отличие от RAID, который построен на запатентованной системе хранения, требующей нестандартной конструкции, SDS превращает обычное оборудование в мощные системы хранения за небольшую часть стоимости. Одним из ярких примеров является Ceph, распределенное программно-определяемое хранилище, которое принимает несколько копий данных, чтобы обеспечить достаточную избыточность и исключить потерю данных после сбоя диска.

Когда предприятию необходимо иметь дело с SLA по производительности, наиболее распространенным подходом является избыточное выделение ресурсов. Однако это увеличивает капитальные и операционные расходы и не соответствует первоначальной цели SDS. Еще одна проблема, о которой часто забывают, заключается в том, что при выходе из строя диска данные необходимо восстанавливать. Во время процесса восстановления данных качество обслуживания, предоставляемого системой хранения, может быть негативно затронуто, а процесс восстановления обычно является довольно дорогим и трудоемким для RAID, Ceph и других решений SDS, таких как vSAN. Самые популярные сегодня решения для хранения данных обеспечивают доступность данных за счет дорогостоящего аппаратного резервирования.

Становится возможным прогнозирование состояния работоспособности диска

Отказ жесткого диска (HDD) можно разделить на две категории: предсказуемые и непредсказуемые сбои. Предсказуемые отказы происходят в процессе постепенного ухудшения работы, тогда как непредсказуемые отказы происходят без предупреждения. Производители жестких дисков собирают атрибуты, связанные с отказами, чтобы помочь диагностировать состояние диска. Эта технология, получившая название технологии самоконтроля, анализа и отчетности (S.M.A.R.T.), была создана Compaq и со временем стала стандартом комитета SFF (Small Form Factor). Однако этот стандарт не обязывает производителей предоставлять одни и те же атрибуты, поскольку один механизм прогнозирования для одной модели диска не может быть напрямую применен к другим моделям дисков.

Первая задача, которую должны решить исследователи данных, - это какой S.M.A.R.T. атрибуты важны для прогнозирования работоспособности диска. Ниже приведен список некоторых известных атрибутов, связанных с отказом диска.

Компания Backblaze, занимающаяся облачным хранилищем, опубликовала несколько отчетов на эту тему. Они сравнили атрибуты № 5, № 187, № 188, № 197 и № 198 как на неисправных, так и на исправных дисках. Они также вычислили поправки между атрибутами и обнаружили, что № 197 и № 198 сильно коррелированы.

Из этого исследования с использованием S.M.A.R.T. атрибуты для прогнозирования отказа диска кажутся возможными и логичными. Однако, поскольку и рабочие диски, и неисправные диски могут иметь одинаковые значения атрибутов, нелегко правильно определить эти возможные неминуемые сбои дисков. Кроме того, эти вышедшие из строя диски без каких-либо очевидных изменений в S.M.A.R.T. атрибуты трудно найти, и их легко ошибочно диагностировать. Следующий рисунок демонстрирует эту ситуацию:

На этом рисунке все диски можно разделить на неисправный и исправный. В отказавшем наборе только те диски, на которых есть S.M.A.R.T. изменения атрибутов могут быть обнаружены. Следовательно, некоторые из вышедших из строя дисков не удалось идентифицировать. Точно так же диск может оставаться здоровым, даже если его S.M.A.R.T. атрибуты менялись с течением времени. Следовательно, это неявный критерий, лежащий в основе задачи прогнозирования отказа диска.

Оценка методологий

Перед тем, как начать прогнозирование, специалистам по обработке данных необходимо разработать метод оценки, чтобы судить об эффективности методов прогнозирования. Это не только вопрос определения того, вышел ли из строя диск, но и при каких условиях он вышел из строя. Как определяются такие условия?

Для достижения высокой плотности данных при том же размере диска современные жесткие диски имеют множество методов обеспечения целостности данных, таких как повторная передача данных, код обнаружения ошибок и код исправления ошибок. Наиболее распространенный код обнаружения ошибок - это циклический контроль избыточности (CRC). Это своего рода хеш-функция для создания чисел фиксированной длины в соответствии с пользовательскими данными. Эти числа затем передаются и сопровождаются данными пользователя для проверки целостности данных при получении. Пользователи могут обнаружить, что S.M.A.R.T. Атрибут # 199 предназначен для записи счетчика ошибок CRC UltraDMA. Имея только код обнаружения ошибок, нет других способов исправить ошибки, кроме определенной степени без повторной передачи. Существует множество алгоритмов кодирования кода исправления ошибок (ECC), и они обычно реализуются в протоколах нижнего уровня. Точно так же пользователи могут обнаружить, что S.M.A.R.T. атрибуты № 187, № 195 и № 204 предназначены для записи событий, связанных с ECC (см. Википедию для справки).

Есть и другие препятствия, которые следует учитывать: в какой степени скорость повторной передачи данных может быть диагностирована как сбой? Сколько счетчиков исправления ошибок допустимо? Более того, сколько запасных блоков производители дисков оставляют для замены плохих блоков? На эти вопросы нет простого ответа, но для того, чтобы прогнозирование отказа диска стало реальностью, эти вопросы неизбежны.

Предположим, пользователь ответил на вышеуказанные вопросы. Следующий вопрос будет заключаться в том, за сколько дней нужно спрогнозировать сбой? Ответ зависит от методологии прогнозирования и плана резервного копирования данных.

Наконец, для оценки результатов прогнозов наиболее распространенным методом является точность и отзыв. Истинно-положительный результат определяется как отказавший диск, который прогнозируется как отказавший, тогда как истинно отрицательный определяется как исправный диск, который прогнозируется как исправный. Таким образом, ложное срабатывание означает, что исправный диск ошибочно определяется как неисправный, а ложно-отрицательный означает, что отказавший диск ошибочно считается исправным. Учитывая это, точность определяется как процент правильно спрогнозированных отказавших дисков от общего числа спрогнозированных отказавших дисков, а отзыв определяется как процент правильно спрогнозированных отказавших дисков. предсказал отказавшие диски из общего числа фактически отказавших дисков.

Идеальная цель алгоритма прогнозирования - всегда достигать как высокой точности, так и высокого значения отзыва. Однако в действительности невозможно достичь 100% точности предсказания, и обычно существует компромисс между значением точности и значением отзыва в алгоритме предсказания.

Методологии прогнозирования

Backblaze использовал статистическую методологию при попытке отличить неисправные диски от исправных, работающих дисков. Однако в одном случае этот метод обнаружил только 448 отказавших дисков на 1000 отказавших дисках с использованием тайм-аута команды (атрибут # 188 S.M.A.R.T.) и неверно диагностировал 48 дисков (4,8%) как исправные. Этот результат прогноза может вызвать 48 случаев низкой производительности.

Более перспективным подходом является использование алгоритмов машинного обучения, таких как машина опорных векторов (SVM), дерево решений (DT), случайный лес (RF), градиентно-усиленное дерево (GBT), глубокое обучение и т. Д. Среди прочего, глубокое обучение становится популярным благодаря доступности недорогих, постоянно увеличивающихся вычислительных мощностей компьютеров. Было предложено несколько различных архитектур с разными возможностями, таких как сверточная нейронная сеть (CNN), рекуррентная нейронная сеть (RNN), генерирующая состязательная сеть (GAN), долгосрочная краткосрочная память (LSTM) и т. Д. CNN обычно применяется для классификация и распознавание изображений, рекомендательные системы и обработка естественного языка (NLP), а также возможность захвата функций в многомерных пространствах. RNN и LSTM могут обрабатывать данные временных рядов, такие как распознавание рукописного ввода и распознавание речи.

Как упоминалось выше, эту методологию машинного обучения можно выборочно использовать в каждом аспекте S.M.A.R.T. атрибуты. Чтобы проиллюстрировать, связанные с температурой атрибуты №190 и №194 могут иметь хорошие результаты прогнозирования с использованием методов, подобных пороговым, таких как DT и RF, потому что на силу магнетизма в определенной степени влияет температура. С другой стороны, характеристики счетчика пуска / останова (№4) и времени включения (№9) отличаются от температуры тем, что они являются строго возрастающими функциями. Если применяются методы, подобные пороговым, можно легко обнаружить, что результаты прогнозирования чрезмерно соответствуют обучающим данным.

Проблемы прогнозирования для альтернативных технологий

Самая важная и ответственная задача еще не завершена - это предварительная обработка данных и выбор функций. Есть и другие факторы, которые необходимо учитывать пользователям, например разные производители, разные модели дисков, разные технологии, текущий срок службы диска, разные S.M.A.R.T. атрибуты и т. д. Поскольку жесткий диск - это механическое устройство, множество физических отклонений могут существенно повлиять на срок службы диска.

Различные технологии, например, высокопроизводительные жесткие диски, используют гелий для уменьшения сопротивления и турбулентности. Это не только решает проблемы аэродинамики, но также улучшает энергопотребление, шум, емкость и т. Д. Самым важным достоинством при отказе диска является то, что накопители, заполненные гелием, представляют собой герметичные конструкции без кислорода, влаги и загрязняющих веществ. Жесткий диск имеет гораздо больший срок службы и более высокую надежность. Однако эти преимущества достигаются за счет идеального твердого вещества, предотвращающего потерю гелия. УМНЫЙ. атрибут №22 предназначен для измерения уровня гелия внутри жестких дисков. Для прогнозирования отказа диска у накопителей, заполненных гелием, есть другой процесс износа, который изменяет исходный алгоритм прогнозирования.

Существуют также другие технологии, влияющие на успех прогнозирования. Магнитная запись с галькой (SMR) увеличивает плотность хранения за счет наложения дорожек, а магнитная запись с подогревом (HAMR) и магнитная запись с использованием микроволн (MAMR) используют технологию с использованием энергии, чтобы преодолеть ограничения поверхностной плотности для той же цели. Эти технологии могут неизбежно изменить частоту ошибок данных. Если прогноз использует один и тот же порог на одном и том же S.M.A.R.T. это определенно повлияет на атрибуты, точность и отзыв.

Учитывая все обстоятельства, точное прогнозирование состояния диска - непростая задача. Однако, если производительность критически важной системы или SLA могут быть значительно ухудшены из-за отказа диска или медленного диска, то стоит потратить усилия на реализацию алгоритма прогнозирования работоспособности диска, чтобы облегчить проблему.

Мы в ProphetStor разработали технологию, основанную на глубоком обучении, для определения состояния диска и прогнозирования его срока службы для решения многих проблем, вызванных отказом диска. Например, случайный сбой диска или медленный диск могут вызвать значительное снижение производительности в часто используемых кластерах хранения Ceph. Благодаря этой технологии замена диска в результате случайного сбоя становится заранее запланированным мероприятием. Меры, снижающие производительность. RAID и SDS становятся последним средством, а не обычной практикой для устранения сбоев диска. Сохранение вычислительных ресурсов для восстановления данных используется для адаптации к дополнительной рабочей нагрузке. Можно избежать непредсказуемого воздействия на рабочую нагрузку, поскольку резервное копирование и замена дисков выполняются в предсказуемое время с низкой нагрузкой с уверенностью. В следующей статье мы подробно расскажем, как мы применяем машинное обучение для достижения высокоточного прогнозирования состояния диска.

Чтобы узнать больше о DiskProphet, специализированном решении ИИ для решения непредсказуемых проблем с отказом дисков, типичных для любой ИТ-среды, посетите здесь.