Предизвикателства в корпоративните решения за съхранение

Повредата на диска е основен проблем и се изучава от години. Системата Redundant Array of Independent Disks (RAID), която е създадена да защитава данните чрез съхраняване на едни и същи данни на множество дискове, е конвенционална технология за преодоляване на загуба на данни поради повреда на диска.

Софтуерно дефинирано съхранение (SDS) представя начин за предприятията да намалят разходите за ИТ инфраструктура. За разлика от RAID, който е изграден върху собствена система за съхранение, която изисква персонализирани дизайни, SDS трансформира стандартния хардуер в мощни системи за съхранение на малка част от цената. Един изявен пример е Ceph, разпределено софтуерно дефинирано хранилище, което приема множество копия на данни, така че да има достатъчно излишък и да няма загуба на данни след повреда на диска.

Когато едно предприятие трябва да се справи със SLA за ефективност, свръхпровизирането е най-често срещаният подход. Това обаче увеличава капиталовите разходи и оперативните разходи и не отговаря на първоначалната цел на SDS. Друг често пренебрегван проблем е, че когато възникне повреда на диска, данните трябва да бъдат възстановени. По време на процеса на възстановяване на данните качеството на услугата, предоставяна от системата за съхранение, може да бъде отрицателно засегнато и процесът на възстановяване обикновено е доста скъп и отнема много време за RAID, Ceph и други SDS решения, като vSAN. Най-популярните решения за съхранение днес осигуряват наличност на данни чрез скъп хардуерен излишък.

Става възможно прогнозирането на здравословното състояние на диска

Повредата на твърдия диск (HDD) може да се класифицира в две категории: предвидими и непредвидими повреди. Предвидимите повреди възникват в процес на постепенно разграждане, докато непредвидимите повреди се случват без никакво предупреждение. Производителите на твърди дискове събират атрибути, свързани с повреда, за да помогнат при диагностицирането на здравословното състояние на диска. Тази технология се нарича Self-Monitoring, Analysis, and Reporting Technology (S.M.A.R.T.), която е създадена от Compaq и в крайна сметка се превърна в SFF (Small Form Factor) стандарт на Комитета. Въпреки това, този стандарт не принуждава производителите да предоставят едни и същи атрибути, тъй като една машина за прогнозиране за един модел диск не може да бъде директно приложена към другите модели дискове.

Първата задача, която учените по данни трябва да разберат, е коя S.M.A.R.T. атрибутите са важни за прогнозирането на здравето на диска. По-долу е даден списък на някои от известните атрибути, които са свързани с повреда на диска.

Backblaze, компания за облачно съхранение, публикува няколко „доклада“ по тази тема. Те сравниха атрибути #5, #187, #188, #197 и #198 както на повредени, така и на работещи дискове. Те също така изчисляват корекциите между атрибутите и откриват, че #197 и #198 са силно свързани.

От това изследване, използвайки S.M.A.R.T. атрибути за прогнозиране на повреда на диска изглежда осъществимо и логично. Въпреки това, тъй като както работещите дискове, така и повредените дискове могат да имат едни и същи стойности на атрибути, не е лесна задача правилното идентифициране на тези възможни предстоящи повреди на диска. Освен това тези повредени дискове без очевидни промени в S.M.A.R.T. атрибутите са трудни за намиране и лесно се диагностицират погрешно. Следната фигура демонстрира тази ситуация:

На тази фигура всички дискове могат да бъдат разделени на неуспешен комплект и здрав комплект. В неуспешния комплект само тези дискове, които имат S.M.A.R.T. могат да бъдат открити промени в атрибутите. Следователно някои от повредените дискове не могат да бъдат идентифицирани. По същия начин един диск може да остане здрав дори ако неговият S.M.A.R.T. атрибутите се променят с течение на времето. Следователно, това е косвен критерий, който е в основата на задачата за прогнозиране на повреда на диска.

Оценяване на методологии

Преди да започнат прогнозата, специалистите по данни трябва да изградят метод за оценка, за да преценят ефективността на методите за прогнозиране. Въпросът не е само да се определи дали даден диск е повреден, но и при какви условия дискът е повреден. Как се определят тези условия?

За постигане на висока плътност на данните в същия размер на диска, съвременните твърди дискове имат много техники за осигуряване на целостта на данните, като повторно предаване на данни, код за откриване на грешки и код за коригиране на грешки. Най-често срещаният код за откриване на грешки е циклична проверка на излишъка (CRC). Това е вид хеш функция за създаване на числа с фиксирана дължина според потребителските данни. След това тези номера се предават и се придружават от данните на потребителя, за да се провери целостта на данните при получаване. Потребителите могат да открият, че S.M.A.R.T. атрибут #199 е предназначен за записване на броя на грешките на UltraDMA CRC. Само с код за откриване на грешки няма други начини за коригиране на грешки, освен до известна степен без повторно предаване. Има много алгоритми за кодиране за код за коригиране на грешки (ECC) и те обикновено се изпълняват в протоколи от по-нисък слой. По същия начин потребителите могат да открият, че S.M.A.R.T. атрибут #187, #195 и #204 са за записване на събития, свързани с ECC (вижте Wikipedia за справка).

Има и други пречки, които трябва да се вземат предвид: До каква степен скоростта на препредаване на данни може да бъде диагностицирана като грешка? Колко броя за коригиране на грешки са приемливи? Освен това, колко резервни блока резервират производителите на дискове за подмяна на лош блок? Тези въпроси нямат лесен отговор, но за да стане реалност предвиждането на повреда на диска, тези въпроси са неизбежни.

Да предположим, че потребител е отговорил на горните въпроси. Следващият въпрос би бил колко дни предварително трябва да се предвиди повредата? Отговорът зависи от методологията за прогнозиране и плана за архивиране на данни.

И накрая, за оценка на резултатите от прогнозирането най-често срещаният метод е използването на „прецизност и припомняне“. Истински положителен се дефинира като повреден диск, който се прогнозира като повреден, докато истински отрицателен се дефинира като здрав диск, който се прогнозира като здрав. И така, фалшиво положително означава здрав диск, който е неправилно предвиден като повреден диск, а фалшиво отрицателен означава повреден диск, който е неправилно предвиден като здрав диск. Имайки предвид това знание, прецизността се дефинира като процент на правилно предвидени повредени дискове от общия брой предвидени повредени дискове, а припомнянето се дефинира като процент на правилно предвидени повредени дискове от общия брой дискове, които действително са се повредили.

Идеалната цел за алгоритъм за прогнозиране е винаги да се постигат както висока прецизност, така и висока стойност на извикване. В действителност обаче човек никога не може да постигне 100% точност на прогнозата и обикновено има „компромис“ между стойността на точност и стойността на извикване в алгоритъма за прогнозиране.

Методологии за прогнозиране

Backblaze използва статистическа методология, когато се опитва да класифицира повредени дискове от здрави, работещи дискове. Въпреки това, в един случай, този метод откри само 448 повредени диска в дадени 1000 повредени диска, използвайки изчакване на командата (атрибут #188 S.M.A.R.T.) и погрешно диагностицира 48 диска (4,8%) като здрави дискове. Този резултат от прогнозата може да причини 48 случая на ниска производителност.

По-обещаващ подход е използването на алгоритми за машинно обучение, като Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Gradient-Boosted Tree (GBT), дълбоко обучение и т.н. Наред с други, дълбокото обучение е става популярен с наличието на по-ниска цена, непрекъснато нарастваща мощност на компютърна обработка. Предложени са няколко различни архитектури с различни възможности, като например конволюционна невронна мрежа (CNN), повтаряща се невронна мрежа (RNN), генеративна състезателна мрежа (GAN), дългосрочна краткосрочна памет (LSTM) и др. CNN обикновено се прилага за класификация и разпознаване на изображения, препоръчителни системи и обработка на естествен език (NLP) и е в състояние да улавя характеристики в пространства с големи размери. RNN и LSTM могат да обработват данни от времеви серии, като разпознаване на ръкописен текст и разпознаване на реч.

Както бе споменато по-горе, тази методология за машинно обучение може да се използва избирателно във всеки аспект на S.M.A.R.T. атрибути. За илюстрация, свързаните с температурата атрибути #190 и #194 може да имат добри резултати при прогнозиране, като се използват подобни на прагове методи като DT и RF, тъй като силата на магнетизма се влияе от температурата до известна степен. От друга страна, характеристиките на броя старт/стоп (#4) и часовете на включване (#9) се различават от температурите по това, че са строго увеличаващи се функции. Ако се прилагат методи, подобни на прагове, лесно може да се установи, че резултатите от прогнозите са прекомерно напаснати към данните за обучение.

Предизвикателства пред прогнозите за алтернативни технологии

Най-важната и важна задача все още не е завършена, а именно предварителната обработка на данните и изборът на функции. Има повече фактори, които потребителите трябва да вземат под внимание, като различни производители, различни модели дискове, различна технология, текущ живот на диска, различни S.M.A.R.T. атрибути и т.н. Тъй като HDD е механично устройство, много физически отклонения могат да окажат значително влияние върху продължителността на живота на диска.

Различни технологии, например твърди дискове от висок клас, използват хелий за намаляване на съпротивлението и турбуленцията. Той не само решава аеродинамичните проблеми, но също така облагодетелства консумацията на енергия, шума, капацитета и т.н. Най-важната заслуга за повреда на диска е, че пълните с хелий устройства са запечатани структури без кислород, влага и замърсители. HDD има много по-дълъг живот и по-висока надеждност. Въпреки това, тези предимства идват на цената на перфектно твърдо вещество за предотвратяване на загуба на хелий. S.M.A.R.T. атрибут #22 е предназначен за измерване на нивото на хелий в HDD. За прогнозиране на повреда на диска, пълните с хелий устройства имат различен процес на износване, което променя оригиналния алгоритъм за прогнозиране.

Има и други технологии, които влияят на успеха на прогнозирането. Магнитният запис с плочки (SMR) увеличава плътността на съхранение чрез припокриване на пътеки, а магнитният запис с помощта на топлина (HAMR) и магнитният запис с помощта на микровълни (MAMR) използват енергийно подпомагана технология, за да нарушат ограниченията на площната плътност за същата цел. Тези технологии могат неизбежно да променят процента грешки в данните. Ако дадено предвиждане продължава да използва същия праг на същия S.M.A.R.T. атрибути, прецизност и припомняне определено ще бъдат засегнати.

Като се имат предвид всички неща, точната прогноза за здравето на диска не е лесна задача. Въпреки това, ако производителността на критична за мисията система или SLA може да бъде значително влошена от повреда на диска или бавен диск, тогава си струва усилието за прилагане на алгоритъм за прогнозиране на здравето на диска, за да облекчи проблема.

Ние от ProphetStor разработихме технология, базирана на дълбоко обучение, за откриване на здравословното състояние на диска и предвиждане на продължителността на живота му, за да се справим с много проблеми, причинени от повреда на диска. Например случайна повреда на диска или бавен диск може да причини значително влошаване на производителността в често използвани клъстери за съхранение на Ceph. С тази технология подмяната на диска, следствие от случаен отказ, се превръща в предварително планирана дейност. Мерки за влошаване на производителността RAID и SDS стават последно средство, а не обичайна практика за справяне с повреда на диска. Запазването на изчислителни ресурси за възстановяване на данни се използва за приспособяване към допълнителното работно натоварване. Непредсказуемото въздействие върху работното натоварване може да бъде избегнато, тъй като архивирането и подмяната на диска се изпълняват в предсказуемо време с ниско натоварване с увереност. В следващата статия ще опишем подробно как прилагаме машинно обучение, за да постигнем високоточно прогнозиране на здравето на диска.

За да научите повече за DiskProphet, специално създадено AI решение за решаване на непредсказуеми проблеми с повреда на диска, често срещани във всяка ИТ среда, посетете тук.