S.M.A.R.T. (ang. Self-Monitoring, Analysis and Reporting Technology) – system monitorowania i powiadamiania o błędach działania dysku twardego.
Przewidywanie usterek
W założeniu miał to być system, który na bieżąco monitoruje stan najważniejszych parametrów dysku i ostrzega o nadchodzącej awarii. Dyski twarde Seagate są wyposażone w zdecydowanie skuteczniejszy od pozostałych producentów mechanizm analizy i ostrzegania o możliwych awariach i błędach. W przypadku dysków twardych Samsung lub WD, S.M.A.R.T. sprawdza się jako "czarna skrzynka" niż jako system alarmowy. Ta czarna skrzynka zapisuje kilkanaście kluczowych parametrów pracy dysku. Nie są to wprawdzie kompletne dane diagnostyczne, ale w zupełności wystarczą do oceny kondycji dysku twardego i jego użyteczności.
Błędne odczyty...
Ponadto nie wolno sugerować się "diagnozami" przeprowadzonymi przez przeróżne programiki, które podają tylko "status" czy "kondycję" dysku, wyrażoną najczęściej w procentach bądź tylko jako "OK". Takie "diagnozy" są nic nie warte. Niektóre parametry S.M.A.R.T. nie mają wartości ostrzegawczych (zwykle mają komentarz "zawsze pozytywnie" itp.), więc programy nie mają z czym porównać bieżących odczytów. W takiej sytuacji nawet jeśli dysk dosłownie się sypie to programy diagnostyczne stwierdzą że "SMART nie zgłasza problemów". Najlepiej więc samemu zajrzeć do raportów S.M.A.R.T. i z podanych wartości odczytać logiczny stan dysku twardego.
Odczytywanie stanu diagnozy
Raporty S.M.A.R.T. można odczytać zazwyczaj za pomocą dostarczonych od producenta programów diagnostycznych lub sterowników kontrolerów dysków twardych. Opisy parametrów S.M.A.R.T. wyrażonych w postaci Hex mogą różnić się w prezentowanych raportach programów. Na przykład parametr "C4" w programie SiSoft Sandra nazywa się "Realocated Data Count", a w EVEREST "Realocation Event Count". Obie nazwy dotyczą tego samego parametru. S.M.A.R.T. nie przechowuje informacji o nazwie danego parametru tylko jego numer (właśnie owe "C4"). Nazwy dopisuje program (np. EVEREST) żeby jego użytkownicy mogli łatwiej zdiagnozować usterkę. Dobór parametrów które S.M.A.R.T. ma monitorować zależy wyłącznie od producenta, więc dostępne mechanizmy przewidywania i diagnostyki mogą się różnić w poszczególnych modelach dysków twardych, jednak zazwyczaj podyktowana jest to stosowaną metodą kontroli przez producenta. Jeżeli więc S.M.A.R.T. Twojego dysku nie podaje np. parametru "C4" to nie jest to żadne uszkodzenie czy błąd.
Self-Monitoring
Podczas pracy dysku system S.M.A.R.T na bieżąco monitoruje istotne parametry, każdy z nich może przyjąć następujące stany:
Atrybuty
Pojedynczy atrybut S.M.A.R.T zawiera następujące elementy:
Tabela parametrów S.M.A.R.T.
Poniżej prezentujemy tabelę z zestawieniem i krótkim opisem każdego z atrybutów S.M.A.R.T. Kolorem czerwonym zaznaczono atrybuty, które są uznawane za krytyczne. Jeżeli ich parametry się pogarszają (są niższe od progu) jest to sygnał do wykonania kopii zapasowej plików z danego dysku.
Symbole:
↑ - Im większa wartość tym lepiej (wartość nie powinna się zmniejszać)
↓ - Im mniej tym lepiej
Polecane artykuły:
S.M.A.R.T. w dyskach twardych i dyskach SSD - Dyski Twarde/SSD - CDRinfo.pl
Opracowane w oparciu o informacje z:
S.M.A.R.T. (informatyka) – Wikipedia, wolna encyklopedia
S.M.A.R.T. - z czym to się je? - Przewodnik
S.M.A.R.T. - interpretacja parametrów - Forum PCLab.pl
Przewidywanie usterek
W założeniu miał to być system, który na bieżąco monitoruje stan najważniejszych parametrów dysku i ostrzega o nadchodzącej awarii. Dyski twarde Seagate są wyposażone w zdecydowanie skuteczniejszy od pozostałych producentów mechanizm analizy i ostrzegania o możliwych awariach i błędach. W przypadku dysków twardych Samsung lub WD, S.M.A.R.T. sprawdza się jako "czarna skrzynka" niż jako system alarmowy. Ta czarna skrzynka zapisuje kilkanaście kluczowych parametrów pracy dysku. Nie są to wprawdzie kompletne dane diagnostyczne, ale w zupełności wystarczą do oceny kondycji dysku twardego i jego użyteczności.
Błędne odczyty...
Ponadto nie wolno sugerować się "diagnozami" przeprowadzonymi przez przeróżne programiki, które podają tylko "status" czy "kondycję" dysku, wyrażoną najczęściej w procentach bądź tylko jako "OK". Takie "diagnozy" są nic nie warte. Niektóre parametry S.M.A.R.T. nie mają wartości ostrzegawczych (zwykle mają komentarz "zawsze pozytywnie" itp.), więc programy nie mają z czym porównać bieżących odczytów. W takiej sytuacji nawet jeśli dysk dosłownie się sypie to programy diagnostyczne stwierdzą że "SMART nie zgłasza problemów". Najlepiej więc samemu zajrzeć do raportów S.M.A.R.T. i z podanych wartości odczytać logiczny stan dysku twardego.
Odczytywanie stanu diagnozy
Raporty S.M.A.R.T. można odczytać zazwyczaj za pomocą dostarczonych od producenta programów diagnostycznych lub sterowników kontrolerów dysków twardych. Opisy parametrów S.M.A.R.T. wyrażonych w postaci Hex mogą różnić się w prezentowanych raportach programów. Na przykład parametr "C4" w programie SiSoft Sandra nazywa się "Realocated Data Count", a w EVEREST "Realocation Event Count". Obie nazwy dotyczą tego samego parametru. S.M.A.R.T. nie przechowuje informacji o nazwie danego parametru tylko jego numer (właśnie owe "C4"). Nazwy dopisuje program (np. EVEREST) żeby jego użytkownicy mogli łatwiej zdiagnozować usterkę. Dobór parametrów które S.M.A.R.T. ma monitorować zależy wyłącznie od producenta, więc dostępne mechanizmy przewidywania i diagnostyki mogą się różnić w poszczególnych modelach dysków twardych, jednak zazwyczaj podyktowana jest to stosowaną metodą kontroli przez producenta. Jeżeli więc S.M.A.R.T. Twojego dysku nie podaje np. parametru "C4" to nie jest to żadne uszkodzenie czy błąd.
Self-Monitoring
Podczas pracy dysku system S.M.A.R.T na bieżąco monitoruje istotne parametry, każdy z nich może przyjąć następujące stany:
- Pre-failure warranty attribute (PW) - Wskazuje warunek przed awaryjny, może uchronić od straty wielu danych.
- Online collection attribute (OC) - Oznacza, że wartości są obliczane podczas pracy dysku.
- Performance attribute (PE) - Oznacza pogorszenie spowodowane zużyciem lub wiekiem dysku.
- Error rate attribute (ER) - Oznacza parametr częstości występowania błędów.
- Error count attribute (EC) - Oznacza parametr ilości zmierzonych błędów.
- Self-preserving attribute (SP) - Oznacza parametr który jest automatycznie ustawiany podczas testu S.M.A.R.T.
Atrybuty
Pojedynczy atrybut S.M.A.R.T zawiera następujące elementy:
- ID (identyfikator): numer danego atrybutu
- Attribute name (nazwa): nazwa danego atrybutu
- Value (bieżący): obecna wartość każdego z atrybutów.
- Worst (najgorszy): najgorsza zmierzona i zapamiętana wartość danego atrybutu
- Threshold (próg): najniższa wartość atrybutu ustawiona przez producenta danego dysku dla każdego z atrybutów (wartość ta jest stała).
- RAW value (wartość RAW): surowa (odczytana bezpośrednio) wartość danego atrybutu ukazuje obecny stan dysku. Najczęściej wyświetlana jest w postaci heksadecymalnej, ale niektóre programy podają wartości decymalne (łatwiejsze do odczytania bez pomocy kalkulatora).
Tabela parametrów S.M.A.R.T.
Poniżej prezentujemy tabelę z zestawieniem i krótkim opisem każdego z atrybutów S.M.A.R.T. Kolorem czerwonym zaznaczono atrybuty, które są uznawane za krytyczne. Jeżeli ich parametry się pogarszają (są niższe od progu) jest to sygnał do wykonania kopii zapasowej plików z danego dysku.
ID | hex | Nazwa atrybutu | Opis | Krytyczny | Lepiej |
---|---|---|---|---|---|
01 | 01 | Raw Read Error Rate | Atrybut ten zależy od ilości błędów odczytu i stanu powierzchni dysku, wskazuje na częstość sprzętowych błędów odczytu, które wystąpiły podczas odczytu danych z powierzchni dysku. Niskie wartości wskazują na problem z powierzchnią dysku lub głowicami odczytu/zapisu. UWAGA : Dyski Seagate nie monitorują parametru Raw Read Error Rate , stąd tak wysokie wartości podczas testu S.M.A.R.T. | Tak | ↓ |
02 | 02 | Throughput Performance | Łączna (ogólna) sprawność dysku. Jeśli wartość tego atrybutu się obniża jest duża szansa, że zbliżają się problemy z dyskiem. | Nie | ↑ |
03 | 03 | Spin Up Time | Średni czas na rozkręcenie talerzy (od 0 obr/min do pełnej prędkości). Wartość RAW tego atrybutu wyraża czas w sekundach lub milisekundach. | Nie | ↓ |
04 | 04 | Start/Stop Mount (Number of spin-up times) | Wartość RAW tego atrybutu jest liczbą cykli start/stop dysku. | Nie | |
05 | 05 | Reallocated Sectors Count | Ilość relokowanych sektorów. Kiedy dysk napotyka błąd odczytu/zapisu/weryfikacji, oznacza ten sektor jako relokowany i przenosi dane do specjalnego zarezerwowanego obszaru (obszaru rezerwowego). Proces ten jest również określany mianem remapowania a relokowane sektory określa się remapami. To właśnie dlatego, na nowoczesnych dyskach, nie widzimy "bad bloków" podczas testów powierzchni. | Tak | ↓ |
06 | 06 | Read Channel Margin | Rezerwa kanału podczas odczytu danych. Funkcja tego atrybutu nie jest objęta specyfikacją. | Nie | |
07 | 07 | Seek Error Rate | Częstość błędów wyszukiwania głowic magnetycznych. W razie uszkodzenia mechanicznego systemu pozycjonowania, uszkodzenia serwa albo termicznej rozszerzalności dysku, ilość błędów wyszukiwania wzrasta. Więcej błędów wyszukiwania oznacza pogarszanie się stanu powierzchni dysku i podsystemu mechanicznego dysku. W nowych dyskach firmy Seagate np. serii 7200.11 ten parametr jest wysoki i jest to normalne dla tych dysków. | Nie | ↓ |
08 | 08 | Seek Time Performance | Przeciętna wydajność operacji wyszukiwania głowic magnetycznych. Jeśli wartość atrybutu maleje, jest to oznaka problemów z podsystemem mechanicznym dysku. | Nie | ↑ |
09 | 09 | Power-On Hours | Ilość godzin w stanie zasilnia. Wartość RAW atrybutu odpowiada łącznej ilości godzin (lub minut, sekund, w zależności od producenta) przepracowanych przez dysk. Zmniejszenie się tej wartości do poziomu krytycznego (threshold) wskazuje na zmniejszenie się parametru MTBF (średni czas między awariami). Niemniej, w rzeczywistości, nawet jeśli MTBF zmaleje do zera, nie oznacza to że zasoby MTBF całkowicie się wyczerpały i dysk przestanie działać. | Nie | ↓ |
10 | 0A | Spin Retry Count (Spin-up retries) | Ilość ponownych prób rozpędzenia talerzy. Atrybut ten przechowuje łączną ilość prób uruchomienia talerzy przed osiągnięciem pełnej szybkości obrotowej (pod warunkiem, że pierwsza próba nie powiodła się). Wzrost tego atrybutu jest oznaką problemów z podsystemem mechanicznym dysku np. zbliżającym się uszkodzeniem łożyska. | Tak | ↓ |
11 | 0B | Recalibration Retries | Atrybut ten wskazuje liczbę żądań rekalibracji (pod warunkiem, że pierwsza próba nie powiodła się). Spadek tego atrybutu jest oznaką problemów z podsystemem mechanicznym dysku. | Nie | ↓ |
12 | 0C | Device Power Cycle Mount (Start/stop count) | Atrybut ten wskazuje na łączną ilość pełnych cykli zasilania dysku. | Nie | |
13 | 0D | Soft Read Error Rate | Jest to ilość programowych błędów odczytu występujących podczas odczytu danych z powierzchni dysku. | Nie | ↓ |
184 | B8 | End-to-End Error | Ten atrybut jest częścią technologii HP w wersji S.M.A.R.T. IV generacji i informuje ,że na drodze pomiędzy pamięcią podręczna buforem a dyskiem nastąpiły błędy. | Tak | ↓ |
185 | B9 | Head Stability | Atrybut spotykany w dyskach Western Digital. Stabilizacja głowicy. | Nie | |
186 | BA | Induced Op-Vibration Detection | Atrybut spotykany w dyskach Western Digital. Detekcja wzrostu wibracji indukcyjnych. | Nie | |
187 | BB | Reported UNC Error | Ilość błędów, które nie mogą być odzyskane przy użyciu sprzętu technologii korekcji sprzętowej ECC . | Nie | ↓ |
188 | BC | Command Timeout | Ilość przerwanych operacji z powodu nie odpowiadania dysku na komendy. Normalnie ten parametr powinien wynosić zero jeśli jest inaczej może to świadczyć o poważnych problemach z zasilaniem dysku (złączem zasilaczem ect.) | Tak | ↓ |
189 | BD | High Fly Writes | Technologia monitorująca sposób zapisu głowicy. Jeśli głowica podczas zapisywania wychodzi po za normalny zakres pracy nad powierzchnię talerza operacja jest przerywana a zapis jest ponawiany w bezpiecznym obszarze. | Nie | ↓ |
190 | BE | Airflow Temperature | W dyskach WDC (Temperatura otoczenia (powietrza)) UWAGA : Producenci różnie definiują ten parametr np. w dyskach Seagate ST3802110A wartość prawidłowa jest równa 100. | Nie | ↓ |
191 | BF | G-sense error rate | Częstotliwość błędów w wyniku oddziaływania przeciążenia. Atrybut ten informuje o błędach pracy dysku w wyniku drastycznego przeciążenia (np. Upadek). | Nie | ↓ |
192 | BE | Power-off retract count | Ilość razy kiedy głowice są parkowane. Głowice mogą być parkowane nawet wtedy, gdy dysk nie jest wyłączony z prądu. (or Emergency Retract Cycle count - Fujitsu) Lub kiedy potrzebują zliczać cykle. | Nie | ↓ |
193 | C1 | Load/Unload Cycle Count | Ilość cykli parkowania/wyparkowania ze strefy parkowania (Landing Zone). Niektóre dyski 2,5 calowe mają opcje parkowania głowicy przy bezczynności dłuższej niż np. 5 minut. | Nie | ↓ |
194 | C2 | HDA Temperature | Temperatura dysku twardego. Wartość RAW tego atrybutu podaje wskazania wbudowanego czujnika ciepła ( o C). | Nie | ↓ |
195 | C3 | Hardware ECC Recovered | Częstotliwość występowania "błędów w locie". Parametr technologii sprzętowej korekcji błędów ECC . | Nie | ↑ |
196 | C4 | Reallocation Event Count | Ilość operacji remapowania (przenoszenia danych z uszkodzonego sektora do specjalnego zarezerwowanego obszaru - obszaru rezerwowego). Wartość RAW tego atrybutu określa łączną ilość prób transferu danych z relokowanego sektora do obszaru rezerwowego. Liczone są zarówno próby udane jak i nieudane. | Tak | ↓ |
197 | C5 | Current Pending Sector Count | Bieżąca ilość niestabilnych sektorów (oczekujących na remapowanie). Wartość RAW tego atrybutu wskazuje na łączną ilość sektorów oczekujących na rempowanie. Później, kiedy część z tych sektorów uda się odczytać, wartość jest zmniejszana. Jeśli błędy występują ciągle podczas próby odczytu niektórych sektorów, dysk podejmie próbę odzyskania danych, przeniesienia ich do zarezerwowanego obszaru (obszaru rezerwowego) i oznaczenia sektora jako remapowany. | Tak | ↓ |
198 | C6 | Uncorrectable Sector Mount (Offline scan UNC sectors) | Ilość nie korygowalnych błędów. Wartość RAW tego atrybutu wskazuje łączną ilość nie korygowalnych błędów podczas odczytu/zapisu sektora. Wzrost wartości tego atrybutu wskazuje na ewidentne defekty powierzchni dysku i/lub problemy z podsystemem mechanicznym dysku. | Tak | ↓ |
199 | C7 | UltraDMA CRC Error Count | Łączna ilość błędów CRC w trybie UltraDMA. Wartość RAW atrybutu wskazuje ilość błędów wykrytych przez CRC podczas przesyłania danych w trybie UltraDMA. Najczęstszym powodem błędów są problemy z taśmą-kablem komunikacji danych. Parametr ten nie zmniejsza się po usunięciu usterki kabla. | Nie | ↓ |
200 | C8 | Write Error Rate (Multi Zone Error Rate) | Częstość błędów zapisu. Atrybut ten wskazuje na łączną ilość błędów zapisu podczas zapisywania sektora. Im wyższa wartość RAW, tym gorszy stan powierzchni dysku i/lub mechanicznego podsystemu. | Nie | ↓ |
201 | C9 | Off-track errors Mount | Krytyczny jeśli różny od zera, należy wykonać kopie bezpieczeństwa (im mniejszy tym lepiej) | Tak | ↓ |
202 | CA | Data Address Mark errors | Liczba adresów danych zaznaczonych jako błędne (ilość błędów DAM) (lub specyficznych dla dostawcy). | Nie | ↓ |
203 | CB | Run Out Cancel | Liczba błędów ECC | Nie | ↓ |
204 | CC | Soft ECC Correction | Liczba błędów poprawionych przez oprogramowanie ECC | Nie | ↓ |
205 | CD | Thermal Asperity Rate (TAR) | Liczba błędów spowodowanych wysoką temperaturą | Nie | ↓ |
206 | CE | Flying Height | Wysokość głowicy powyżej powierzchni dysku. (System analizy wysokości głowicy nad powierzchnię platera. Jeśli głowica jest zbyt wysoko może dojść do błędów odczytu jeśli zbyt nisko może dojść do zderzenia z platerem) | Nie | |
207 | CF | Spin High Current | Ilość energii ( prąd rozruchowy ) potrzebna do rozkręcenia dysku. | Nie | ↓ |
208 | D0 | Spin Buzz | Liczba prób podczas rozpędzania się dysku potrzebnych do uzyskania prędkości obrotowej pracy. (przyp. - Jeśli ten parametr rośnie może to świadczyć o problemach z łożyskiem lub niewystarczającym prądzie rozruchowym .) | Nie | |
209 | D1 | Offline Seek Performance | Określenie sprawności (self test) podczas operacji wyszukiwania w trybie offline | Nie | |
211 | D3 | Vibration During Write | Wibracje w trakcie operacji zapisu. Technologia ta ma służyć analizie i zabezpieczeniu przed przypadkowymi wibracjami podczas pracy dysku najczęściej pomocna w laptopach i dyskach przenośnych (stałe wibracje). | Nie | |
212 | D4 | Shock During Write | Wstrząsy w czasie operacji zapisu. Technologia ta ma służyć analizie i zabezpieczeniu przed przypadkowymi wstrząsami podczas pracy dysku najczęściej pomocna w laptopach i dyskach przenośnych (uderzenia nagłe zmiany położenia). | Nie | |
220 | DC | Disk Shift | Przesunięcie dysków względem osi. Przesunięcie to mogło być spowodowane upadkiem lub wysoka temperaturą. | Nie | ↓ |
221 | DD | G-Sense Error Rate | Ilość błędów występująca w czasie przeciążeń (G) dysku. Atrybut na podstawie czujnika przeciążeń podaje łączną ilość błędów spowodowanych np. upuszczeniem dysku czy nagłymi zmianami położenia skutkującymi przeciążeniami. | Nie | ↓ |
222 | DE | Loaded Hours | Czas użycia akutatora głowic magnetycznych spowodowany normalną eksploatacją. Liczy się tylko czas działania akutatora . | Nie | |
223 | DF | Load/Unload Retry Count | Czas użycia głowic magnetycznych do operacji takich jak: odczyt, zapis, pozycjonowanie głowic. Czas pracy zmian pozycji głowic w strefie danych. | Nie | |
224 | E0 | Load Friction | Opór spowodowany przez tarcie w mechanicznych częściach w czasie eksploatacji. Stan spowodowany tarciem części mechanicznych. (przyp. Parametr ten informuje o problemach z systemem mechanicznym dysku) | Nie | ↓ |
225 | E1 | Load/Unload Cycle Count | Łączna liczba cykli parkowania/wyparkowania ze strefy parkowania (Landing Zone). | Nie | ↓ |
226 | E2 | Load 'In'-time | Całkowity czas pracy głowic nad strefa danych. (Czas nie spędzony w strefie parkowania) | Nie | |
227 | E3 | Torque Amplification Count | Ilość prób rozpędzenia talerzy. Ile razy dysk próbował rozpędzić dysk do uzyskania prędkości obrotowej pracy. | Nie | ↓ |
228 | E4 | Power-Off Retract Cycle | Ilość automatycznego zabezpieczenia mechanizmu magnetycznego w wyniku utraty zasilania. | Nie | ↓ |
230 | E6 | GMR Head Amplitude | Amplituda drgań głowic ( GMR -head) w czasie pracy. | Nie | |
231 | E7 | Temperature | Temperatura Dysku | Nie | ↓ |
240 | F0 | Head Flying Hours | Czas w jakim głowica jest pozycjonowana. | Nie | |
241 | F1 | Total LBA-s Written | Całkowita liczba zapisanych sektorów. (Parametr WD) | Nie | |
242 | F2 | Total LBA-s Read | Całkowita liczba odczytanych sektorów. (Parametr WD) | Nie | |
250 | FA | Read Error Retry Rate | Częstotliwość występowania błędów podczas odczytu danych z dysku. | Nie | ↓ |
254 | FE | Free Fall Protection | Ilość odczytu z czujnika Free Fall Sensor (Czujnik swobodnego upadku do wykrywania monitorowanych przenośnych urządzeń elektronicznych) Czujnik ten ma za zadanie informować o upadku dysku. Patent | Nie | ↓ |
↑ - Im większa wartość tym lepiej (wartość nie powinna się zmniejszać)
↓ - Im mniej tym lepiej
Polecane artykuły:
S.M.A.R.T. w dyskach twardych i dyskach SSD - Dyski Twarde/SSD - CDRinfo.pl
Opracowane w oparciu o informacje z:
S.M.A.R.T. (informatyka) – Wikipedia, wolna encyklopedia
S.M.A.R.T. - z czym to się je? - Przewodnik
S.M.A.R.T. - interpretacja parametrów - Forum PCLab.pl