Pomoc [RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.

stabit

Passing Basics
Beginner
1 Czerwiec 2009
16
1
3
Sytuacja:
1. Dysk 4 uszkodził się.
2. [RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start rebuilding."
3. [RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
4. Wolumen Dysku RAID 6 : Napęd 1 2 3 4 5 6 7 Aktywny Zapasowy Dysk 8 - Status nieaktywny

Problem jest taki, że nie widać voluminu i udziałów sieciowych.
Próba sprawdzenia dysku na voluminie kończy się niepowodzeniem
[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.

edit by kaktus

Co zrobić ?
Proszę o pomoc
 
Ostatnio edytowane przez moderatora:
Zacznij od napisania następujących informacji:
- model serwera,
- wersja firmware,
- zainstalowane dyski twarde wymieniając producenta, model i pojemność,
- konfigurację oraz rodzaj utworzonych woluminów (RAID)
- załącz logi zdarzeń systemowych od momentu co najmniej wystąpienia awarii
...oraz napisz chronologicznie przebieg wydarzeń i prac wykonywanych na serwerze w związku z tą awarią.
 
Model serwera: QNAP TS-809U
Wersja firmware: 2.1.5 Build 0408T
Dyski twarde: 8x Seagate ST31500341AS CC1H 1.5 TB
Konfiguracja woluminów: RAID 6 * 7 + zapasowy (HDD8)

Logi zdarzeń:
2014-01-04,00:42:05,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:41:04,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:41:04,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-04,00:40:14,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:39:14,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:39:14,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-04,00:26:36,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:25:35,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:25:35,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-04,00:22:49,System started.
2014-01-04,00:15:46,System was shut down on Sat Jan 4 00:15:46 CET 2014.
2014-01-04,00:13:53,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:12:52,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-04,00:12:51,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-04,00:00:36,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,23:59:35,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,23:59:34,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-03,23:57:13,System started.
2014-01-03,23:55:09,System was shut down on Fri Jan 3 23:55:09 CET 2014.
2014-01-03,23:55:07,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] RAID device is inactive.
2014-01-03,23:55:07,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Hot-remove drive 4 failed.
2014-01-03,23:53:56,Drive 4 plugged out.
2014-01-03,23:51:07,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,23:50:05,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,23:50:04,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-03,23:43:35,System started.
2014-01-03,23:41:20,System was shut down on Fri Jan 3 23:41:20 CET 2014.
2014-01-03,23:35:52,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,23:34:50,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,23:34:48,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-03,23:31:39,[Drive 3] Bad Blocks Scan completed.
2014-01-03,23:31:01,[Drive 4] Bad Blocks Scan completed.
2014-01-03,23:29:37,[Drive 1] Bad Blocks Scan completed.
2014-01-03,23:27:46,[Drive 2] Bad Blocks Scan completed.
2014-01-03,22:50:52,[Drive 6] Bad Blocks Scan completed. 268 bad block(s) found.
2014-01-03,22:45:21,[Drive 5] Bad Blocks Scan completed. 209 bad block(s) found.
2014-01-03,22:30:14,[Drive 7] Bad Blocks Scan completed.
2014-01-03,17:50:19,[Drive 8] Bad Blocks Scan completed.
2014-01-03,15:16:57,[Drive 7] Start Scanning bad blocks.
2014-01-03,15:16:45,[Drive 6] Start Scanning bad blocks.
2014-01-03,15:16:34,[Drive 5] Start Scanning bad blocks.
2014-01-03,15:16:22,[Drive 4] Start Scanning bad blocks.
2014-01-03,15:16:05,[Drive 3] Start Scanning bad blocks.
2014-01-03,15:15:01,[Drive 2] Start Scanning bad blocks.
2014-01-03,15:14:41,[Drive 1] Start Scanning bad blocks.
2014-01-03,12:31:34,[Drive 8] Start Scanning bad blocks.
2014-01-03,12:28:28,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,12:27:27,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,12:27:25,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-03,12:23:13,System started.
2014-01-03,12:23:13,The system was not shut down properly last time.
2014-01-03,10:04:35,[Drive 8] Start Scanning bad blocks.
2014-01-03,10:02:30,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,10:01:30,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,10:01:30,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-03,09:32:50,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8]
2014-01-03,09:31:50,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Examination failed.
2014-01-03,09:31:50,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination.
2014-01-03,09:15:47,System started.
2014-01-03,09:13:46,System was shut down on Fri Jan 3 09:13:46 CET 2014.
2014-01-03,04:07:04,System started.
2014-01-03,04:07:04,The system was not shut down properly last time.
2014-01-02,21:40:58,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start rebuilding.
2014-01-02,21:40:56,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Rebuilding skipped.
2014-01-02,15:41:48,[RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start rebuilding.


Podjęte działania:
  1. Wymiana dysku 4 na zdrowy
  2. Skanowanie Bad Blocks na każdym z dysków (dwa dyski z bad blokami - po restarcie brak informacji o bad blokach)
  3. Próba sprawdzenia woluminiu RAID: RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination
  4. Wolumen Dysku RAID 6 : Napęd 1 2 3 4 5 6 7 Aktywny Zapasowy Dysk 8 -> STATUS nieaktywny


Wygląda na to, że dyski są ok po restarcie (status - GOTOWY na każdym z dysków)
 
Ostatnio edytowane przez moderatora:
Wygląda na to, że dyski są ok po restarcie (status - GOTOWY na każdym z dysków)
Czyli już wszystko dobrze?

Zwróć uwagę na:
2014-01-03,22:50:52,[Drive 6] Bad Blocks Scan completed. 268 bad block(s) found.
2014-01-03,22:45:21,[Drive 5] Bad Blocks Scan completed. 209 bad block(s) found.
Koniecznie sprawdziłbym stan dysku 5 i 6 oraz raport S.M.A.R.T.

I nie podlega wątpliwościom, że oprogramowanie tego serwera to kompletny archaik z 2009/04/08.
Wersja firmware: 2.1.5 Build 0408T
Należy je zaktualizować przechodząc w możliwie najbezpieczniejszych krokach przez wersje 3.0, 3.3, 3.5, 3.7, 3.8, 3.8.3, 4.0 i kończąc na 4.1.0.
 
Dyski są OK, ale:
  1. Wolumen Dysku RAID 6 : Napęd 1 2 3 4 5 6 7 Aktywny Zapasowy Dysk 8 -> STATUS nieaktywny i nie widzę dysków sieciowych
  2. Próba sprawdzenia woluminiu RAID: RAID6 Disk Volume: Drive 1 2 3 4 5 6 7 Hot Spare Disk: 8] Start examination - kończy się błędem: Examination failed.
  3. SMART wszystkich dysków jest OK
  4. Na tym oprogramowaniu macierz lata od 2009 roku i nie miałem z nią najmniejszych problemów do dzisiejszego dnia.
Skoro dyski są ok, to co może być przyczyną braku widoczności woluminu RAID ? W czym może być problem ?
 
W logach zdarzeń nie widzę, aby dysk 4 został poprawnie wymieniony. Niepotrzebnie przed wymianą wadliwego dysku wyłączyłeś serwer - Hot-Swap.
  • Podczas pracy serwera, wysuń kieszeń z dyskiem, którego problem dotyczył (HDD4).
  • Po kilkunastu (~30) sekundach wsuń kieszeń z dyskiem ponownie. W tym czasie monitoruj logi zdarzeń (mogą mieć opóźnienie nawet 1-2 minut).
  • W logach zdarzeń powinna być informacja o wykryciu nowego dysku nr. 4 i rozpoczęciu procesu odbudowy macierzy RAID:
    Start rebuilding.
    Drive 4 has been added into Volume 1
Czy proces odbudowy został uruchomiony?
 
Jutro, właściwie to już dzisiaj ponownie podejdę do problemu. (Już wymiękam i kręcę się w kółko, od 6.00 na nogach i nie bardzo kontroluję co robię) Tak jak piszesz na świeżo włożę nowy dysk przy uruchomionej macierzy, aby uruchomił się proces odbudowy macierzy. Mam nadzieję, że zadziała. Dziwi mnie jednak fakt, że po uszkodzeniu 1 dysku macierz nie odbudowała swojego stanu z 8-mym dyskiem. Dotychczas kilkukrotnie już wymieniałem dyski w tej macierzy i nie było problemu.

Póki co WIELKIE dzięki za wsparcie. Jutro od rana będę kontynuował działania.
 
Dziwi mnie jednak fakt, że po uszkodzeniu 1 dysku macierz nie odbudowała swojego stanu z 8-mym dyskiem.
Serwer rozpoczą proces odbudowy, który jak widać w logach został przerwany przez nieoczekiwane wyłączenie serwera.

Zawsze można ręcznie przyłączyć macierz (ale to zostawmy na wypadek jej braku widoczności w systemie):
How-To - Ręczne przyłączenie i odbudowa macierzy RAID

Najgorsze jest to, że Twojego oprogramowania już zupełnie nie pamiętam...

Czy masz taki przycisk jak poniżej ?
upload_2014-1-4_6-9-40.png
 
  • Lubię to
Reakcje: kaktus
Tak. Od tego zaczynam.Czysty dysk wrzucony.

upload_2014-1-4_9-18-18.png


W zarządzaniu Raide-em mam coś takiego.

upload_2014-1-4_9-19-27.png
Poza wskazaniem, że dysk został podłączony nic się nie dzieje.Wygląda na to, że nie uruchamia się proces odbudowy macierzy.
 
Najlepiej jakbyś udostępnił mi na PM dane do logowania (admin) i udostępnił serwer po SSH. Niestety bez zerknięcia w konsolę nie bardzo mogę Ci doradzić czy pomóc bo naprawdę nie pamiętam tej wersji oprogramowania.
Ew. Mogę Ci pomóc złożyć zapytanie serwisowe do helpdesk'u, ale tam też będą wymagali dostępu po SSH.
 
OK. @Silas Mariusz podaj

Najlepiej jakbyś udostępnił mi na PM dane do logowania (admin) i udostępnił serwer po SSH. Niestety bez zerknięcia w konsolę nie bardzo mogę Ci doradzić czy pomóc bo naprawdę nie pamiętam tej wersji oprogramowania.
Ew. Mogę Ci pomóc złożyć zapytanie serwisowe do helpdesk'u, ale tam też będą wymagali dostępu po SSH

OK. Podaj adres e-mail na który mogę wysłać informacje.
 
Ostatnio edytowane przez moderatora:
Napisałem do Ciebie na PM. Odpisz przesyłając dane dostępowe.Zmartwię Cię, ale nie bez powodu informacja o bad blockach pojawiła się w logach.
Kod:
      Number   Major   Minor   RaidDevice State
this     4       8        3        4      active sync   /dev/sda3

   0     0       8       83        0      active sync   /dev/sdf3
   1     1       8       19        1      active sync   /dev/sdb3
   2     2       8       35        2      active sync   /dev/sdc3
   3     3       0        0        3      faulty removed
   4     4       8        3        4      active sync   /dev/sda3
   5     5       0        0        5      faulty removed
   6     6       8       99        6      active sync   /dev/sdg3
   7     7       8      115        7      spare   /dev/sdh3
Właśnie puściłem reboot... i... w mojej opinii nie pozostaje nic innego jak recreate md blocku, przyłączając wadliwy RaidDevice 5 (czyli dysk nr. 6).
@rithien masz jakies propozycje?
 
  • Love
Reakcje: kaktus
Ah... I dlaczego myślę o recreate, bo pomimo ręcznego przyłączenia sde3 (na podstawie info z tego dysku) wciąż macierz nie może wystartować: I/O Error.
mdadm -E /dev/sde3
Kod:
/dev/sde3:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : 85401881:dfc4a384:08eca187:24f4c10b
  Creation Time : Sun May 31 05:44:57 2009
     Raid Level : raid6
  Used Dev Size : 1463569600 (1395.77 GiB 1498.70 GB)
     Array Size : 7317848000 (6978.84 GiB 7493.48 GB)
   Raid Devices : 7
  Total Devices : 8
Preferred Minor : 0

    Update Time : Thu Jan  2 16:40:46 2014
          State : clean
Active Devices : 6
Working Devices : 7
Failed Devices : 1
  Spare Devices : 1
       Checksum : 30448573 - correct
         Events : 0.467198

     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     5       8       67        5      active sync   /dev/sde3

   0     0       8       83        0      active sync   /dev/sdf3
   1     1       8       19        1      active sync   /dev/sdb3
   2     2       8       35        2      active sync   /dev/sdc3
   3     3       0        0        3      faulty removed
   4     4       8        3        4      active sync   /dev/sda3
   5     5       8       67        5      active sync   /dev/sde3
   6     6       8       99        6      active sync   /dev/sdg3
   7     7       8      115        7      spare   /dev/sdh3

Więc...
mdadm /dev/md0 --add /dev/sde3
Kod:
mdadm: re-added /dev/sde3

mdadm -E /dev/md0
Kod:
mdadm: No md superblock detected on /dev/md0.

mdadm -Rf /dev/md0
Kod:
mdadm: failed to run array /dev/md0: Input/output error
postawienie macierzy
Powstanie macierzy jest pod wielkim znakiem zapytania...

Recreate ma szanse ją przywrócić... Ale wiąże się z tym ryzyko nieodwracalnej utraty danych na macierzy.

Na chwilę obecną dane można próbować odzyskiwać programem R-Studio uprzednio podłączając wszystkie dyski do komputera PC.
Program do pobrania: R-Studio
(Jeśli zdecydujesz się teraz na odzyskiwanie danych, to pamiętaj o oryginalnej kolejności dysków, która będzie niezbędna podczas ich ponownej instalacji w serwerze).

Także... wybór należy do Ciebie... I poczekajmy może jeszcze na @rithien - max. 2h i powinien być.
 

Użytkownicy znaleźli tą stronę używając tych słów:

  1. dysk status inactive