Pomoc Test dysków narzędziami producenta.

jakwyr

Nowy użytkownik
Noobie
11 Kwiecień 2023
8
0
1
31
QNAP
TS-x88
Ethernet
10 GbE
Cześć,
W QNAP TS-1886XU-RP z dyskami HUH721212ALE600 pojawiają się nam liczne problemy, w tym częste komunikaty „Sprawdź system plików” po niemal każdym restarcie urządzenia, błędy w HBS oraz sugestie ze strony wsparcia technicznego QNAP dotyczące przeprowadzenia testów dysków narzędziem producenta.

Planuję podjąć takie działania i chciałbym zapytać, czy ktoś z Was ma doświadczenie w realizacji podobnych operacji? Jakie kroki podjęliście?

Obecnie posiadamy trzy zestawy RAID: jeden z czterema dyskami na system i aplikacje (RAID6), drugi również czterodyskowy RAID6, na udziały SMB, oraz RAID5 z dyskami
WDS500G1R0A-68A4W0 dla iSCSI. Mój plan zakłada wyjęcie jednego dysku z pierwszej puli RAID 6, zastąpienie go nowym dyskiem i przeprowadzenie odbudowy RAID. W czasie odbudowy zamierzam przetestować wyjęty dysk. Jeśli testy przebiegną pomyślnie, powtórzę ten proces dla kolejnych dysków, wkładając wcześniej używane dyski na miejsce tych wyjmowanych do testów.
Po każdej odbudowie planuję wykonać kopię zapasową za pomocą HBS (o ile będzie działać poprawnie). Czy są jeszcze jakieś aspekty, na które warto zwrócić uwagę? Czy przed ewentualnym włożeniem testowanego dysku, sformatować go, aby QNAP nie "wymyślił", że ten dysk już był w puli i przez to by rozjechał pule raid?
 
Czy przed ewentualnym włożeniem testowanego dysku, sformatować go, aby QNAP nie "wymyślił", że ten dysk już był w puli i przez to by rozjechał pule raid?
QNAP rozpozna, ze timestamp zapisany na RAID tego dysku jest nieaktualny i zacznie proces jego odbudowy.

Generalnie zawsze najlepszym rozwiązaniem jest wyłączyć cały serwer i przeprowadzić test dysków. Może się okazać, że podczas odbudowy coś walnie i co wtedy?
 
częste komunikaty „Sprawdź system plików” po niemal każdym restarcie urządzenia
kojarze takiego case'a .. skończyło się formatem całego nasa od zera i instalacją od zera (bez przywracania ustawień z pliku kopii zapasowej). auć

a co do testów generalnie, jak masz RAID1 i wyższe - to wyrywasz dysk z nasa i testujesz w kompie programem producenta , skończysz testy wsadzasz z powrotem i niech odbuduje.
jak nie chcesz alertów to wsadzasz mu inny pusty dysk żeby się raid odbudował.

Nie masz global hot spare disk ? :O
 
Generalnie zawsze najlepszym rozwiązaniem jest wyłączyć cały serwer i przeprowadzić test dysków. Może się okazać, że podczas odbudowy coś walnie i co wtedy?
Mairusz, czyli lepiej postawić sobie parę komputerów z oprogramowaniem producenta dysków i jednocześnie przeprowadzić test na wszystkich? Ewentualnie 4 dyski z jednej puli w jednym terminie, oraz 4 kolejne z drugiej puli w kolejnym terminie?
Następnie, jeśli wszystkie testy przejdą ok, włożyć dyski z powrotem w odpowiednie sloty i uruchomić NASa? Co w momencie gdy okaże się, że dyski są ok, ram (który ostatnio testowaliśmy też ok). Format całego NASA jak zasugerował Siewca?
Oczywiście przed całą operacją kopia zapasowa.
 
Mairusz, czyli lepiej postawić sobie parę komputerów z oprogramowaniem producenta dysków i jednocześnie przeprowadzić test na wszystkich? Ewentualnie 4 dyski z jednej puli w jednym terminie, oraz 4 kolejne z drugiej puli w kolejnym terminie?
W praktyce tak byłoby najlepiej. Jednak nie zawsze użytkownicy mają takie możliwości jakie Ty piszesz. Ja bym zwyczajnie zaplanował przerwe techniczną jednej puli dyskowej na 24h i zwyczajnie testował dyski z tej konkretnej puli.

QNAP TS-1886XU-RP z dyskami HUH721212ALE600 pojawiają się nam liczne problemy, w tym częste komunikaty „Sprawdź system plików” po niemal każdym restarcie urządzenia
Jakie pojawiają się błędy w logach?

Następnie, jeśli wszystkie testy przejdą ok, włożyć dyski z powrotem w odpowiednie sloty i uruchomić NASa? Co w momencie gdy okaże się, że dyski są ok, ram (który ostatnio testowaliśmy też ok). Format całego NASA jak zasugerował Siewca?
Nie sądzę, aby format mógł rozwiązać problem.

Taki na marginesie...
Przy okazji zobacz logując się po SSH (Instruktaż/Tutorial - (Linux) Instalacja Entware-Std) czy w pliku /mnt/HDA_ROOT/.conf system nie oznaczył jakiś dysków z błędami:
Bash:
cat /mnt/HDA_ROOT/.conf
Jeśli jakieś dyski są oznaczone błędami (wpisy _err) to prawdopodobnie te dyski lezą / lub backplane na danych portach.
Po wymianie niesprawnych dysków można usunąć wpisy _err z configu:
Bash:
sed "\;_err;d" -i /mnt/HDA_ROOT/.conf
 
1. Błędy w logach - Niestety nie mam ich, przy poprzednich razach, zawsze zgłaszałem się na support, oni się łączyli.
Raz również ktoś się z supportu łączył przez TV, gdyż w trakcie "sprawdzania systemu plików", cały proces się zaciął i stał na 1%. Wykonał wtedy sprawdzenie systemu z poziom cli.

2. Wynik z cat .conf

Kod:
[//mnt/HDA_ROOT] # cat .conf
QNAP = TRUE
hd_name = /dev/sdc
mirror=0
serial_no1 =             Z1F14MZC
serial_no2 =             Z1F15YE3
serial_no3 =             Z1F14GRR
serial_no4 =             Z1F16KC0
hw_addr = 
hal_support=yes
sm_v2_support=yes
pd_dev_wwn_5000C5004E4CAF6D=0x1
pd_dev_wwn_5000C5004E4B9D0E = 0x8
pd_dev_wwn_5000C5004E374AED=0x3
pd_dev_wwn_5000C5004E4B9744=0x4
pd_dev_wwn_5000C5007D69F625 = 0xa
pd_dev_wwn_5000C5007D6A44B9=0x3
nas_capability=0x1
pd_dev_wwn_5000C5007D0DEE4A=0x1
pd_dev_wwn_50014EE2635EC608 = 0x9
pd_dev_wwn_50014EE2BA8B3914 = 0x7
pd_dev_wwn_5000CCA294C59924 = 0x7
pd_dev_wwn_5000CCA294C579AD = 0x8
pd_dev_wwn_5000CCA291C2A7DC = 0x9
pd_dev_wwn_5000CCA294C59C89 = 0xa
pd_dev_wwn_5000CCA294C5988B = 0xb
pd_dev_wwn_5000CCA291C30056 = 0xc
pd_dev_wwn_5001B444A754CEB3 = 0x1
pd_dev_wwn_5001B444A754CEC4 = 0x2
pd_dev_wwn_5001B444A5985DAA = 0x3
pd_dev_wwn_5000CCA2B0EEDC33 = 0xd
pd_dev_wwn_5000CCA2DFD49755 = 0xe
pd_dev_wwn_5000CCA2DFC655E1 = 0x8

[SSD_SETTING]
ssd_warned_wwn_50014EE2BA8B3914 = 0
ssd_warned_wwn_5000C5004E4B9D0E = 0
ssd_warned_wwn_50014EE2635EC608 = 0
ssd_warned_wwn_5000C5007D69F625 = 0
ssd_warned_wwn_5000CCA294C579AD = 0