Pomoc Brak kontaktu z Qnapem przy prawdopodobnie awarii dysku w macierzy

Paollo

Entry Technician
Q Associate
1 Grudzień 2008
89
23
8
QNAP
TS-x53D
Ethernet
1 GbE
Witajcie,
Sprawa dotyczy Qnap TS-412 z firmwarem 4.2.1 beta build 0201. Serwer działał bezproblemowo odbierając dane z innego Qnapa w trybie replikacji real-time. Nie był zbyt zajęty, robił tylko ten backup. na 4 x WD 2TB w trybie RAID1. Na dyskach nadal nie ma bad sektorów. Pewnego dnia postanowił zacząć mrugać czerwoną diodą i stać się niewidocznym nawet dla QFindera. Żadnych ostrzeżeń o nachodzącym problemie, o ewentualnej degradacji parametrów SMART, o czymkolwiek. Serwer po prostu stał się niedostępny. Wyjęcie i włożenie dysków, a w końcu ponowna inicjalizacja serwera nie zmienia sytuacji. Po włożeniu dysków czy on-line, czy off-line, nawet w innej kolejności serwer ma totalny, natychmiastowy freeze. Rozumiem, że firmware był w wersji beta, że awarie (tu: pewnie jednego z dysków) sprawa nie do uniknięcia, ale taka całkowita utrata kontroli bez ostrzeżenia i jakiegokolwiek zaraportowania możliwej przyczyny, czy powinna zdarzać się w sprzęcie, który darzymy zaufaniem?

Pozdrowienia
 
Awaria ? Postaw NASa na jakimś wolnym dysku i sprawdź czy ruszy jak tak , to problem z FW, jak nie to z sprzętem.
Z eliminacją tego typu w celu ustalenia, co źle lub nie działa, to ja sobie dam radę. Mam tylko żal, że poważny system może po prostu bez zgłoszenia przyczyny przestać odpowiadać. To takie nieprofesjonalne...
 
No OFFENCE:
beta?
Sprawa dotyczy Qnap TS-412 z firmwarem 4.2.1 beta build 0201.

DISCLAIMER OF WARRANTIES
THE BETA FIRMWARE ANNOUNCED BY QNAP IS PROVIDED ON A TRIAL BASIS ONLY AND WITHOUT WARRANTY OF ANY KIND. YOU ARE SUGGESTED NOT TO USE THE BETA FIRMWARE FOR ANY CRITICAL PURPOSE. BY DOWNLOADING THE BETA FIRMWARE IMAGES, YOU EXPRESSLY AGREE THAT THE USE OF THE FIRMWARE IS AT YOUR OWN RISK AND DISCRETION. YOU WILL BE SOLELY RESPONSIBLE FOR ANY DAMAGE TO YOUR NAS, COMPUTER SYSTEM, OR OTHER DEVICES OR ANY FORM OF DATA LOSS OR DAMAGE CAUSED BY DOWNLOADING OR USING THE FIRMWARE. QNAP DOES NOT GUARANTEE THERE IS NO ERROR OR BUG IN THE FIRMWARE, OR ANY KNOWN OR REPORTED ERRORS WILL BE CORRECTED.

QNAP EXPRESSLY DISCLAIMS ALL WARRANTIES OF ANY KIND, WHETHER EXPRESS OR IMPLIED, INCLUDING, BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT.

LIMITATION OF LIABILITY
IN NO EVENT WILL QNAP BE LIABLE FOR ANY DAMAGE WHATSOEVER (INCLUDING WITHOUT LIMITATION DAMAGES RELATING TO LOST REVENUES OR PROFITS, LOST DATA, WORK STOPPAGE, COMPUTER FAILURE OR MALFUNCTION) RESULTING FROM OR IN ANY WAY RELATED TO THE USE OF THE BETA FIRMWARE , EVEN IF QNAP HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES AND REGARDLESS OF THE LEGAL THEORY ON WHICH SUCH DAMAGES ARE BASED.
 
Beta, drugi Qnap u mnie jest też do testów :)
ale public ....

No OFFENCE:
beta?
Sprawa dotyczy Qnap TS-412 z firmwarem 4.2.1 beta build 0201.

DISCLAIMER OF WARRANTIES
THE BETA FIRMWARE ANNOUNCED BY QNAP IS PROVIDED ON A TRIAL BASIS ONLY AND WITHOUT WARRANTY OF ANY KIND. YOU ARE SUGGESTED NOT TO USE THE BETA FIRMWARE FOR ANY CRITICAL PURPOSE. BY DOWNLOADING THE BETA FIRMWARE IMAGES, YOU EXPRESSLY AGREE THAT THE USE OF THE FIRMWARE IS AT YOUR OWN RISK AND DISCRETION. YOU WILL BE SOLELY RESPONSIBLE FOR ANY DAMAGE TO YOUR NAS, COMPUTER SYSTEM, OR OTHER DEVICES OR ANY FORM OF DATA LOSS OR DAMAGE CAUSED BY DOWNLOADING OR USING THE FIRMWARE. QNAP DOES NOT GUARANTEE THERE IS NO ERROR OR BUG IN THE FIRMWARE, OR ANY KNOWN OR REPORTED ERRORS WILL BE CORRECTED.

QNAP EXPRESSLY DISCLAIMS ALL WARRANTIES OF ANY KIND, WHETHER EXPRESS OR IMPLIED, INCLUDING, BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT.

LIMITATION OF LIABILITY
IN NO EVENT WILL QNAP BE LIABLE FOR ANY DAMAGE WHATSOEVER (INCLUDING WITHOUT LIMITATION DAMAGES RELATING TO LOST REVENUES OR PROFITS, LOST DATA, WORK STOPPAGE, COMPUTER FAILURE OR MALFUNCTION) RESULTING FROM OR IN ANY WAY RELATED TO THE USE OF THE BETA FIRMWARE , EVEN IF QNAP HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES AND REGARDLESS OF THE LEGAL THEORY ON WHICH SUCH DAMAGES ARE BASED.
 
Po dość długim czasie udało mi się przywrócić całość do działania, vide sam sprzęt nie uległ awarii. Jeden z dysków zmienił status z "Dobry" na "Ostrzeżenie", co mogłoby świadczyć o błędach na nim powstałych. Sprawdziłem, żadnych bad-sectorów, parametry w normie, jedynie SMART LCC wyższy, niż pozostałych dysków - 17000 (vs. 900), ale jak piszą na stronach producenta akurat nie powinno to stanowić problemu, bo zaprojektowali go na 1000000 cykli. Oczywiście po zakupie przestawiałem we wszystkich WD ten parametr, mogłem jednak w jednym zapomnieć - to pozostało do sprawdzenia, dysk to WD20EZRX czyli nie najstarszy Green.
Po tym jak QNAP nagle przestał odpowiadać nie było innej możliwości jak reset do ustawień fabrycznych, przypomnę: wyjęcie i włożenie wszystkich lub wybranych dysków przynosiło utratę kontaktu z urządzeniem. jedyna konfiguracja, jaka poszła po kilkudziesięciu próbach to włożenie do bay 1 wyczyszczonego z partycji 1 dysku. Wtedy dopiero udało się zainicjować system firmwarem 4.2.1 beta 0201 (z 4.2.0 z 0130 nie powiodło się). Wcześniej pobranie firmware'u jak i instalacja wskazanego ręcznie kończyło się niepowodzeniem. Konfigurację 1 dyskową, po włożeniu 3 dodatkowych dysków nie można było zmigrować do RAID0 ani nawet JBOD, a jedynie do RAID5 (lub 6), dziwne. Wcześniej QNAP skonfigurowany był z 4 x HDD w RAID0 (bez problemu można go było zainicjalizować w tym układzie).

Reasumując:
- firmware beta - nawet public - absolutnie nie zasługuje na zaufanie, tj. nie możemy zakładać, że większość ważnych, czy starych funkcji działa poprawnie, po wersjach beta nie możemy spodziewać się, że nie pojawia się w nich błędy podstawowych funkcji, czy błędy funkcji, które w poprzedniej wersji działały poprawnie,
- bliżej nie zbadana zmiana parametrów SMART dysku może spowodować utratę komunikacji z QNAPem zamiast odpowiedniego komunikatu, np. o potrzebie rychłej wymiany dysku o pogarszającej się kondycji,
- po awarii wersji beta może nie być możliwy łatwy czy szybki powrót do stanu sprzed awarii albo do wersji stable firmware'u,
- swoją drogą ciekawy jestem, co stałoby się w przypadku, gdy na QNAPie byłaby wersja stable firmware'u. W moim odczuciu, nie ma żadnej gwarancji na niewystąpienie analogicznego błędu.

Pozdrowienia
Uzupełnienie i temat można by IMHO zamknąć.
Po gruntownym zbadaniu sprawy oceniam, że przyczyną awarii Qnapa było jednoczesne wystąpienie błędów typu bad sector na 2 z 4 dyskach macierzy. W pierwszej fazie najprawdopodobniej wystąpiły błędy recoverable na jednym dysku, czego Qnap wogóle nie raportuje (trzeba by zwrócić uwagę na zmianę odpowiedniego parametru SMART, ale do pewnej liczby błędów nie jest ona traktowana nawet jako ostrzeżenie). Dysk w tej technologii, sprzed kilku lat, robią recovery błędów powoli i mogą wtedy występować opóźnienia lub przerwy w ich odpowiedzi. Opóźnień Qnap nie rozumie, przerwy traktuje jako I/O error, ale trudno zanotować tego powody na podstawie jakichkolwiek innych symptomów. I/O error zdarzył mi się już kiedyś przez słaby styk SATA (nie idealnie wsadzoną kieszeń). Jednocześnie zanim nastąpiła awaria pierwszego kulejącego dysku, błędy pojedyncze recoverable zaczęły pojawiać się na drugim. Macierz tego nie wytrzymała i Qnap przestał odpowiadać. Po resecie prawdopodobnie próbował odbudować macierz, ale przy jednoczesnej naprawie wewnętrznej uszkodzonych sektorów 2 dysków naraz i braku kontaktu z urządzeniem po tygodniu je wyłączyłem i przetestowałem dyski na zewnątrz. Okazało się, że jeden z dysków ma już unrecoverable bad-sectors z powodu wyczerpania puli zapasowych, drugi dysk włożony z powrotem w Qnapie po ponownej inicjalizacji pokazał ostrzeżenie, ale jeszcze "powinien pracować prawidłowo". Oczywiście oba dyski WD potraktowałem bez zaufania i odeszły. Przy okazji wspomnę, że Silas wyraził opinię, że wcale taki pad go nie zdziwił, a zdarzenie potwierdzaa tylko, że w małych konfiguracjach lepsze są pojedyncze wolumeny niż RAID, o czym na Forum od jakiegoś czasu trwa dyskusja. Pozdrawiam Forumowiczów
Miałem ostatnio snów bardzo podobny problem z TS-410, wersja fw: 4.2.2 (nie beta). Na jednym z dysków macierzy wystąpił jeden naprawialny bad sector. Status SMART dysku zmienił się na "ostrzeżenie" a wartość Current_Pending_Sector była równa 1. Niestety zdiagnozowanie problemu było możliwe dopiero po zresetowaniu QNAPa do ustawień fabrycznych, bo urządzenie po prostu przestało odpowiadać, a w LANie zaczęły występować błędy transferu po SAMBie. Po ponownym skonfigurowaniu QNAPa błędy sieci pojawiały się nadal, a błędny sektor został odczytany i przeniesiony do zakresu rezerwowych po około 2 tygodniach ciągłej pracy. Następnie Ostrzeżenie zniknęło i wszystko - łącznie z LANem - wróciło do normalnej pracy. Zgadzam się - nieprofesjonalne zachowanie NASa... Pozdrawiam
 

Użytkownicy znaleźli tą stronę używając tych słów:

  1. awaria dysków
  2. awaria dysku raid5