Pomoc TS-673A samoistne restarty

JohnyB

Entry Technician
Q Associate
7 Wrzesień 2012
68
1
16
8
QNAP
TS-x73A
Ethernet
1 GbE
Cześć,

Świeżo zakupiony TS-673A z 2x8GB, dyski z listy kompatybilności 2xSSD + 2xHDD niestety już po możliwości zwrotu zrobił mi drugi raz samoistny restart. Podłączony do UPS, do którego podłączony drugi NAS i urządzenia IoT do monitorowania. Restart wykonał tylko TS-673A.
W chwili restartu leciała przebudowa macierzy RAID1 po dodaniu dysku do świeżo założonego wolumenu statycznego (DataVol2) oraz przenoszenie danych z DataVol1 na ten wolumen (DataVol2).

Efekt taki, że sprawdzenia wymagał DataVol1 oraz DataVol2. Jako, że trwała przebudowa DataVol2 to sprawdzenie dla tego wolumenu nie powiodło się i wolumen został automatycznie odmontowany. Po zakończeniu przebudowy i sprawdzeniu, można było zamontować wolumen. Dane wygląda na to, że są zachowane.

W obu przypadkach restarty były, gdy trwała przebudowa macierzy RAID1 na dyskach HDD po logicznym dodaniu dysku (fizycznie był już w urządzeniu w zatoce). CPU miał w tym czasie max 58 stopni. Wcześniej jak robiłem kompresję do archiwum 7zip dochodziła do 78 stopni i nie było restartu.
Moje jedyne podejrzenie na tą chwilę to zasilacz, bo słychać wyraźnie pracę przetwornicy - jak w starych kineskopowych Neptunach po zdjęciu tylnej ścianki obwód wysokiego napięcia :) . Jako, że urządzenie docelowo ma pracować w szafie rack to mi to nie przeszkadza, ale jakby miał mi stać na biurku ten dźwięk irytuje.

Pamięci są oryginalne dostarczone z urządzeniem obie takie same. Podejrzewam, że sprzedawca wstawia tą drugą kość 8GB z urządzeń, w których klienci zamawiają wersję 32 GB wtedy zostaje sprzedawcy kość 8GB, która ląduje do wersji 16GB.

Podłączę kolejne dyski HDD i będę robił przebudowę i zobaczę, czy się sytuacja powtórzy, a na ten moment co może być przyczyną takiego stanu rzeczy ?
 
Heya

W takiej sytuacji, musisz utworzyć zgłoszenie na helpdesk, przesłać dump log, i napisać tak:
"Proszę o diagnozę dlaczego nowo zakupiony serwer się niespodziewanie restartuje. Godziny zawieszeń:
1) 14:59-15:01 data
2) ..."

Jak to zrobisz będzie można zobaczyć co w tym czasie dmesg wypisał.

... możesz też wysłać tutaj dump log - póżniej usuniemy
 
No i mam kolejny restart.

Podłączyłem dwa dyski WD Blue 1TB WD10EZEX (tych akurat nie ma na liście kompatybilności, ale takie akurat mam wolne).
Utworzyłem wolumen statyczny z jednym dyskiem.
Uruchomiłem migrację do RAID1 dodając drugi dysk.
W między czasie utworzyłem udział udostępniony o nazwie testowy i zacząłem do niego wgrywać po sieci duże ilości danych oraz wgrywać dane do wolumenu DataVol2.

Po restarcie przebudowa DataVol3 jest na poziomie 24% i leci dalej.
Rozpoczęła się synchronizacja DataVol2 (2x IronWolf ST4000VN008), aktualnie 1,2%.

DataVol1 z 2xSSD WDS5002B0A nie wymagał synchronizaji/sprawdzenia, przynajmniej nie widzę w logach. Kopiowanie wznowiłem i leci dalej.

@Silas Mariusz, mam jakieś testy puścić extra w narzędziu Helpdesk zanim wyślę zgłoszenie ?

Zaznaczyłem odpowiedni haczyk w Helpdesk. Numer Zgłoszenia: #Q-202202-61078
 
A zaznaczenie tej opcji nie powoduje z automatu dodanie logów ?
1644072848133.png

Połączono posty:

Widzę, że nie bo support też o nie poprosił w zgłoszeniu. Dołączone.

Te WD Blue to tylko na test, one do czego innego są przeznaczone. Mam tylko jeden wolny w szufladzie dysk ST4000VN008, więc musiałbym usunąć DataVol2 i ponownie skonfigurować, lub dokupić jeszcze jeden ST4000VN008, aby zrobić test na kolejnym grupie RAID.
 
Logi niestety muszą iść do analizy i nie mogę Ci odpowiedzieć konkretniej, bo bug może oznaczać w najgorszym wypadku uszkodzenie sprzętowe.
Kod:
[36966.067799] qemu-system-x86[25335]: segfault at 0 ip 00007f113ef3626a sp 00007ffe51b9a568 error 4 in libc-2.21.so[7f113eeb6000+199000]
[36966.079804] Code: 66 45 0f ef c0 66 45 0f ef c9 66 45 0f ef d2 66 45 0f ef db 48 89 f8 48 89 f9 48 81 e1 ff 0f 00 00 48 81 f9 cf 0f 00 00 77 66 <f3> 44 0f 6f 20 66 45 0f 74 e0 66 41 0f d7 d4 85 d2 74 04 0f bc c2
Segfault dla 'qemu-system-x86' mógłby oznaczać błąd programu, ... ...

Ale w połączeniu z: unable to handle page fault for address: ffff888312a01338, które pojawia się w
Kod:
[47034.251577] kernel tried to execute NX-protected page - exploit attempt? (uid: 0)
[47034.259009] BUG: unable to handle page fault for address: ffff888312a01338
[47034.265831] #PF: supervisor instruction fetch in kernel mode
...
[47034.387641] Call Trace:
[47034.390086]  <IRQ>
[47034.392097]  ? __wake_up_common+0x82/0x120
[47034.396168]  ? __wake_up_common_lock+0x75/0xb0
[47034.400587]  ? raid1_end_write_request+0x171/0x340
[47034.405348]  ? blk_update_request+0x9c/0x440
[47034.409595]  ? scsi_end_request+0x23/0x100
[47034.413673]  ? scsi_io_completion+0x89/0x300
[47034.417917]  ? blk_done_softirq+0x78/0xa0
[47034.421904]  ? __do_softirq+0xf7/0x205
[47034.425635]  ? asm_call_irq_on_stack+0xf/0x20
[47034.429969]  </IRQ>
[47034.432063]  ? do_softirq_own_stack+0x32/0x40
[47034.436395]  ? irq_exit_rcu+0x84/0x90
[47034.440042]  ? common_interrupt+0x6c/0x120
[47034.444120]  ? asm_common_interrupt+0x1e/0x40
[47034.448447]  ? acpi_idle_do_entry+0x4f/0x60
[47034.452614]  ? sched_clock_cpu+0x11/0xa0
[47034.456517]  ? acpi_idle_enter+0x71/0xb0
[47034.460415]  ? cpuidle_enter_state+0x7a/0x2a0
[47034.464750]  ? cpuidle_enter+0x24/0x40
[47034.468511]  ? do_idle+0x227/0x2b0
[47034.471894]  ? cpu_startup_entry+0x14/0x20
[47034.475968]  ? start_secondary+0x114/0x150
[47034.480039]  ? secondary_startup_64_no_verify+0xb0/0xbb
...
... może oznaczać uszkodzenie pamięci RAM.
Niestety trudno to stwierdzić bo masz zainstalowane niekompatybilne dyski:
Kod:
NAS_HOST   7     /dev/sde          SSD:data  465.76 GB Disk 5            QNAP FLEX   5           WDC WDS500G2B0A-00SM50
NAS_HOST   8     /dev/sdf          SSD:data  465.76 GB Disk 6            QNAP FLEX   5           WDC WDS500G2B0A
Więc drugi call trace trudny do określenia.
Jeśli nie masz wyjścia HDMI w serwerze, zainstaluj byle jaką karte graficzną na PCIe (zamontuj jakoś, nawet obudowy nie składaj) i uruchom do 3-pass'ów memory test: Memory Test - QNAPedia
Jeśli memory test wyjdzie okay, to musisz koniecznie sprawdzić dyski WD Diagnostic Tools lub SeaTools.
Ale test RAM'u to jest must-be!
 
OK poszukam karty i zrobię test. Chociaż z Low Profile będzie ciężko.

Te WDS500G2B0A działały przez 2 lata w TS-453Be bez problemowo. A to nie jest tak, że można by je przypiąć do tego:

1644081591076.png

Trwa mi cały czas synchronizacja DataVol2 z 2x ST4000VN008 - mogę w trakcie synchronizacji serwer złożyć, czy lepiej poczekać ? Jeszcze ma trwać 3 godziny.
 
A nie w moim mieszczą się wysykoprofilowe karty, a w TS-473A nisko profilowe :)

Mogę go złożyć w trakcie synchronizacji macierzy, czy poczekać aż zakończy ?
 
Złożyć - wyłączyć. To takie z pracy z klustrami ICL i IBM słownictwo :) Ja starej daty jestem :)

Kartę mam ogarniętą - spokojnie wstawię.
 
No to MemTest zrobiony. Błędów nie ma. Natomiast każda kolejna seria trwała dłużej. Pierwsza wykonała się w około 1:15, kolejna trwała już prawie 3 godziny a jak widać pełne 3 serie + 54% czwartej zajęło: 15 godzin.
Co ciekawe jak próbowałem zmienić parametry przy tej 4 serii poprzez wybranie C to praktycznie jakby system wisiał dopiero po 15 sekundach pojawiło się menu wyboru, a po którymś tam z kolei wyborze tego menu pod C system się zresetował.
Bezpośrednio po resecie wywoływanie punktu C jest mega szybkie.

qnap memtest.jpg

Nie pamiętam, czy mem test nie powinien wykorzystywać wszystkich rdzeni CPU ? Bo u mnie pracował tylko na jednym mimo wybranej opcji aby korzystał z ALL
 
FYI: Z tym segfaultem dla qemu myliłem się, więc wykreśliłem, co zresztą sam udowodniłeś memtestem.

Chętnie Ci pomogę i jeśli to wina urządzenia to musimy tego dowieźć, dlatego powinieneś:
1) odłączyć niekompatybilne urządzenia
2) zobaczyć czy nastąpi zawieszenie - jeśli tak to wskazać datę i godzinę
3) zgłosić je na helpdesk
...
Dalsze kroki diagnostyczne wyłącznie via helpdesk.
 
OK to wymieniam nie kompatybilne dyski SSD na takie co są na liście zgodności, robię inicjalizację a następnie podłączę dyski HDD i zrobię z nich RAID bo ten błąd pojawia się tylko w czasie tworzenia RAID.
Generalnie chciałbym z niego już korzystać produkcyjnie.
 

Użytkownicy znaleźli tą stronę używając tych słów:

  1. 673a
  2. ts-673a
  3. restart
  4. samsung
  5. odmontowany
  6. Wolumen odmontowany
  7. Datavol1 datavol2
  8. test pamięci
  9. datavol1 odmontowany
  10. ts-473A
  11. WD BLUE M2
  12. 970 EVO