Definicja i przyczyna
W klastrze wysokiej dostępności (HA) split-brain występuje, gdy oba węzły tracą ze sobą łączność, ale nadal działają niezależnie, a oba węzły przejmują rolę węzła aktywnego. Może to prowadzić do niespójności danych lub uszkodzenia współdzielonej pamięci masowej, ponieważ każdy węzeł może próbować jednocześnie przejąć kontrolę nad zasobami współdzielonymi.
Do najczęstszych przyczyn split-brain należą:
- Rozłączenie sieci między węzłami w klastrze
- Awaria połączenia heartbeat
- Niestabilne lub niespójne ścieżki sieciowe
Rozwiązanie
- Napraw połączenie sieciowe między węzłami.
Najpierw sprawdź i przywróć połączenie sieciowe między oboma węzłami (np. połączenie heartbeat, przełączniki, ustawienia sieci).
Dopiero po przywróceniu połączenia system może przystąpić do weryfikacji stanu klastra. - Pozwól systemowi automatycznie wykryć stan split-brain.
- Gdy węzły ponownie nawiążą komunikację, system wymienia informacje o stanie między oboma węzłami.
- Jeśli oba węzły przejęły rolę węzła aktywnego, system rozpoznaje to jako stan split-brain.
- Aby zapobiec uszkodzeniu danych, system zatrzymuje większość usług (takich jak SMB, iSCSI) i wyświetla komunikat o błędzie informujący o wystąpieniu split-brain.
- Odzyskaj stan po split-brain za pomocą menedżera High Availability Manager.
- Otwórz High Availability Manager.
- Kliknij Recover from Split-Brain, aby uruchomić kreatora odzyskiwania.
W kreatorze możesz wybrać jedną z poniższych opcji odzyskiwania:- Opcja 1: Zachowaj dane tylko na jednym węźle
Wybierz węzeł do zachowania, a drugi węzeł zostanie wyczyszczony i zresetowany jako węzeł pasywny. System następnie ponownie zsynchronizuje klaster HA.
Ta opcja jest odpowiednia, gdy wyraźnie wiesz, który węzeł zawiera poprawne dane i chcesz szybko przywrócić klaster. - Opcja 2: Zachowaj dane na obu węzłach
Jeśli oba węzły zawierają ważne dane, system pozwala jednemu węzłowi wznowić usługi jako pierwszy, podczas gdy drugi węzeł zostaje usunięty z klastra.
Po zweryfikowaniu i uzgodnieniu danych możesz ręcznie ponownie dołączyć usunięty węzeł do klastra.
- Opcja 1: Zachowaj dane tylko na jednym węźle
- Opcjonalnie: Zminimalizuj ryzyko przyszłego split-brain, włączając serwer kworum.
Jeśli węzły rozłączą się ze sobą, ale pozostaną podłączone do sieci, serwer kworum może nadal monitorować poszczególne węzły i przekazywać ich stany między sobą. Pomaga to zmniejszyć ryzyko wystąpienia split-brain.
Serwer kworum możesz skonfigurować, przechodząc do High Availability Manager > Settings > Failover Policy > Quorum Server.