heartbeat: zwei ha-cluster im gleichen netz?

guybrush82 · 09.06.2008

Hi

Ich bin zur Zeit etwas am verzweifeln zwei (unabhängige) HA-Cluster im gleichen Netz zu betreiben und gidf.de wusste bisher auch keine Antwort.... :-(

Situation:
Erst hatten wir 4 Maschinen, nennen wir sie server1,server2,server3 und server4, die zusammen einen HA-Cluster bildeten; dies hatte aber einige komplikationen mit sich gebracht, so dass wir entschieden diese zu splitten und 2 unabhängie ha-cluster daraus zu machen.
D.h. nun: server1+2 sowie server2+3 haben jeweils eine unabhängige ha.ch, haressources und authkeys.

Seither spammen diese aber die logfiles voll, da sie sich noch immer an den anderen nodes "anmelden" möchten.

Dies sieht dann so aus:

- Hat man verschiedene auhtkeys auf dem server kommen nonstop die "failed authentication" Meldungen im logile, so z.B. auf server1:
--------------------------------------------------------------------------------
"heartbeat[5203]: 2008/06/09_16:06:08 WARN: string2msg_ll: node [server3] failed authentication"
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

- Hat man gleiche keys, motzt heartbeat, dass sich "fremde" maschinen am cluster anmelden wollen, also solche welche weder in ha.ch noch in haressources definiert sind, da diese ja gar nicht dazugehören.
Dies sieht dann, wieder auf server1 im logfile so aus:

--------------------------------------------------------------------------------
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[9] : [auth=1 e17....................]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: process_status_message: bad node [server3] in message
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG: Dumping message with 12 fields
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[0] : [t=status]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[1] : [st=active]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[2] : [dt=7530]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[3] : [protocol=1]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[4] : [src=server3]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[5] : [(1)srcuuid=0x1351ca08(36 27)]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[6] : [seq=73fef]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[7] : [hg=48219b45]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[8] : [ts=484d3c07]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[9] : [ld=0.07 0.15 0.11 2/253 26655]
heartbeat[5203]: 2008/06/09_16:19:48 ERROR: MSG[10] : [ttl=4]
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Meine configs sehen jeweils so aus:

ha.cf:
autojoin none
use_logd on
keepalive 2
deadtime 30
warntime 10
initdead 120
bcast eth0
auto_failback on
node server1
node server2
ping <ip des routers>

haressources:
server1 <virtual ip server 1+2>

authkeys:
auth 1
1 sha1 e17.............................

Auch solche Dinge wie das setzen von:
ucast eth0 <IP des 2. nodes>
oder das komplett neue erstellen der uuids hatte bisher ned so viel gebracht... :-(

Weiss jemand wie ich dieses setup so hinkrige? -Oder sollte es wieder erwartengrundsätzlich nicht möglich sein 2 ha-cluster im gleichen netz am laufen zu haben?

Wir haben noch einen dritten ha-cluster, aber in einem anderen netz und dieser läuft wunderbar. ;-)

Danke schonmal für eure hilfe,
guybrush

Cyber · 10.06.2008

Ist jetzt schon wieder ne Weile her, aber ich habe schon mehrfach zwei bis drei HA-Cluster erfolgreich im gleichen Segment betrieben. Ich war allerdings nie in der Situation dass ich bestehendes gesplittet habe, sondern vielmehr immer ein Pärchen von Grund auf neu installiert hatte (also HA-Anteile).
Einige davon hatten sogar nur eine einfache LAN-Anbindung (für Testbetrieb, nicht Produktiv falls die SPOF-Redner die Keule schwingen wollen) und es gab keinerlei Probs.

Ich würde nochmals die gesamten HA-Configs und Netzwerk-Settings checken. Mal Dir die Topologie auf und schreib die notwendigsten Netz/Cluster Adressen hin. Klingt banal, hilft aber immer ganz schnell bei solchen Probs.

guybrush82 · 10.06.2008

Hast du da bcast oder ucast benutzt?

Edit: Habs nun gelöst:

die ucast direktive habe ich von:
#ucast eth0 <ip-server1> <ip-server2> (single line config)

nach:
ucast eth0 <ip-server1>
ucast eth0 <ip-server2>
(multi line config) umgestellt.

Danach bekam ich bei einem cluster jedoch nonstop die Meldung in den logs: "ERROR: Message hist queue is filling up (200 messages in queue)"

nach einem "killall heartbeat" (weil das init.d script "hängen" blieb) und "ifconfig eth0:0 down" auf den hosts mit anschliessendem heartbeat neu start gings dann irgendwie plötzlich... -Vor allem letzeres Problem mit dem "Message hist queue is filling up" hatte ich schon bei früheren Versuchen konnte es jedoch durch einen heartbeat restart nicht lösen.

Wie auch immer, manchmal muss man halt auch bei unix systemen etwas zeit vergehn lassen und nochmals probieren. ;-)

Cyber · 10.06.2008

Der Vollständigkeit halber noch die Antwort auf Deine Frage. Ich hatte broadcasting eingesetzt.

guybrush82 · 10.06.2008

Habs nun gelöst:

die ucast direktive habe ich von:
#ucast eth0 <ip-server1> <ip-server2> (single line config)

nach:
ucast eth0 <ip-server1>
ucast eth0 <ip-server2>
(multi line config) umgestellt.

Danach bekam ich bei einem cluster jedoch nonstop die Meldung in den
logs: "ERROR: Message hist queue is filling up (200 messages in queue)"

nach einem "killall heartbeat" (weil das init.d script "hängen" blieb)
und "ifconfig eth0:0 down" auf den hosts mit anschliessendem heartbeat
neu start gings dann irgendwie plötzlich... -Vor allem letzeres Problem
mit dem "Message hist queue is filling up" hatte ich schon bei früheren
Versuchen konnte es jedoch durch einen heartbeat restart nicht lösen.

Wie auch immer, manchmal muss man halt auch bei unix systemen etwas zeit
vergehn lassen und nochmals probieren. ;-)

heartbeat: zwei ha-cluster im gleichen netz?

guybrush82

LPIC 1+2

Cyber

.:DISTORTED:.

guybrush82

LPIC 1+2

Cyber

.:DISTORTED:.

guybrush82

LPIC 1+2

Ähnliche Themen

Pacemaker XEN HA

Cluster Probleme (DRBD Heartbeat Apache/httpd)

HP PSC 2175 - CUPS druckt nicht

OCFS2 Cluster FS auf openSuSE 11.1

simple Freigabe trotz PDC unmöglich?

Neueste Themen