HDD defekt? Festplatte wird aus RAID geschmissen

T

TheBasti82

Grünschnabel
Hallo,

ich habe mit meinem kleinen Ubuntu Homeserver seit kurzem ein Festplattenproblem, da die noch sehr neu ist wollt ich vorher mal eure Meinung einholen bevor ich sie zu Samsung einsende.

Mein System:
Board: ECS A780GM-M mit AMD 780G und SB700 Chipsatz
CPU: AMD Sempron LE
HDDs: 2 x SAMSUNG HD103UJ (1 TB) im RAID 1 Verbund
OS: Ubuntu 8.04 Server LTS

Ich habe mir die SMART Infos in ne Datei übertragen die ich jedoch leider grad nicht zur Hand, werde sie heute Abend mal nachreichen.

Nun gut auf der Konsole jedenfalls bekam ich folgende Meldung:

272.703792 ata 2.00 exception Emask 0x50 SAct 0x7103fed1 SErr 0x800 action 0x6 frozen
ata 2.00 SError: {HostInt}
ata 2.00 cmd 61/58:20:e8:45:48/04:00:2f:00:00/40 tag 0 ncq 524288 out
ata 2.00: status: {DRDY}
das ganze wiederholte sich zig mal...irgendwann stand denn:
raid 1: sda3 rederecting sector 921600 to another mirror

Es betrifft nur eine der beiden HDD's ist trotzdem doof da ein halbes RAID 1 sinnlos ist :D

Nachdem ich die Kabel getauscht habe die Schnittstelle auf dem Mainboard gewechselt habe und die Partition neu in den RAID Verbund eingefügt habe lief das System immer wieder ne weile...denn kam der Fehler schon wieder.

Ich weiß ohne die Smart-Infos ist das nicht so aussagekräftig mich hat nur gewundert das smartctl für den Health Status OK angegeben hat. Aber, vielleicht hat der ein oder andere von euch noch ein Tipp für mich wie ich dem Fehler auf die Spur komme...

Ich werde heute Abend nochmal die Smart Daten posten...

Schonmal Danke

mfg
Sebastian
 
hast du mal ein resync gemacht ? ...
Ist das ein HW-Raid oder SW-Raid ?
 
softwareraid... diese probs hatte ich auch mit dem amd chipsatz. sichere mal die daten die noch retten kannst. wen du im bekanntenkreis jemanden hast der ein nvidia board hat teste dort mal mit deinen platten ob du ein raid zu stande bekommst. denk das das der softwareraidcontroller von amd ist...
 
softwareraid... diese probs hatte ich auch mit dem amd chipsatz. sichere mal die daten die noch retten kannst. wen du im bekanntenkreis jemanden hast der ein nvidia board hat teste dort mal mit deinen platten ob du ein raid zu stande bekommst. denk das das der softwareraidcontroller von amd ist...

Oha das ist ja nicht so toll X(
Eine einfache SATA Erweiterungskarte hätte ich noch...probieren kann man es ja.
Ich hatte aber geplant eh das Board gegen ein sparsameres Board zu tauschen hatte da an ein A330GC von Asrock gedacht mit Atom aber gut das ist jetzt was anderes...

Weiß denn jemand ob es da ein Fix gibt...ich meine gibt doch sicher einige Leute die RAID mit dem gleich oder verwandten Chipsätzen verwenden..
Also, ein Firmwareupdate für die Festplatten scheint es jedenfalls nicht zu geben. Werd noch probieren das BIOS zu updaten.

mfg
Sebastian
 
Ich bin mir nicht ganz sicher, ob das jetzt bei Dir die Ursache ist, aber es soll öfter mal Probleme mit Raid bei Platten geben die dafür nicht spezifiziert sind. Hatte sowas mal bei meinem Bruder mit erlebt...da stieg eine Platte aus regelmäßig aus dem Software/Fakeraid aus, was wohl irgendwie mit Fehlerkorrekturen zusammenhängt, die bei den Raidplatten anders arbeiten. Weiß leider nicht mehr genau, wie das technisch war, soll aber öfter mal vorkommen. In die Richtung könnte man sich also auch mal Informieren...mein Bruder hatte übrigens auch F1 Platten, aber mit Intel Chipset...
 
SiS, sowas kann ich mir nicht denken, das du sowas bei deinem bruder beobachtet hast, glaub ich dir, aber ich denke es hatte andere gründe.
Ein Raid hat nichts mit der Fähigkeit der Platten zu tun ob diese das unterstützen. Festplatten sind sehr dumme Komponenten, die interessiert nicht was Sie speichern. Auch nicht ob Sie die Daten in diesem Falle 2 mal vorhalten oder ein Parity bit setzen.
An deiner stelle würde ich bevor ich die gesamte Hardware auf den kopf stelle erst immer die Software anzweifeln, denn das ist meistens die ursache allen übels.
Mach das was ich dir gesagt habe, einen resync. Löse das Raid komplett auf, erstell es neu und füge die 2. Platte hinzu.
Sind das 2 unterschiedliche PLatten ? Also unterschiedliche Geschw. ?
 
@foexle:
Das Problem soll aber in der Tat öfters auftreten. Das ganze war technisch auch etwas komplizierter...hatte was mit der Fehlerkorrektur zu tun, und dass dann teilweise beide Platten verschiedene Daten liefern. Der Controller/Software erkennt das und hält eine Platte für defekt und schließt sie aus. So hab ich es jedenfalls in Erinnerung.

Ob das jetzt wirklich hier der Fall ist weiß ich nicht und sollte wohl auch erst an letzter Stelle überprüft werden, da ja schließlich die Platten ersetzt werden müssten. Aber dennoch wollte ich es erwähnen, falls kein anderer Lösungsvorschlag ziehen sollte...
 
@SiS,
war das dann nicht vielleicht ein RAID-Controller als PCI-Karte mit zwei verschiedenen Festplatten dran, die der nicht syncen konnte?
 
auch 2 verschiedene platten kann man syncen ... mit unterschiedlicher geschwindigkeit wirds nur problematisch .. aber die größe spielt im ersten moment keine rolle

kommt natürlich auch auf das raid an ... also ich würde einfach das raid mal neu erzeugen
 
@foexle:
Das Problem soll aber in der Tat öfters auftreten. Das ganze war technisch auch etwas komplizierter...hatte was mit der Fehlerkorrektur zu tun, und dass dann teilweise beide Platten verschiedene Daten liefern. Der Controller/Software erkennt das und hält eine Platte für defekt und schließt sie aus. So hab ich es jedenfalls in Erinnerung.

Ob das jetzt wirklich hier der Fall ist weiß ich nicht und sollte wohl auch erst an letzter Stelle überprüft werden, da ja schließlich die Platten ersetzt werden müssten. Aber dennoch wollte ich es erwähnen, falls kein anderer Lösungsvorschlag ziehen sollte...

Wikipedia meint dazu:
Wikipedia schrieb:
Many modern drives have internal error recovery algorithms that can take upwards of a minute to recover and re-map data that the drive fails to easily read. Many RAID controllers will drop a non-responsive drive in 8 seconds or so. This can cause the array to drop a good drive because it has not been given enough time to complete its internal error recovery procedure, leaving the rest of the array vulnerable. So-called enterprise class drives limit the error recovery time and prevent this problem, but desktop drives can be quite risky for this reason. (...)

Eventuell kannst du ja die maximale Antwortzeit des RAIDs raufsetzten, oder die maximale Recoveryzeit der Platte runtersetzten (für Western Digital Platten gibts da ein Tool.
 
@Jabo: Nein, war ein Onboard Raid Controller. Intel ICH6 oder ICH7 müsste das gewesen sein. Platten waren beide absolut identisch.
@MC Raph: Ja, ich glaub das war es was ich meinte...für Samsung Platten hatte ich so ein Tool damals nicht gefunden...aber ist inzwischen auch egal...die Platten arbeiten jetzt woanders...
 
Zuletzt bearbeitet:
Trotzdem sollte der TE mal die Platten hoch und runter mittels smartctl und Herstellertools testen. Sischer ist sischer ;)
 
Hallo,

wollt mich auch mal wieder melden. Also, ich habe am Samstag ein BIOS Update gemacht und mal wieder das SATA Kabel getauscht. Habe denn wieder die Partion in den RAID Verbund eingebunden. Bis dato keine Probleme da ich aber keine voreiligen Schlüsse ziehen will, werde ich am Ende der Woche nochmal von mir hören lassen.

auch 2 verschiedene platten kann man syncen ... mit unterschiedlicher geschwindigkeit wirds nur problematisch .. aber die größe spielt im ersten moment keine rolle

kommt natürlich auch auf das raid an ... also ich würde einfach das raid mal neu erzeugen

Da ich noch Neuling bin kannst mich da nochmal aufklären? Wie kann ich denn eine "Sychronisierung" erzwingen ... reicht es denn nicht die Partion mittel mdadm --add einzufügen? Wo besteht da der Unterschied?
Kann ich denn den RAID auflösen / neu aufsetzten ohne die Daten zu löschen?(theoretisch ja habe aber noch nie probiert)

Ich bin mir nicht ganz sicher, ob das jetzt bei Dir die Ursache ist, aber es soll öfter mal Probleme mit Raid bei Platten geben die dafür nicht spezifiziert sind.

Dein Ansatz ist gar nicht mal verkehrt zumal es jetzt von meiner Festplatte auch seit neuesten auch ne RAID Version gibt (gab es jedenfalls als ich meine kaufte noch nicht). Dabei geht es glaube aber mehr um das abspeichern der redunanten Daten was bei Standard Festplatten zu Datenverlust führen kann, diese Aspekte spielen aber bei einigen RAID Typen ne Rolle (z.b. RAID 5)...also ich muß mir das nochmal durchlesen aber das hat mit meinem Problem glaube nix zu tuen.:think:

Eventuell kannst du ja die maximale Antwortzeit des RAIDs raufsetzten, oder die maximale Recoveryzeit der Platte runtersetzten (für Western Digital Platten gibts da ein Tool.

Ja ich glaube so ein Tool gibt es für SAMSUNG auch. Aber, in einem anderen Forum habe ich gelesen das SAMSUNG weil jemand das Tool benutzt hat die Garantie verweigert hat.?(

Trotzdem sollte der TE mal die Platten hoch und runter mittels smartctl und Herstellertools testen. Sischer ist sischer

Gut werde ich machen zumindest mit smartctl :) TE=Threadersteller?

Nun gut ich werd mal sehen wie der Server die nächste Zeit läuft und nochmal Bericht erstatten.

mfg
Sebastian
 
Hallo

So ich nochmal ich wollt ja eigentlich schon Anfang der Woche schreiben habe es denn aber einfach vergessen.

Also, es traten wirklich keine Probleme mehr auf. Ich vermute stark das das BIOS Update ein Bug für die Chipsatz Ansteuerung beseitigt hat.
Allerdings habe ich jetzt ein anderes Problem aber dafür mache ich einen neuen Thread auf.(hat aber mit LVM zu tuen)

Nochmal Danke an alle für die guten Ratschläge

mfg
Sebastian
 

Ähnliche Themen

Festplatte stirbt, dd funktioniert nicht

Festplatte friert ein nach suspend/resume

Mysteriöser 11.4 Absturz - Maschine läuft, SSH und vor Ort Login unmöglich

SATA Festplattenproblen mit Debian!

OpenSuse 11.1 USB Festplatte wird nicht erkannt

Zurück
Oben