RAID wiederherstellen - Anleitung

netbui · 27.07.2006

Hallo, mir ist vor einiger Zeit mein RAID 5 abgeschmiert. Passiert ist das bei der Umstellung von SUSE auf Gentoo. Ich hatte unter SUSE die smartmontoos installiert, aber leider keine Warnung über den sich dramatisch verschlechternden Zustand meiner Festplatten erhalten.

Das RAID 5 Aray bestand aus 4 Samsung 160 GB IDE Festplatten, davon eine, /dev/hda1, als Sparedisk. Abgekackt ist mir das Raid genau bei der Umstellung von Suse auf Gentoo. Durch einen Fehler meines Promise SAT II TX4 Controlers wurde einmal Suse anstatt das neu installierte Gentoo gebootet. Leider habe ich erst nach der Eingabe des reboot Befehls gemerkt, dass das RAID dirty war und gerade am syncen... Beim nächsten versuch es zu starten war es defekt und das Beste: zwei der drei HDDs waren defekt.
Mittlerweile habe ich festgestellt, dass ALLE 4 Samsung 160 GB Festplatten einen Schlag haben. Leider ist mir das vorher unter SUSE nicht aufgefallen, obwohl ich die Smartmontools installiert hatte.

Die Lösung:

ich habe mir eine neue 320 GB HDD gekauft um erst mal ohne Datenverlust an der Wiederherstellung arbeiten zu können.

Bei der Suche nach eine Tool, um die Partitionen zu kopieren bin ich auf

Code:

ddrescue

gestoßen. Im Gegensatz zu dd und cp bricht ddrescue das kopieren nicht ab, wenn fehlerhafte Stellen auf dem Quellmedium vorhanden sind. Außerdem habe ich mit ddrescue eine Datentransferrate von über 20MB/s erreicht, mit dd nur um die 6 MB/s.
Ich habe also erstmal die beiden Platten mit:

Code:

ddrescue /dev/hdc1 /dev/sda1
ddrescue /dev/hdd1 /dev/sdb1

auf meine Ersatzplatten kopiert.

Im GENTO Forum habe ich folgenden Artikel entdeckt:
http://forums.gentoo.org/viewtopic-t-477256-highlight-mdadm.html

Ich fasse mal die Wichtigsten Punkte zusammen:
- wenn ein neues Raid erstellt wird, werden die Daten auf den Festplatten NICHT gelöscht, sofern kein SYNC stattfindet.
- mit mdadm -E /dev/hdX erhält man eine Informationen über das Raid, unter anderem auch über die Position der Festplatten im Raid.

Code:

/dev/sda1:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : blablablablablablablablablablablablablablablablablablablablabla
  Creation Time : Thu Jul 27 02:51:06 2006
     Raid Level : raid5
    Device Size : 156288256 (149.05 GiB 160.04 GB)
     Array Size : 312576512 (298.10 GiB 320.08 GB)
   Raid Devices : 3
  Total Devices : 2
Preferred Minor : 0

    Update Time : Thu Jul 27 13:45:56 2006
          State : clean
 Active Devices : 2
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 0
       Checksum : 3f9542a - correct
         Events : 0.3309

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     2       8        1        2      active sync   /dev/sda1

   0     0       8       17        0      active sync   /dev/sdb1
   1     1       0        0        1      faulty removed
   2     2       8        1        2      active sync   /dev/sda1

- mit z.B.

Code:

mdadm -C -l5 -n3 /dev/md0 /dev/sdb1 missing /dev/sda1

kann man ein neues Raid mit den alten Festplatten erstellen, die Daten gehen nicht verloren. Sehr wichtig ist, dass man die Festplatten in der korrekten Reihenfolge angibt. In meinem Fall also /dev/sda1 missing /dev/sdb1.

Die Parameter bedeuten:

Code:

-C: create, neues Raid anlegen, 
-l: level, also Raid 5 
-n: Anzahl der Festplatten  
[B]missing[/B]: gibt an, welche Festplatte fehlt (ich hatte missing im Artikel im Gentoo Forum irgendwie x Mal überlesen, ich dachte das gehört zum Text...)

In meinem Fall habe ich erst mal mit:

Code:

mdadm -C -l5 -n3 /dev/md0 /dev/sdb1 missing /dev/sda1

das auf meine Ersatzplatten kopierte Raid wieder zum Leben erweckt. Nach einem reiserfschk --rebuildt-tree waren ca. 80% der Daten wieder da. Puh! Kurz danach hat /dev/hdb1 den Geist ganz aufgegeben.....
Dann habe ich mit

Code:

mdadm -C -l5 -n3 /dev/md1 /dev/hdd1 /dev/hdc1 missing

das Raid auf mit den beiden verbliebenen alten Festplatten wieder zu Leben erweckt und auf md0 kopiert. Damit hatte ich nun um die 95% der Daten wieder, der Rest versteckt sich hoffentlich im lost&found Ordner.

Das Zeigt mal wieder wie wichtig ein Backup ist (die wirklich wichtigen Dinge sichere ich auf DVD-Ram)

Anhang: smart für drei der defekten Festplatten:

Code:

Status des Laufwerkes /dev/hdb
Ort 	IDE Gerät B
Festplattengröße 	150 GB
Make und Model 	SAMSUNG SP1604N
Unterstützt SMART? 	Ja
SMART eingeschaltet? 	Ja
Gespeicherte Fehler 	551 Fehler erfasst
Festplattentest durchgeführt? 	Ja
Offline data collection status 	Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status 	The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline data collection 	4320 seconds.
Offline data collection capabilities 	SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities 	Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability 	Error logging supported.
No General Purpose Logging support.
Short self-test routine recommended polling time 	1 minutes.
Extended self-test routine recommended polling time 	72 minutes.
Raw Read Error Rate 	0
Spin Up Time 	6528
Start Stop Count 	648
Reallocated Sector Ct 	0
Seek Error Rate 	0
Seek Time Performance 	0
Power On Half Minutes 	1473h+18m
Spin Retry Count 	0
Power Cycle Count 	340
Temperature Celsius 	25
Hardware ECC Recovered 	409695170
Reallocated Event Count 	0
Current Pending Sector 	0
Offline Uncorrectable 	0
Multi Zone Error Rate 	0
Soft Read Error Rate 	0

Code:

Status des Laufwerkes /dev/hdc
Ort 	IDE Gerät C
Festplattengröße 	150 GB
Make und Model 	SAMSUNG SV1604N
Unterstützt SMART? 	Ja
SMART eingeschaltet? 	Ja
Gespeicherte Fehler 	16386 Fehler erfasst
Festplattentest durchgeführt? 	Ja
Offline data collection status 	Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Disabled.
Self-test execution status 	The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline data collection 	7200 seconds.
Offline data collection capabilities 	SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities 	Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability 	Error logging supported.
No General Purpose Logging support.
Short self-test routine recommended polling time 	1 minutes.
Extended self-test routine recommended polling time 	120 minutes.
Raw Read Error Rate 	1032
Start Stop Count 	25982
Reallocated Sector Ct 	4
Seek Error Rate 	0
Seek Time Performance 	12171
Power On Hours 	   239122            [B](239122/24= 9963 Tage / 365= 27 Jahre??)[/B]
Power Cycle Count 	25497
Temperature Celsius 	29
Current Pending Sector 	0
Offline Uncorrectable 	0
Multi Zone Error Rate 	19
Soft Read Error Rate 	0

Code:

Status des Laufwerkes /dev/hdd
Ort 	IDE Gerät D
Festplattengröße 	150 GB
Make und Model 	SAMSUNG SP1614N
Unterstützt SMART? 	Ja
SMART eingeschaltet? 	Ja
Gespeicherte Fehler 	396 Fehler erfasst
Festplattentest durchgeführt? 	Ja
Offline data collection status 	Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status 	The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline data collection 	5760 seconds.
Offline data collection capabilities 	SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
No Selective Self-test supported.
SMART capabilities 	Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability 	Error logging supported.
No General Purpose Logging support.
Short self-test routine recommended polling time 	1 minutes.
Extended self-test routine recommended polling time 	96 minutes.
Raw Read Error Rate 	147
Spin Up Time 	5632
Start Stop Count 	554
Reallocated Sector Ct 	0
Seek Error Rate 	0
Seek Time Performance 	0
Power On Half Minutes 	1316h+37m
Spin Retry Count 	1
Power Cycle Count 	240
Temperature Celsius 	35
Hardware ECC Recovered 	236686477
Reallocated Event Count 	0
Current Pending Sector 	0
Offline Uncorrectable 	0
Multi Zone Error Rate 	0
Soft Read Error Rate 	0

Goodspeed · 28.07.2006

Wäre das nicht was für's Wiki? Oder zumindest ins "HowTo"-Forum ..

Havoc][ · 28.07.2006

Japp, finde auch das gehört ins Wiki oder ins HowTo Forum.

Aber ich möchte gerne noch anmerken das Linux normalerweise kein Problem mit einem Reboot hat. Selbst wärend eines Rebuilds des Raids. Mir ist das nach einem frisch installierten System schon mehrmals passiert. Zwar ist das IMHo nicht unbedenklich, aber rein theoretisch dürfte nichts passieren.

Havoc][

netbui · 28.07.2006

Hallo,

ich habe zusätzlich ein Problem mit meinem Promise SataII TX4: das blöde Ding vertauscht die Reihenfolge der Festplatten.

Code:

Aus
Boot:                      Nachdem der Kernel geladen wurde   

/dev/sda/                /dev/sdc
/dev/sdb/    wird       /dev/sdb
/dev/sdc/                /dev/sda

Ich hatte auf /dev/sda1 Gentoo und /dev/sdc1 Suse10.0. Ich habe natürlich erst mal etwas dumm aus der Wäsche geguggt und mich gefragt, why to ... wurde Suse und nicht Gentoo gestartet? Also System neu gebootet, dummerweise sind vom Raid nach dem Reboot zwei Festplatten als faulty gemeldet worden..... Das Raid bestand aus drei aktiven HDDs und einer Spareplatte und weil ich den Sync nach wenigen Minuten gestoppt hatte, war die Spareplatte praktisch leer...
Das Problem mit der fehlerhaften Reihenfolge habe ich übrigns dadurch gelöst, dass ich für alle SATA Platten je ein Singel Disk Raid angelegt habe, so werden sie bei Booten korrekt erkannt.

Das war wieder ein typischer Fall von Murphys Law.

thorsten.gehrig · 11.08.2006

RAID wiederherstellen

Hallo
ich bin ein "RAID-Anfänger" und habe mir jetzt auf meinem neu eingerichteten Haus-Server ein RAID-1 mit LVM2 und ext3-fs eingerichtet.
Bei meinen Basteleinen habe ich mir aber (das noch leere) RAID zerschossen - und will jetzt mal üben wie das wiederherstellen geht.

Code:

cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sda1[0]
      244195864 blocks super 1.0 [2/1] [U_]

unused devices: <none>

Das Raid wurde initial erstellt mit

Code:

mdadm --create /dev/md1 --level=mirror --raid-devices=2 /dev/sda1 /dev/sdb1

wenn ich das recht sehe müsste ich ja hiermit weiterkommen:

Code:

mdadm --create /dev/md1 --level=mirror --raid-devices=2 /dev/sda1 missing /dev/sdb1

allerdings bekomme ich:

Code:

mdadm: /dev/md1 is already active.

also: wie kann ich das raid deaktivieren? (unmount alleine hat noch nicht geholfen)

Danke im vorraus für jegliche Unterstützung.

Mfg
Thorsten Gehrig

EDIT: hab mein Problem doch selbst gelöst bekommen. Falls es jemanden interessiert: das RAID hat wohl die sdb1 schon "rausgeworfen". Daher musste ich einfach wieder die 2. Platte hinzufügen

Code:

 mdadm /dev/md1 -a /dev/sdb1

netbui · 12.08.2006

Du mußt das Raid vor der weitere Bearbeitung stoppen. Durch den "Persistant Superblock" startet das Raid automatisch schon beim Booten.
Also erst unmounten, dann Raid stoppen mit:

Code:

mdadm -S /dev/mdX

man mdadm:

-S, --stop
deactivate array, releasing all resources.

Und nicht vergessen: vor jedem Wiederherstllungsversuch ein Backup ziehen und viel Glück.

cato · 14.08.2006

RAID startet nach reboot nicht

moin moin

ich habe mir mit mdadm ein RAID 0 erstellt, was auch einwandfei geklappt hat. Leider startet das RAID nach einem Reboot nich neu. Leider ist mir bis dato noch nicht klar warum das nicht klappt. Erstellt wurde das RAID mit der folgenden Syntax

mdadm --create /dev/md0 --level=0 --raid-devices=3 /dev/hda1 /dev/hdc1 /dev/hdd

in meiner mdadm.conf steht

ARRAY /dev/md0 level=raid0 num-devices=3 UUID=bcff350c:a933e9f2:6b293aeb:2cc093a2
devices=/dev/hda1,/dev/hdc1,/dev/hdd1

soweit scheint mir alles in OK zu sein wenn ich dir howto richtig verstehe
danke für die hilfe
cato

so habe nun das RAID wieder am leben habe es einfach noch mal wieder gestartet mit mdadm und create das hat wunderbar geklappt. Stellt sich mir nur noch die frage warum macht er das beim booten nicht gleich.

gruß
cato

SchneeMann3000 · 26.09.2006

Smartmontools

Hallo,

diese Anleitung ist super, ich hoffe das es bei mir auch klappt, falls es mal so weit sein sollte, was ich allerdings nicht hoffe.

Aber nun habe ich doch Fragen zu Smartmontools und zwar woran erkenne ich nun, ob die Festplatten bald den Geist aufgeben oder schon Defekt sind?

Bei deinen Festplatten würde ich ja nun sagen nur hdc und hda (totalausfall?) sind defekt?

Code:

Raw Read Error Rate 	1032
Start Stop Count 	25982 [COLOR="Red"]sehr hoch?[/COLOR]
[COLOR="Red"]Reallocated Sector Ct 	4[/COLOR]
Seek Time Performance 	12171
Power On Hours 	   239122  [COLOR="Red"]Anzeige defekt! [/COLOR]        

(239122/24= 9963 Tage / 365= 27 Jahre??)
[COLOR="Red"]
Multi Zone Error Rate 	19[/COLOR]
Soft Read Error Rate 	0

Hier mal die Ausgaben von smartctl meiner Festplatten:
für hda

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   201   201   063    Pre-fail  Always       -       14386
  4 Start_Stop_Count        0x0032   253   253   000    Old_age   Always       -       767
  5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       0
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   252   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   253   244   187    Pre-fail  Always       -       51400
  9 Power_On_Minutes        0x0032   231   231   000    Old_age   Always       -       139h+22m
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   251   251   000    Old_age   Always       -       1099
192 Power-Off_Retract_Count 0x0032   253   253   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   253   253   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0032   253   253   000    Old_age   Always       -       20
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       4799
196 Reallocated_Event_Count 0x0008   253   253   000    Old_age   Offline      -       0
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       0
198 Offline_Uncorrectable   0x0008   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0008   143   001   000    Old_age   Offline      -       327
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   252   000    Old_age   Always       -       5
202 TA_Increase_Count       0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       1
204 Shock_Count_Write_Opern 0x000a   253   252   000    Old_age   Always       -       0
205 Shock_Rate_Write_Opern  0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   194   192   000    Old_age   Offline      -       0
 99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0

sda

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   099   006    Pre-fail  Always       -       217989554
  3 Spin_Up_Time            0x0003   096   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       12
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   073   060   030    Pre-fail  Always       -       22982854
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       363
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       25
187 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
189 Unknown_Attribute       0x003a   100   100   000    Old_age   Always       -       0
190 Unknown_Attribute       0x0022   072   069   045    Old_age   Always       -       521863196
194 Temperature_Celsius     0x0022   028   040   000    Old_age   Always       -       28 (Lifetime Min/Max 0/26)
195 Hardware_ECC_Recovered  0x001a   054   050   000    Old_age   Always       -       135819895
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

für sdb

Code:

  1 Raw_Read_Error_Rate     0x000f   053   050   006    Pre-fail  Always       -       233290649
  3 Spin_Up_Time            0x0003   097   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       479590615
  9 Power_On_Hours          0x0032   092   092   000    Old_age   Always       -       7339
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       190
194 Temperature_Celsius     0x0022   026   040   000    Old_age   Always       -       26 (Lifetime Min/Max 0/13)
195 Hardware_ECC_Recovered  0x001a   053   049   000    Old_age   Always       -       233290649
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

für sdc

Code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   062   049   006    Pre-fail  Always       -       425979
  3 Spin_Up_Time            0x0003   097   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       561
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   085   060   030    Pre-fail  Always       -       371939135
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       5768
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       599
194 Temperature_Celsius     0x0022   024   040   000    Old_age   Always       -       24 (Lifetime Min/Max 0/10)
195 Hardware_ECC_Recovered  0x001a   062   049   000    Old_age   Always       -       425979
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

ich weiss nicht es sieht zwar glaub alles noch so weit okay aus, aber sollte ich mir über die Raw_Read_Error_Rate und Hardware_ECC_Recovered gedanken machen? DAzu muss ich aber sagen die eine Platte ist gerade mal wenige Wochen alt (sda).

der-brumm-baer · 12.12.2006

Bei mir sieht es ganz schlecht aus oder?

Hallo,

ich habe auch Probleme mit meinem RAID5 nach zwei Abstürzen des Systems kurz hinterander kann ich das RAID anscheinend nicht mehr herstellen. Ich bin noch RAID Anfänger, ich hoffe ihr könnt mir helfen!

Also dann mal zu den Infos:
mdadm.conf sieht folgt aus:

Code:

DEVICE /dev/hda1 /dev/hdb1 /dev/hdc1 /dev/hdd1
ARRAY /dev/md/0 level=raid5 num-devices=4 spares=0 UUID=45dedcaa:d05263b1:fd626$

mdadm -E /dev/hda1

Code:

xenfile:~# mdadm -E /dev/hda1
/dev/hda1:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : 45dedcaa:d05263b1:fd62667c:5df733b3
  Creation Time : Sun Dec  3 17:00:45 2006
     Raid Level : raid5
    Device Size : 390708736 (372.61 GiB 400.09 GB)
     Array Size : 1172126208 (1117.83 GiB 1200.26 GB)
   Raid Devices : 4
  Total Devices : 3
Preferred Minor : 0

    Update Time : Tue Dec 12 17:17:01 2006
          State : active
 Active Devices : 3
Working Devices : 3
 Failed Devices : 1
  Spare Devices : 0
       Checksum : bcf7412a - correct
         Events : 0.291269

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     0       3        1        0      active sync   /dev/hda1

   0     0       3        1        0      active sync   /dev/hda1
   1     1       0        0        1      faulty removed
   2     2      22        1        2      active sync   /dev/hdc1
   3     3      22       65        3      active sync   /dev/hdd1

mdadm -E /dev/hdb1

Code:

xenfile:~# mdadm -E /dev/hdb1
/dev/hdb1:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : 45dedcaa:d05263b1:fd62667c:5df733b3
  Creation Time : Sun Dec  3 17:00:45 2006
     Raid Level : raid5
    Device Size : 390708736 (372.61 GiB 400.09 GB)
     Array Size : 1172126208 (1117.83 GiB 1200.26 GB)
   Raid Devices : 4
  Total Devices : 4
Preferred Minor : 0

    Update Time : Tue Dec 12 17:00:20 2006
          State : clean
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0
       Checksum : bcfbaf8a - correct
         Events : 0.291268

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     1       3       65        1      active sync   /dev/hdb1

   0     0       3        1        0      active sync   /dev/hda1
   1     1       3       65        1      active sync   /dev/hdb1
   2     2      22        1        2      active sync   /dev/hdc1
   3     3      22       65        3      active sync   /dev/hdd1

mdadm -E /dev/hdd1

Code:

xenfile:~# mdadm -E /dev/hdc1
/dev/hdc1:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : 45dedcaa:d05263b1:fd62667c:5df733b3
  Creation Time : Sun Dec  3 17:00:45 2006
     Raid Level : raid5
    Device Size : 390708736 (372.61 GiB 400.09 GB)
     Array Size : 1172126208 (1117.83 GiB 1200.26 GB)
   Raid Devices : 4
  Total Devices : 3
Preferred Minor : 0

    Update Time : Tue Dec 12 17:17:01 2006
          State : clean
 Active Devices : 2
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 0
       Checksum : bcfbb314 - correct
         Events : 0.291271

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     2      22        1        2      active sync   /dev/hdc1

   0     0       0        0        0      removed
   1     1       0        0        1      faulty removed
   2     2      22        1        2      active sync   /dev/hdc1
   3     3      22       65        3      active sync   /dev/hdd1

mdadm -E /dev/hdd1

Code:

/dev/hdd1:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : 45dedcaa:d05263b1:fd62667c:5df733b3
  Creation Time : Sun Dec  3 17:00:45 2006
     Raid Level : raid5
    Device Size : 390708736 (372.61 GiB 400.09 GB)
     Array Size : 1172126208 (1117.83 GiB 1200.26 GB)
   Raid Devices : 4
  Total Devices : 3
Preferred Minor : 0

    Update Time : Tue Dec 12 17:17:01 2006
          State : clean
 Active Devices : 2
Working Devices : 2
 Failed Devices : 1
  Spare Devices : 0
       Checksum : bcfbb356 - correct
         Events : 0.291271

         Layout : left-symmetric
     Chunk Size : 64K

      Number   Major   Minor   RaidDevice State
this     3      22       65        3      active sync   /dev/hdd1

   0     0       0        0        0      removed
   1     1       0        0        1      faulty removed
   2     2      22        1        2      active sync   /dev/hdc1
   3     3      22       65        3      active sync   /dev/hdd1

Ich hoffe ihr habt da eine Lösung??

MfG
Sven

PhilMan · 24.12.2008

Hallo, ich habe ein ähnliches Problem mit meinem SW-Raid5.
Ich versuche nun schon seit mehreren Tagen mein Raid5 wiederherzustellen, aber leider immer noch vergebens.

(sd[abc]2 sind meine md-Partitionen)

ein "mdadm -E /dev/sd[abc]2" gibt mir aus:

Code:

/dev/sda2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x1
     Array UUID : 8981134e:867f3bbb:5ea63a02:6ada5f80
           Name : 0
  Creation Time : Sat Sep 27 13:57:31 2008
     Raid Level : raid5
   Raid Devices : 3

 Avail Dev Size : 972462368 (463.71 GiB 497.90 GB)
     Array Size : 1944924672 (927.41 GiB 995.80 GB)
  Used Dev Size : 972462336 (463.71 GiB 497.90 GB)
   Super Offset : 972462624 sectors
          State : active
    Device UUID : 0ada2ec3:99b9fc52:ed95d66f:d525765b

Internal Bitmap : -233 sectors from superblock
    Update Time : Sat Dec 20 14:50:41 2008
       Checksum : 56a00d4b - correct
         Events : 1823

         Layout : left-asymmetric
     Chunk Size : 128K

    Array Slot : 3 (0, 1, failed, 2)
   Array State : uuU 1 failed
/dev/sdb2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x1
     Array UUID : 8981134e:867f3bbb:5ea63a02:6ada5f80
           Name : 0
  Creation Time : Sat Sep 27 13:57:31 2008
     Raid Level : raid5
   Raid Devices : 3

 Avail Dev Size : 972462368 (463.71 GiB 497.90 GB)
     Array Size : 1944924672 (927.41 GiB 995.80 GB)
  Used Dev Size : 972462336 (463.71 GiB 497.90 GB)
   Super Offset : 972462624 sectors
          State : active
    Device UUID : c0accd85:eb4cb0e5:1075a1db:23df39d5

Internal Bitmap : -233 sectors from superblock
    Update Time : Sat Dec 20 14:50:41 2008
       Checksum : 91810bc3 - correct
         Events : 1823

         Layout : left-asymmetric
     Chunk Size : 128K

    Array Slot : 1 (0, 1, failed, 2)
   Array State : uUu 1 failed
/dev/sdc2:
          Magic : a92b4efc
        Version : 1.0
    Feature Map : 0x1
     Array UUID : 8981134e:867f3bbb:5ea63a02:6ada5f80
           Name : 0
  Creation Time : Sat Sep 27 13:57:31 2008
     Raid Level : raid5
   Raid Devices : 3

 Avail Dev Size : 972462368 (463.71 GiB 497.90 GB)
     Array Size : 1944924672 (927.41 GiB 995.80 GB)
  Used Dev Size : 972462336 (463.71 GiB 497.90 GB)
   Super Offset : 972462624 sectors
          State : active
    Device UUID : 89de54ce:4b62ff28:c4f1fdac:0281866c

Internal Bitmap : -233 sectors from superblock
    Update Time : Sat Dec 20 14:50:41 2008
       Checksum : 8600717d - correct
         Events : 1823

         Layout : left-asymmetric
     Chunk Size : 128K

    Array Slot : 0 (0, 1, failed, 2)
   Array State : Uuu 1 failed

Mich macht mittlerweile die Zeile

Code:

Internal Bitmap : -233 sectors from superblock

stutzig.
Das bedeutet, dass der Superblock n.i.O. ist, oder?

Gibt es eine Chance dieses Array wieder herzustellen?

Wenn jemanden irgendetwas dazu einfällt - bitte mir sagen.
Ich brauch die Daten wirklich dringend..........

PS: Nein, ich hab dummerweise seit 2 Monaten kein Backup mehr gemacht :-(

MfG
Phil

PhilMan · 25.12.2008

Raid erstmal wieder hergestellt

Hallo,

also mein Raid md0 ist dank der Anleitung soweit mal wieder hergestellt.
Ein neues Raid md0 erstellt, "missing" anstelle der ausgefallenen Partition sda2 verwendet --> Raid gestartet.
mit

Code:

mdadm --manage /dev/md0 --add /dev/sda2

Partition wieder hinzugefügt und siehe da, hat auch gleich angefangen zu sysncen.

Da ich aber innerhalb des Array mehrere logische Volumes hatte musste ich noch folgende Anleitung beachten http://www.howtoforge.de/howto/daten-aus-raid-1-lvm-partitionen-mit-der-knoppix-linux-livecd-wiederherstellen/

Okay, auch lvm läuft anscheinend prolemlos und unter /dev/mapper finde ich meine erwartetet LV's.
Nachdem ich sie alle unter /media/[LV] mounten wollte erlebte ich jedoch eine böse Überraschung.......

Rund 80% der Daten sind weg bzw. nicht lesbar.
Die Belegung der LV's zeigt mir alles korrekt an, eine Größe der Verzeichnisse zeigt mir meistens 4.0K ------ da is nix drin.

Hat jemand schon einmal dieses Phänomen selbst erlebt und kann mir vielleicht auf die Sprünge helfen?
Ich hab in einem LV (hing im System unter /var) einen fsck versucht.
Nachdem das darin enthaltene ext2 Dateisystem aber anscheinend nur aus Fehlern bestand, habe ich das ganze abgebrochen und auch bei keinem weiteren LV versucht.

Ich vermute, dass die wiederherstellung des RaidArray nicht so ganz erfolgreich verlief.

Kann mir vielleicht jemand sagen, ob es da noch irgendwelche Tricks gibt?
Ich habe mir mit ddrescue zuvor ein Backup der zwei intakten Raid-Partitionen gemacht, so dass ich da gerne noch weiter versuchen würde die Daten wieder herzubekommen.

Jeder Hinweis ist super :-)

mpathy · 20.05.2013

Nach einigen Nächten teilweise ohne viel Schlaf bin ich nach einer erneuten Suche durch Zufall auf eurem Thread gelandet der mich wieder hoffnungsfroh stimmt..

Ich habe ganz ähnliche Probleme gehabt, sogar mit der gleichen Hardware teilweise.

Ich hoffe das ich keine Ratschläge hören muss von wegen "also wer kein Backup macht ist selber schuld" oder "Warum war auf dem Rechner Win2003 drauf gewesen und kein Linux" - solche Antworten kann ich mir gut vorstellen *seufZ* ich kann euch die Hintergründe gerne in einer PN schildern oder mal grob umreißen aber in dem Fall handelt es sich nicht um meinen Rechner, bei dem natürlich zusätzlich zu einem RAID regelmäßige Backups laufen. Und natürlich Linux bei mir, schon seit mind. 10 Jahren.

Nun aber zum Problem:

Nach einem Stromausfall startete der Rechner nicht mehr hoch.
Er meldete RAID 5 Critical und kam dann nur noch bis zum Windows 2003 - Ladebalken.

Im RAID Manager selber standen eigentlich auch zwei als OK drin und nur eine davon von wegen das er sie nicht erkennt.
Eigentlich sollte das ja bei RAID 5 reichen, tat es aber nicht.
Wie auch immer, auf dem Rechner gab es kein weiterkommen mehr, auch per Live-CD kam ich nicht weit, er blieb während des Bootens hängen.

Apropos, der Rechner:
Fujitsu-Siemens PRIMERGY TX150 S2
Raid-Controller: Promise FastTrak S150 SX4
Festplatten: 3x80GB SeaGate ST380013AS
OS:

Die weiteren Schritte wollte ich nun zur Sicherheit nicht mehr an und in diesem Rechner durchführen weil ich auch die Befürchtung hatte es liegt irgendwie an dem RAID-Controller oder was auch immer..

Also habe ich die Platten ausgebaut, einzeln an mein Linux-System angeschlossen, und jede der drei Platten einzeln per dd_rescue gesichert.
Übrigens ohne einen einzigen Fehler! Er sank zwar desöfteren in der Rate deutlich ab, aber einen Fehler zeigte keine der Festplatten an.

Nun habe ich also 3 Festplattenimages a 80GB ohne Fehler in DD.

Eine Analyse zeigte, das zwei davon, nennen wir sie PlatteA und PlatteC ordnungsgemäße Partitionen enthalten, eine kleine Partition mit was auch immer am Anfang, danach ein NTFS.
PlatteB erkannte er keine Partitionen oder Partitionstabelle.

Ich hatte nun folgendes gemacht, ich habe per losetup von allen drei Images Loopdevices erstellt und diese dann per
mdadm --create /dev/md1 --level=5 --raid-devices=3 /dev/loop0 /dev/loop1 /dev/loop2

Das habe ich über Nacht laufen lassen, aber heraus kam kein funktionierendes RAID.

Falls es an der PlatteB liegt werde ich das gleiche nun einfach mit dem Wert missing bei PlatteB machen.

Was losetup angeht, hab ich in verschiedenen Quellen im Netz gelesen, das man einen Offset angeben soll, dort wo
fdisk -lu beispiel.img
anzeigt, wo die Partition beginne.

Dies habe ich versucht, aber er meldet mir hier dann nicht wie in den Beispielen im Internet, das das angegeben Loop-Device dann plötzlich eine entsprechende Partition ist!

Einmal hab ich den Wert direkt genommen den fdisk angezeigt hat, einmal den Wert *512, bei beiden Malen meint er bei
file -s /dev/loop0
das er kein Filesystem erkennt, wie es in den Beispielen angezeigt wird.
Also habe ich das mit dem Offset bislange weggelassen und immer das komplette Image per losetup eingebunden.

Wie gesagt, ich versuche das jetzt gerade mit dem Wert missing bei Platte B.

Komischerweise war er sofort damit fertig, statt lange aufzubauen - jedenfalls zeigte /proc/mdstat keine Prozentzahl und auch --wait meinte es war gleich fertig?
Vielleicht hat er ja die "Arbeit" von letztem Mal nehmen können, statt nochmal neu beginnen zu müssen?! k.A.

Jedenfalls kann ich das auch nicht mounten.
Vermutlich liegt es doch daran, das ich das mit dem Offset nicht gemacht habe.

Wieso klappt es mir aber mit dem von fdisk -lu angezeigten Wert nicht?
fdisk erkennt bei PlatteA und PlatteC ja wie gesagt intakte Partitionen.

Der Unterschied zum obigen Problem ist, das ich beim Ziel keine anderen Festplatten verwende, sondern aus dem Dateien von dd halt Loopdevices mache.
Auch aus Ermangelung an Festplatten und weil es hier nur um die Sicherung geht statt Wiederinstandsetzung.
Aber das sollte keinen Unterschied machen.

Ich habe noch was von der Reihenfolge gehört, in der die Devices angegeben werden müssen - woran erkenne ich diese?

Vielleicht bin ich auch einfach übermüdet aber am DI muss das ganze bestenfalls wieder stehen, dann kann ich nen Tag lang durchschlafen :/

Ihr helft mir jedenfalls sehr sehr sehr weiter, mit dem kleinsten Hinweis.
Sorry wenn ich den Thread hijacke, aber das kommt am nächsten an das Problem ran (inkl. Hardware) das ich hier aktuell habe.

Ich hoffe auf Leute mit Erfahrung, die diesen Thread vll. sogar noch abonniert haben..

marcellus · 20.05.2013

Ich fürchte ich kann kaum was konkret hilfreiches beitragen, aber ich denke der Grund, wieso du dein raid nicht mit mdadm assemblieren kannst ist, weil das kein mdadm array ist.

Womit hast du denn dein raid ursprünglich erzeugt? Abhängig vom Hersteller deines Raid controllers bekommst du live cds mit denen du dein raid (zumindest notdürftig) wieder fixen kannst.

mpathy · 20.05.2013

marcellus schrieb:
Ich fürchte ich kann kaum was konkret hilfreiches beitragen, aber ich denke der Grund, wieso du dein raid nicht mit mdadm assemblieren kannst ist, weil das kein mdadm array ist.

Womit hast du denn dein raid ursprünglich erzeugt? Abhängig vom Hersteller deines Raid controllers bekommst du live cds mit denen du dein raid (zumindest notdürftig) wieder fixen kannst.

Na ich dachte halt, ein RAID5 ist ein RAID5.

Naja halt der RAID Manager vom Raid-Controller (Promise FastTrak S150 SX4) den man während des Bootens starten kann.

Okay ich schaue da mal morgen nach ob ich bei Promise eine entsprechende CD bekomme.

Ich glaube aber nicht, das so ne CD von so nem Hersteller mit dd - Diskimages klar kommt.

RAID wiederherstellen - Anleitung

netbui

Eroberer

Goodspeed

Foren Gott

Havoc][

Debian && Gentoo'ler

netbui

Eroberer

thorsten.gehrig

netbui

Eroberer

cato

Jungspund

SchneeMann3000

Jungspund

der-brumm-baer

Grünschnabel

PhilMan

Grünschnabel

PhilMan

Grünschnabel

mpathy

Grünschnabel

marcellus

Kaiser

mpathy

Grünschnabel

Ähnliche Themen

Akonadi startet nicht mehr

Festplatte stirbt, dd funktioniert nicht

Rollei Mini Wifi Camcorder

NagiosGrapher 1.7.1 funktioniert nicht

Hardware Problem

Neueste Themen