Ubuntu 14.04.1 Server randomly rebooting

Linux_starter

Linux_starter

Tripel-As
Hi Guys,

ich habe mit einem Ubuntu Server ein Problem, welche immer random neu startet. Da ist die aktuelle Version von Ubuntu installiert 14.04.1 glaube ich (komm eigentlich aus der Suse Welt). Ich habe alle Logs angeschaut, syslog dmesg etc. und ich konnte absolut kein Problem in der Zeit des Reboot finden. Ich habe mittlerweile das Bios aktualisiert, memcheck laufen lassen und Festplatten unüberprüft. Also kann ich all diese Punkte ausschließen. Es ist immer unterschiedliche Zeiten, mal geht es 2 Tage mal nur 6 Stunden und ich habe so langsam keinen Plan mehr was ich noch machen kann. Prozessor ist ein Intel Core 2 Quad und 4 GB Ram (wenig aber da läuft nicht viel, ein wenig Samba, Owncloud und ein ftp server aber nur fuer 3 User).

Irgendwelche Ideen was ich noch ueberpruefen kann ? Hatte auf der Kiste schon Suse drauf und das hatte funktioniert ohne reboot :-(
 
Außer den entsprechenden Logfiles kannst du nicht viel Überprüfen.
Aber aus diesen sollte auch stets der Grund für das Neustarten hervorgehen.
Je nach Init-System und verwendetem Logger kann man afaik auch das Loglevel hochsetzen, um detailliertere Informationen zum System zu erhalten.
Ein kdump kann u.U. auch weiter helfen.
Wie wäre es außerdem, wenn du uns hier eine zweite Meinung zu den Logfiles gewährtest?
 
Kein Problem:

dmesg start:
[ 0.000000] Initializing cgroup subsys cpuset
[ 0.000000] Initializing cgroup subsys cpu
[ 0.000000] Initializing cgroup subsys cpuacct
[ 0.000000] Linux version 3.13.0-40-generic (buildd@comet) (gcc version 4.8.2 (Ubuntu 4.8.2-19ubuntu1) ) #69-Ubuntu SMP Thu Nov 13 17:53:56 UTC 2014 (Ubuntu 3.13.0-40.69-generic 3.13.11.10)
[ 0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.13.0-40-generic root=/dev/mapper/ESB--SERVER--vg-root ro splash quiet vt.handoff=7
[ 0.000000] KERNEL supported cpus:
[ 0.000000] Intel GenuineIntel
[ 0.000000] AMD AuthenticAMD
[ 0.000000] Centaur CentaurHauls
[ 0.000000] Disabled fast string operations
[ 0.000000] e820: BIOS-provided physical RAM map:
[ 0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009ebff] usable

last entry:
[ 3698.098867] iptables: IN=eth0 OUT= MAC=e8:94:f6:08:7b:6f:e8:b1:fc:08:19:61:08:00 SRC=192.168.102.3 DST=83.220.112.79 LEN=52 TOS=0x00 PREC=0x00 TTL=128 ID=23931 DF PROTO=TCP SPT=51939 DPT=443 WINDOW=8192 RES=0x00 SYN URGP=0


current time: Wed Dec 10 19:24:13 CET 2014

the time in syslog:
Dec 10 13:28:15 esb-server kernel: [61337.133446] iptables: IN=eth0 OUT= MAC=e8:94:f6:08:7b:6f:00:24:d7:ac:6f:b0:08:00 SRC=192.168.102.7 DST=83.220.112.79 LEN=52 TO S=0x00 PREC=0x00 TTL=128 ID=15495 DF PROTO=TCP SPT=55303 DPT=443 WINDOW=8192 RES=0x00 SYN URGP=0
Dec 10 13:30:10 esb-server rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="779" x-info="http://www.rsyslog.com"] start
Dec 10 13:30:10 esb-server rsyslogd-2184: action 'iptables' treated as ':omusrmsg:iptables' - please change syntax, 'iptables' will not be supported in the future [ try http://www.rsyslog.com/e/2184 ]
Dec 10 13:30:10 esb-server rsyslogd-2207: error during parsing file /etc/rsyslog.conf, on or before line 62: invalid character ':' - is there an invalid escape sequ ence somewhere? [try http://www.rsyslog.com/e/2207 ]
Dec 10 13:30:10 esb-server rsyslogd: rsyslogd's groupid changed to 104
Dec 10 13:30:10 esb-server rsyslogd: rsyslogd's userid changed to 101
Dec 10 13:30:10 esb-server kernel: [ 0.000000] Initializing cgroup subsys cpuset
Dec 10 13:30:10 esb-server kernel: [ 0.000000] Initializing cgroup subsys cpu

da war noch ein neustart fuer memcheck aber das problem war zwischen 13:28 und 13:30

Habe mal die Dateien hoch geladen welche hier sind: BOX

Vielleicht habt Ihr ja ein paar Ideen.

Vielen Dank im vorraus !
 
Hmm,

automatische Reboots durch Unattended Upgrades? https://help.ubuntu.com/community/AutomaticSecurityUpdates.
Code:
/etc/apt/apt.conf.d/50unattended-upgrades
...
// Automatically reboot *WITHOUT CONFIRMATION* if a 
// the file /var/run/reboot-required is found after the upgrade 
//Unattended-Upgrade::Automatic-Reboot "false";

Kannst du mal schauen ob zu den Zeiten Packete installiert wurden, wird in der Regel nach /var/log/apt protokolliert.

mfg
HeadCrash

PS:
Dann würde ich aber eigenltich auch einen Hinweis im syslog erwarten *grübel*. Steckdose mit Zeitschaltuhr?
 
naja ich sag mal so..... Ich habe heute Updates installiert aber das war um 8 morgens...... Gnome etc. habe ich nicht installiert nur rein text Ubuntu Server. Aber ich habe die Dateien gerade mal noch hochgeladen. Befinden sich im Ordner APT..... die Zeiten passen auch nicht wirklich. :-( da war zwar geschrieben das ich neustarten muss, konnte dies aber leider nicht machen.
 
strom.... oder Zeitschaltuhr habe ich nicht.... war auch kein Strom Ausfall da mein Router da noch empfindlicher ist :-( wenn es so wär dann war es ja einfach :-(
 
Also, warum dein Rechner neustartet kann ich den Logs bisher auch nicht entnehmen (habe mir dmesg, dmesg.0 und syslog angesehen).
Aber es ist in der dmesg auffällig, dass smbd und winbind laufend abkratzen und neu gestartet werden.
Nur zur Sicherheit: Hast du mal die Crontabs von root durchgesehen?
Wenn der Rechner unregelmäßg neu startet ist es zwar unwharscheinlich, dass das Problem hier liegt, aber dennoch nicht unmöglich.
Achja:
Code:
last reboot
bzw.
Code:
last -wx
 
Zuletzt bearbeitet von einem Moderator:
Also hier mal die Daten:

daniel_stanisz-busch@esb-server:~$ last reboot
reboot system boot 3.13.0-40-generi Wed Dec 10 18:21 - 08:35 (14:14)
reboot system boot 3.13.0-40-generi Wed Dec 10 18:19 - 18:20 (00:00)
reboot system boot 3.13.0-40-generi Wed Dec 10 17:08 - 17:21 (00:12)
reboot system boot 3.13.0-40-generi Wed Dec 10 13:30 - 17:06 (03:36)
reboot system boot 3.13.0-40-generi Tue Dec 9 20:20 - 17:06 (20:46)
reboot system boot 3.13.0-40-generi Tue Dec 9 18:31 - 20:18 (01:47)
reboot system boot 3.13.0-40-generi Sun Dec 7 19:50 - 20:18 (2+00:28)
reboot system boot 3.13.0-40-generi Tue Dec 2 20:09 - 20:18 (7+00:09)


daniel_stanisz-busch@esb-server:~$ last -wx
daniel_stanisz-busch ftpd12908 192.168.102.3 Thu Dec 11 08:14 - 08:24 (00:10)
daniel_stanisz-busch ftpd12594 192.168.102.3 Thu Dec 11 07:48 - 08:07 (00:19)
daniel_stanisz-busch pts/1 192.168.102.3 Thu Dec 11 07:44 still logged in
daniel_stanisz-busch ftpd3708 192.168.102.3 Wed Dec 10 20:10 - 20:11 (00:01)
daniel_stanisz-busch ftpd3642 192.168.102.3 Wed Dec 10 20:04 - 20:05 (00:01)
daniel_stanisz-busch ftpd3641 192.168.102.3 Wed Dec 10 20:04 - 20:20 (00:15)
daniel_stanisz-busch ftpd3117 192.168.102.3 Wed Dec 10 19:26 - 19:27 (00:01)
daniel_stanisz-busch ftpd3114 192.168.102.3 Wed Dec 10 19:25 - 19:35 (00:10)
daniel_stanisz-busch pts/1 192.168.102.3 Wed Dec 10 18:22 - 22:51 (04:28)
runlevel (to lvl 2) 3.13.0-40-generic Wed Dec 10 18:21 - 08:36 (14:14)
reboot system boot 3.13.0-40-generic Wed Dec 10 18:21 - 08:36 (14:14)
shutdown system down 3.13.0-40-generic Wed Dec 10 18:20 - 18:21 (00:01)
runlevel (to lvl 6) 3.13.0-40-generic Wed Dec 10 18:20 - 18:20 (00:00)
daniel_stanisz-busch pts/1 192.168.102.3 Wed Dec 10 18:20 - down (00:00)
runlevel (to lvl 2) 3.13.0-40-generic Wed Dec 10 18:19 - 18:20 (00:00)
reboot system boot 3.13.0-40-generic Wed Dec 10 18:19 - 18:20 (00:00)
shutdown system down 3.13.0-40-generic Wed Dec 10 17:21 - 18:19 (00:58)
runlevel (to lvl 6) 3.13.0-40-generic Wed Dec 10 17:21 - 17:21 (00:00)
runlevel (to lvl 2) 3.13.0-40-generic Wed Dec 10 17:08 - 17:21 (00:12)
reboot system boot 3.13.0-40-generic Wed Dec 10 17:08 - 17:21 (00:12)
shutdown system down 3.13.0-40-generic Wed Dec 10 17:07 - 17:08 (00:01)
runlevel (to lvl 6) 3.13.0-40-generic Wed Dec 10 17:06 - 17:07 (00:00)
daniel_stanisz-busch pts/3 192.168.102.3 Wed Dec 10 15:15 - down (01:51)
daniel_stanisz-busch pts/1 192.168.102.3 Wed Dec 10 13:31 - 15:43 (02:12)
runlevel (to lvl 2) 3.13.0-40-generic Wed Dec 10 13:30 - 17:06 (03:36)
reboot system boot 3.13.0-40-generic Wed Dec 10 13:30 - 17:06 (03:36)
daniel_stanisz-busch ftpd25973 192.168.102.3 Wed Dec 10 09:09 - 09:10 (00:01)

In den Cron Jobs habe ich auch nicht wirklich was gefunden. Nur normale conf file Backups and password Backups was mit Ubuntu mit kommt. Ein custom script von mir aber das ist auch nur mount und rsync was aber in der Nacht laeuft.
 
Ich halte es immer mehr für wahrscheinlich, dass entweder im Kernel der Wurm steckt oder die Hardware einen weg hat.
Richte am besten mal kdump ein und Poste den kdump ggf. bei pastebin oder Konsorten.
 
Ich halte es immer mehr für wahrscheinlich, dass entweder im Kernel der Wurm steckt oder die Hardware einen weg hat.
Richte am besten mal kdump ein und Poste den kdump ggf. bei pastebin oder Konsorten.

also ich durfte gerade mal Live dabei sein vor dem Reboot da ich nur 30 cm vom Rener weg bin. Also das ganze fing an mit einem klick klick, was fuer mich auf jedenfall von der Festplatte kommt. Dannach kamm dann der reboot aber wie immer nix in irgendwelchen logs :-( Die beiden Festplatten sind an einen DEL Raid Controller angeschlossen.... Leider meldetder auch keine Probleme. Ich habe jetzt auf jedenfall mal einen S>M>A>R>T gestartet und dann mal schauen was das ergebniss mit sich bring. Denke mal das eine Platte wohl zum austauschen ist :-(

$ sudo mpt-status
ioc0 vol_id 0 type IS, 2 phy, 1676 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 8 ATA SAMSUNG HD204UI 0001, 1863 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 1 ATA ST2000DM001-1CH1 CC26, 1863 GB, state ONLINE, flags NONE

Maybe somebody could have a look at the test (long) I just made. For me this first disk look fine or I overlook some ?
Code:
=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST2000DM001-1CH164
Serial Number:    Z1F2L1LJ
LU WWN Device Id: 5 000c50 05014536a
Firmware Version: CC26
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Fri Dec 12 15:18:00 2014 CET

==> WARNING: A firmware update for this drive may be available,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/223651en

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  609) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 260) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   116   099   006    Pre-fail  Always       -       103928616
  3 Spin_Up_Time            0x0003   095   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       147
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   072   051   030    Pre-fail  Always       -       69007228166
  9 Power_On_Hours          0x0032   085   085   000    Old_age   Always       -       13739
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       147
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       1 1 1
189 High_Fly_Writes         0x003a   079   079   000    Old_age   Always       -       21
190 Airflow_Temperature_Cel 0x0022   051   035   045    Old_age   Always   In_the_past 49 (149 47 50 48 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       116
193 Load_Cycle_Count        0x0032   067   067   000    Old_age   Always       -       66648
194 Temperature_Celsius     0x0022   049   065   000    Old_age   Always       -       49 (0 15 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       13564h+22m+04.360s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       26751939939
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       360834042444

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     13738         -
# 2  Short offline       Completed without error       00%     13734         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
 
Zuletzt bearbeitet:
Yes, your disk looks okay, but I'd prefer to continue this research in german. ;-)
Demnach bitte mal einen eventuellen kdump posten.
Es könnte ein Problem mit dem Festplattentreiber o.ä. sein.
Im schlimmsten Fall hat aber die Festplatte doch einen weg und du hast den Click of death gehört.
 
Sorry,

ich merkt das manchmal gar nicht mehr wenn ich ins englische gerade... Nur gut das ich kein Polnisch mit rein bastle.

Also ich habe jetzt folgendes gemacht:
1. Backup von allen benoetigten dateien auf USB
2. Den doofen Raid Controller raus und beide Platten normal (SATA) angeschlossen
3. Momentan nutze ich nur die eine Platte die bereits getestet wurde
3. Zurueck zu den Wurzeln und OpenSuse 13.2 installiert (minimal server)
4. alles eingerichtet und daten wieder darauf kopiert
5. Backup Scripts eingerichtet (rsync) das wenn was passiert ich die daten noch habe.....

Jetzt laeuft es fast 15 Stunden ohne Klick und ohne Probleme, Das System haengt nicht wenn ein wenig I/O ist. Kein Reboot und ich bin Gluecklich. Ich habe mich fuer die NeuInstallation fuer OpenSuse entschieden, da ich und Ubuntu passen glaube ich nicht zusammen, wir haben immer ein wenig Problem. Seit OpenSuse auf der Kiste ist, ist das Netzwer schneller und die Box ist viel Performanter (ohne Modifizierungen - just out of the box).

Die 2 Platte macht momentan noch den SMART scan und dann werde ich entscheiden was ich damit mache. Villeicht als Snappshot Partition fuer btrfs oder so was. Je nachdem wie das ergebniss ist.

Ich wuerde mal sagen das Problem war der RAID Controller, da jetzt alles passt :-)
 

Ähnliche Themen

Alternative zu Ubuntu gesucht + Mängelliste

Heimserver Konfiguration für Ubuntu Server?!

Problem mit Apache2 + MySQL Server

MPD/Icecast: Linux-Clients spielen nur bis zum Ende des Liedes

NVIDIA Treiber und Ubuntu 8.04 = Problem

Zurück
Oben