Hey
Jeg har et irriterende problem med min (test)server, der spontant
booter. Jeg har tidligere spurgt til det her og man pegede i retning af
RAM faillure. Jeg har siden da memtestet rammen, jeg har pillet
klodserne ud på skift (2 x 512), så den kun kørte med den ene. Med begge
klodser i, kunne den holde sig gående op til 14 dage, med en af dem i
var det max 7 dage, med den anden 2-3 dage.
Her er en top, som den så ud, da serveren bootede:
CPU states: 0.4% user 0.0% system 0.0% nice 0.0% iowait 99.5% idle
Mem: 513600k av, 124052k used, 389548k free, 0k shrd, 25204k
buff
101296k actv, 2564k in_d, 2512k in_c
Swap: 2040244k av, 0k used, 2040244k free 48360k
cached
PID USER PRI NI SIZE RSS SHARE STAT %CPU %MEM TIME CPU COMMAND
3252 mysql 18 0 14504 14M 1992 S 0.4 2.8 0:00 0 mysqld
1 root 15 0 476 476 424 S 0.0 0.0 0:01 0 init
2 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 keventd
3 root 34 19 0 0 0 SWN 0.0 0.0 0:02 0
ksoftirqd_CPU0
8 root 25 0 0 0 0 SW 0.0 0.0 0:00 0 bdflush
4 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 kswapd
5 root 15 0 0 0 0 SW 0.0 0.0 0:00 0
kscand/DMA
6 root 15 0 0 0 0 SW 0.0 0.0 0:00 0
kscand/Normal
7 root 15 0 0 0 0 SW 0.0 0.0 0:00 0
kscand/HighMem
9 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 kupdated
10 root 24 0 0 0 0 SW 0.0 0.0 0:00 0
mdrecoveryd
18 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 kjournald
72 root 25 0 0 0 0 SW 0.0 0.0 0:00 0 khubd
1689 root 21 0 0 0 0 SW 0.0 0.0 0:00 0 kjournald
2008 root 15 0 544 544 468 S 0.0 0.1 0:00 0 syslogd
2012 root 15 0 428 428 376 S 0.0 0.0 0:00 0 klogd
2104 root 15 0 1064 1064 920 S 0.0 0.2 0:00 0 sshd
2118 root 24 0 784 784 668 S 0.0 0.1 0:00 0 xinetd
2130 root 15 0 6852 6852 3384 S 0.0 1.3 0:00 0 httpd
2194 root 25 0 444 444 392 S 0.0 0.0 0:01 0 gpm
2204 root 15 0 628 628 520 S 0.0 0.1 0:00 0
authdaemond.mys
2214 root 25 0 496 496 436 S 0.0 0.0 0:00 0
couriertcpd
2217 root 25 0 260 260 220 S 0.0 0.0 0:00 0
courierlogger
2229 root 15 0 496 496 440 S 0.0 0.0 0:00 0
couriertcpd
2232 root 15 0 400 400 352 S 0.0 0.0 0:00 0
courierlogger
2236 nobody 15 0 1240 1240 844 S 0.0 0.2 0:00 0
S85proftpd
2243 root 15 0 572 572 508 S 0.0 0.1 0:00 0 crond
2244 nobody 15 0 7724 7720 3868 S 0.0 1.5 0:00 0 httpd
2245 nobody 15 0 7788 7784 3884 S 0.0 1.5 0:00 0 httpd
2246 nobody 15 0 7688 7684 3908 S 0.0 1.4 0:00 0 httpd
2247 nobody 15 0 7736 7732 3900 S 0.0 1.5 0:00 0 httpd
2248 nobody 15 0 7696 7692 3840 S 0.0 1.4 0:00 0 httpd
2263 root 25 0 1144 1144 976 S 0.0 0.2 0:00 0
mysqld_safe
2312 nobody 15 0 7788 7784 3896 S 0.0 1.5 0:00 0 httpd
2323 root 15 0 976 976 796 S 0.0 0.1 0:00 0 master
2325 daemon 15 0 528 528 472 S 0.0 0.1 0:00 0 atd
Jeg syns ikke lige umiddelbart jeg ser noget odiøst her. En ide til,
hvordan jeg kan testede yderligere og evt. om jeg på en eller anden måde
kan logge, hvad pokker, der går galt? Den lukker pænt ned som ved en
reboot kommando, dvs. der laves ikke fsck check, når den starter op
igen. I serverrummet (hos Jaynet) konstaterede jeg idag at der var
23grader, hvilket måske er lige i overkanten, når man hører om folk, der
har server hos webpartner og som får lungebetændelse af at arbejde i
serverrummet et par timer
Alle ideer er velkomne.
--
Take Care
Kim Emax - master|minds - Vi tænker IT for dig...
Konsulentbistand, programmering, design & hosting.
http://www.masterminds.dk