Koozali.org: home of the SME Server

errore filesystem

Offline ello

  • ****
  • 153
  • +0/-0
errore filesystem
« on: June 25, 2018, 11:36:23 AM »
buongiorno
questa mattina controllando il server mi sono accorto che andava lentissimo, circa tre minuti per accedere come root, e contestualmente i clinet non riescono a ricever e spedire e-mail, ma vanno regolarmente in internet.
Leggendo il log messages, ho rilevato errori di questo tipo:

Jun 25 10:11:16 sme kernel: EXT4-fs (md0): mounted filesystem with ordered data mode. Opts:
Jun 25 10:11:16 sme kernel: ata4: lost interrupt (Status 0x50)
Jun 25 10:11:16 sme kernel: ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jun 25 10:11:16 sme kernel: ata4.01: failed command: READ DMA
Jun 25 10:11:16 sme kernel: ata4.01: cmd c8/00:08:40:dc:2b/00:00:00:00:00/fa tag 0 dma 4096 in
Jun 25 10:11:16 sme kernel:         res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Jun 25 10:11:16 sme kernel: ata4.01: status: { DRDY }
Jun 25 10:11:16 sme kernel: ata4: soft resetting link
Jun 25 10:11:16 sme kernel: ata4.00: configured for UDMA/133
Jun 25 10:11:16 sme kernel: ata4.01: configured for UDMA/133
Jun 25 10:11:16 sme kernel: ata4.01: device reported invalid CHS sector 0
Jun 25 10:11:16 sme kernel: ata4: EH complete

ho fatto ripartire il server, e mi ha messo a disposizione la shell per poter effettuare la riparazione del filesystem con fsck che ho regolamente effettuato, una volta terminato fatto ripartire il server ho rilevato che gli errori non sono stati completamante risolti, il server non è più lentissimo ma i client non ricevono e spediscono posta.
questo è il nuovo log

Jun 25 11:01:58 sme kernel: ata4: lost interrupt (Status 0x50)
Jun 25 11:01:58 sme kernel: ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jun 25 11:01:58 sme kernel: ata4.01: failed command: READ DMA EXT
Jun 25 11:01:58 sme kernel: ata4.01: cmd 25/00:00:00:14:61/00:04:0c:00:00/f0 tag 0 dma 524288 in
Jun 25 11:01:58 sme kernel:         res 40/00:00:07:de:4b/00:00:00:00:00/b0 Emask 0x4 (timeout)
Jun 25 11:01:58 sme kernel: ata4.01: status: { DRDY }
Jun 25 11:01:58 sme kernel: ata4: soft resetting link
Jun 25 11:01:58 sme kernel: ata4.00: configured for UDMA/133
Jun 25 11:01:58 sme kernel: ata4.01: configured for UDMA/33
Jun 25 11:01:58 sme kernel: ata4: EH complete

il server ha tre hard disk sata da 500gb l'uno configurato in raid 5, lo smart della scheda madre non rileva nessun errore

Offline ReetP

  • *
  • 3,722
  • +5/-0
Re: errore filesystem
« Reply #1 on: June 25, 2018, 02:06:29 PM »
Sospetta un'unità disco difettosa.

Hai un buon backup?

Cerca online l'errore per ulteriori informazioni:

lost interrupt (Status 0x50)

Hai controllato con smartmon?

https://wiki.contribs.org/Monitor_Disk_Health

Il tuo array è OK?

Code: [Select]
cat /proc/mdstat

==============================

Suspect a failing disk drive.

Have you got a good backup?

Search online for the error for more information:

lost interrupt (Status 0x50)

Have you checked with smartmon ?

https://wiki.contribs.org/Monitor_Disk_Health

Is your array OK ?

Code: [Select]
cat /proc/mdstat
...
1. Read the Manual
2. Read the Wiki
3. Don't ask for support on Unsupported versions of software
4. I have a job, wife, and kids and do this in my spare time. If you want something fixed, please help.

Bugs are easier than you think: http://wiki.contribs.org/Bugzilla_Help

If you love SME and don't want to lose it, join in: http://wiki.contribs.org/Koozali_Foundation

Offline ello

  • ****
  • 153
  • +0/-0
Re: errore filesystem
« Reply #2 on: June 25, 2018, 06:04:34 PM »
[quote ]
Sospetta un'unità disco difettosa.
[/quote]
ho lo stesso presentimento
Quote
Hai un buon backup?
si
Quote
Cerca online l'errore per ulteriori informazioni:

lost interrupt (Status 0x50)
già fatto , mi consiglia di controllare con smartctl e sembra tuuto OK
Quote
Hai controllato con smartmon?

https://wiki.contribs.org/Monitor_Disk_Health
la prima cosa che ho fatto
Quote
Il tuo array è OK?

Code: [Select]
cat /proc/mdstat
la seconda cosa che ho fatto ed è tutto OK

[root@sme ~]# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [raid1]
md0 : active raid1 sdb1[1] sdc1[2] sda1[0]
      255936 blocks super 1.0 [3/3] [UUU]

md1 : active raid5 sdb2[1] sdc2[3] sda2[0]
      975996928 blocks super 1.1 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
      bitmap: 3/4 pages [12KB], 65536KB chunk

unused devices: <none>

comunque per non trovarmi impreparato ho acquistato un nuovo hard disk arriva domani e provo a sostituire l'unità collegata ad ATA4.01 che tutto porta ad indicare come difettosa visto che ha abbassato la velocità da UDMA133 a UDMA 33
Grazie