A la hora de analizar problemas con el almacenamiento, descubriremos que hay gran cantidad de errores relacionados con el disco. En este artículo vamos a ver cómo interpretar la información que obtenemos de dichos eventos.
Concretamente vamos a prestar atención al evento de disco 153, el cual aparece en el visor de eventos, en la sección de sistema. Pero ojo, deberemos revisar los logs en formato .evtx, nunca en .csv o .txt, veremos a continuación el porqué.
Este tipo de eventos podrían aparecer con un disco normal SATA/SAS directamente conectado al equipo o con cualquier otro tipo, tanto iSCSI, Fiber Channel como NVMe.
Aquí tenemos un ejemplo de visor de eventos en formato .csv:
153 | Disk | The IO operation at logical block address 0x000000 for Disk XX (PDO name: \Device\MPIODiskXX) was retried. |
153 | Disk | The IO operation at logical block address 0x000000 for Disk XX (PDO name: \Device\MPIODiskXX) was retried. |
153 | Disk | The IO operation at logical block address 0x000000 for Disk XX (PDO name: \Device\MPIODiskXX) was retried. |
Y aquí otro en formato .evtx:
Como vemos, a diferencia del formato .csv, en el formato .evtx disponemos de la pestaña Details, en la cual debemos prestar atención a la tabla que aparece «In Bytes». En concreto, a la linea 0028 (en la imagen es la última línea, pero no siempre lo es), en la cual aparecen unos códigos que nos indicarán qué ocurre exactamente con los elementos que Windows reconoce como disco. Vamos a ver cada uno de ellos:
Los códigos SCSI y SRB:
SCSI Status Code
Podríamos decir que éste es el momento en el cual Windows pregunta por el estado del bus de comunicación (00 en el ejemplo).
Aquí podemos encontrar una tabla con los distintos códigos para SCSI.
SRB Status Code (“SCSI Request Block” Status Code)
Este código nos indica el estado del Block requerido en esa operación (09 en el ejemplo).
Aquí podemos encontrar la tabla de códigos para SRB.
SCSI Command
Nos indica el tipo de la operación realizada, por ejemplo, de lectura o escritura (28 en el ejemplo).
Aquí encontraréis un listado con los códigos y la descripción de las distintas operaciones.
En mi trabajo diario, los códigos más comunes que me he encontrado en entornos de Cluster con iSCSI y Fiber Channel son los siguientes:
SCSI Status Code
00 – Status Good.
22 – Terminated.
SRB Status Code
02 – The request was aborted.
0A – The SCSI device selection timed out.
04 – The request completed with any other error.
SCSI Command
28 – Read.
2A – Write.
2C – Erase.
El contexto y las consecuencias:
Este es un ejemplo en el cual encontrarías este tipo de eventos, habiendo problemas con MPIO, es muy común recibir errores en disco 153:
16 | mpio | A fail-over on \Device\MPIODiskXXX occurred. |
17 | mpio | \Device\MPIODiskXX is currently in a degraded state. One or more paths have failed, though the process is now complete. |
En el mismo log puedes encontrar otro tipo eventos y, por más errores que recibas con el disco o relacionados, deberías sospechar que la comunicación con tu almacenamiento no es demasiado buena:
51 | disk | An error was detected on device \ Device\HarddiskXXX\XXXX during a paging operation. |
51 | disk | An error was detected on device \ Device\HarddiskXXX\XXXX during a paging operation. |
51 | disk | An error was detected on device \ Device\HarddiskXXX\XXXX during a paging operation. |
51 | disk | An error was detected on device \Device\HarddiskXXX\XXXX during a paging operation. |
Ten por seguro que después de recibir los eventos de disco, verás errores de corrupción en los datos:
55 | Ntfs | A corruption was discovered in the file system structure on volume \\?\Volume{xxxxxxxxxxxxx}. The Master File Table (MFT) contains a corrupted file record. The file reference number is 0x1000000000000. The name of the file is ‘<unable to determine file name>’. |
55 | Ntfs | A corruption was discovered in the file system structure on volume \\?\Volume{xxxxxxxxxxxxx}. The Master File Table (MFT) contains a corrupted file record. The file reference number is 0x1000000000000. The name of the file is ‘<unable to determine file name>’. |
50 | Ntfs | {Delayed Write Failed} Windows was unable to save all the data for the file . The data has been lost. This error may be caused by a failure of your computer hardware or network connection. Please try to save this file elsewhere. |
50 | Ntfs | {Delayed Write Failed} Windows was unable to save all the data for the file . The data has been lost. This error may be caused by a failure of your computer hardware or network connection. Please try to save this file elsewhere. |
Conclusión:
El evento de disco 153 puede arrojar algo de luz durante el análisis de los eventos de sistema. Serás capaz de comprender lo que ocurre si usas esta información en la resolución de problemas con el almacenamiento… o eso espero :-). Esta es mi forma de entender la información proporcionada en este artículo en base también a mis años de experiencia con el hardware.
Un placer unirme al grupo de ITadmins.es, pronto estaré de vuelta con más documentos. Un saludo!
Deja una respuesta