Bienvenidos

Todos estos pasos descriptos fueron probados en ambientes productivos

miércoles, 31 de mayo de 2017

Poco frecuente, pero nos paso, error fisico de Fibra



En un t5-2 , con 1 pci, con dos FC, nos asignaron luns.
En el messages del equipo nos arrojaba estos errores de timeout
May 12 13:12:49 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442a01f6201,2
May 12 13:13:21 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:14:05 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442a01f6201,2
May 12 13:14:27 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:16:17 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:16:34 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442a01f6201,2
May 12 13:17:29 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625e (ssd40): Command Timeout on path fp3/ssd@w50001442b01f7a01,9
May 12 13:17:46 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442b01f7a01,2
May 12 13:18:46 t5-2-coneja   /scsi_vhci/ssd@g600014400000001070211e0f481e625f (ssd47): Command Timeout on path fp3/ssd@w50001442b01f7a01,2

< Corto la salida de error porque es muy extensa >

El comando format quedaba colgado

Cualquier operacion que se quiera hacer sobre los discos del ldom del t5-2, tardan muchisimo.
Lo primero que hice fue hacer un format, se quedaba colgado.
Googlee ese caso y coincide con https://support.symantec.com/en_US/article.TECH225180.html que basicamente dice que
Para que no se cuelgue el format previamente tenes que hacer esto ( lo hice y funciono ) dice que esta solucion aplica si tenes el parche  118833-36 (or
higher)  o superior y en nuestro caso SI lo tenenmos
# NOINUSE_CHECK=1
# export NOINUSE_CHECK
# format

Pero cuando quiero hacer un newfs al d100 ( disco c0d2s0 )
Tarda casi 4 minutos para un newfs de un disco de 30gb
[sunt100] / # time newfs /dev/md/rdsk/d100
newfs: construct a new file system /dev/md/rdsk/d100: (y/n)? y
Warning: 2048 sector(s) in last cylinder unallocated
/dev/md/rdsk/d100:      62906368 sectors in 10239 cylinders of 48 tracks, 128 sectors
        30716.0MB in 640 cyl groups (16 c/g, 48.00MB/g, 5824 i/g)
super-block backups (for fsck -F ufs -o b=#) at:
32, 98464, 196896, 295328, 393760, 492192, 590624, 689056, 787488, 885920,
Initializing cylinder groups:
............
super-block backups for last 10 cylinder groups at:
61938464, 62036896, 62135328, 62233760, 62332192, 62430624, 62529056,
62627488, 62725920, 62824352

real    3m38.99s
user    0m0.74s
sys     0m0.20s
[sunt100] / #

Por otro lado, vi que se solucionaba con un FAST REBOOT, lo hicimos y se soluciono el tema del format.

Despues de encontrar el error de timeout, trate de buscar donde estaba.
Asi que revise los errores en los hba y me encontre con esto. El primer port estaba OK el segundo con errores de tx y de crc.

root@t5-2-coneja # fcinfo hba-port -l 2100000e1e2871f0
HBA Port WWN: 2100000e1e2871f0
        Port Mode: Initiator
        Port ID: 700300
        OS Device Name: /dev/cfg/c6
        Manufacturer: QLogic Corp.
        Model: 7023303
        Firmware Version: 7.05.01
        FCode/BIOS Version:  BIOS: 3.19; fcode: 4.02; EFI: 5.36;
        Serial Number: 463916R+1525264578
        Driver Name: qlc
        Driver Version: 150505-5.03b
        Type: N-port
        State: online
        Supported Speeds: 4Gb 8Gb 16Gb
        Current Speed: 16Gb
        Node WWN: 2000000e1e2871f0
        Link Error Statistics:
                Link Failure Count: 1
                Loss of Sync Count: 0
                Loss of Signal Count: 0
                Primitive Seq Protocol Error Count: 0
                Invalid Tx Word Count: 0
                Invalid CRC Count: 0
        Max NPIV Ports: 254
        NPIV port list:
root@t5-2-coneja # fcinfo hba-port -l 2100000e1e2871f1
HBA Port WWN: 2100000e1e2871f1
        Port Mode: Initiator
        Port ID: 710300
        OS Device Name: /dev/cfg/c7
        Manufacturer: QLogic Corp.
        Model: 7023303
        Firmware Version: 7.05.01
        FCode/BIOS Version:  BIOS: 3.19; fcode: 4.02; EFI: 5.36;
        Serial Number: 463916R+1525264578
        Driver Name: qlc
        Driver Version: 150505-5.03b
        Type: N-port
        State: online
        Supported Speeds: 4Gb 8Gb 16Gb
        Current Speed: 16Gb
        Node WWN: 2000000e1e2871f1
        Link Error Statistics:
                Link Failure Count: 1
                Loss of Sync Count: 0
                Loss of Signal Count: 0
                Primitive Seq Protocol Error Count: 0
                Invalid Tx Word Count: 189
                Invalid CRC Count: 5988
        Max NPIV Ports: 254
        NPIV port list:

Conclusion  hasta ese momento, es el gbic o el cable de fibra o el gbic del lado del switch.
Solucion temporaria para que no explote todo. desconfigure la /dev/cfg/c7

cfgadm -f -c unconfigure c7

Habiendo cambiado el gbic para descartar que ese sea el problema , la solucion temporaria , pero nos quedamos sin multipath, es quedar funcionando con so
lo una fibra conectada al port c6 y pedir el recableado de fibras.
******La solucion definitiva, fue cambiar el cable fisico de Fibra

3 comentarios:

  1. There is a amazing explanation..many things gather about it your self...i really enjoy it....
    seo company in chennai

    ResponderEliminar
  2. Este comentario ha sido eliminado por el autor.

    ResponderEliminar
  3. Decent to see blog like this...got a more valuable informations..spent a pleasant time with this blog.keep more updates this way..
    Self Employment Tax
    Tax Preparation Services
    Tax Accountant
    Tax Advisor

    ResponderEliminar