Bienvenidos

Todos estos pasos descriptos fueron probados en ambientes productivos

viernes, 4 de octubre de 2013

Dominio de 25k, caido

Dominio de 25k, caido.No responde el ping, ni el ssh , ni con un console -d al dominio
Primero me conecto a la consola, y luego apago y prendo el equipo.
Luego van surgiendo otros problemas que los voy solucionando de a uno.
[e25k-2-sc0] / # su - sms-svc
e25k-2-sc0:sms-svc:3> setkeyswitch -d g standby
Current virtual key switch position is "ON".
Are you sure you want to change to the "STANDBY" position (yes/no)? yes
Domain is up.
Sending domain shutdown request.
Domain has picked up shutdown request.
Waiting for domain to complete shutdown .............
Domain failed to shutdown.
Do you want to force a shutdown (yes/no)? yes
Waiting on exclusive access to EXB(s): 3FFFF.
Resetting and deconfiguring: V3CPU at SB11
Resetting and deconfiguring: HPCI+ at IO11
Resetting and deconfiguring: EXB at EX11
Powering on: CSB at CS0
Powering on: CSB at CS1
e25k-2-sc0:sms-svc:4> showkeyswitch -d g
Virtual key switch position: STANDBY
e25k-2-sc0:sms-svc:5>
e25k-2-sc0:sms-svc:5> setkeyswitch -d g off
Waiting on exclusive access to EXB(s): 3FFFF.
Powering off: V3CPU at SB11
Powering off: HPCI+ at IO11
Powering off: EXB at EX11
e25k-2-sc0:sms-svc:6>
e25k-2-sc0:sms-svc:6> setkeyswitch -d g on
Powering on: CSB at CS0
 Corto la salida porque es muy larga...

POST (level=16, verbose=20) execution time 9:35
e25k-2-sc0:sms-svc:7> showkeyswitch -d g
Virtual key switch position: ON
e25k-2-sc0:sms-svc:8>
e25k-2-sc0:sms-svc:8> console -d g  ( Hay que darle 2 o 3 enter)
Trying to connect...
Connected to Domain Server.
Your console is in exclusive mode now.
{160} ok boot
Boot device: rootdisk  File and args:
\
SunOS Release 5.10 Version Generic_142900-07 64-bit
Copyright 1983-2010 Sun Microsystems, Inc.  All rights reserved.
Use is subject to license terms.
Hostname: sun007
SUNW,eri0 : 100 Mbps half duplex link up
The / file system (/dev/md/rdsk/d10) is being checked.

WARNING - Unable to repair the / filesystem. Run fsck
manually (fsck -F ufs /dev/md/rdsk/d10).

Oct  3 17:44:08 svc.startd[7]: svc:/system/filesystem/usr:default: Method "/lib/svc/method/fs-usr" failed with e
xit status 95.
Oct  3 17:44:08 svc.startd[7]: system/filesystem/usr:default failed fatally: transitioned to maintenance (see 's
vcs -xv' for details)
Requesting System Maintenance Mode
(See /lib/svc/share/README for more information.)
Console login service(s) cannot run

Root password for system maintenance (control-d to bypass):
single-user privilege assigned to /dev/console.
Entering System Maintenance Mode

Oct  3 17:44:50 su: 'su root' succeeded for LOGIN on /dev/console
Sun Microsystems Inc.   SunOS 5.10      Generic January 2005
You have new mail.
Sourcing //.profile-EIS.....

TERM=vt100
[sun2007] / # fsck -F ufs /dev/md/rdsk/d10
** /dev/md/rdsk/d10
** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
UNREF FILE  I=11621  OWNER=root MODE=100644
SIZE=484 MTIME=Nov 23 21:51 2011
RECONNECT? y

LINK COUNT FILE I=11621  OWNER=root MODE=100644
SIZE=484 MTIME=Nov 23 21:51 2011  COUNT 0 SHOULD BE 1
ADJUST? y

** Phase 5 - Check Cylinder Groups

CORRECT BAD CG SUMMARIES FOR CG 278? y
CORRECTED SUPERBLOCK SUMMARIES FOR CG 278
CORRECTED SUPERBLOCK SUMMARIES FOR CG 291
1360604 files, 22794043 used, 2315764 free (157924 frags, 269730 blocks, 0.6% fragmentation)

***** FILE SYSTEM WAS MODIFIED *****
[sun2007] / # ^
[sun2007] / # fsck -y -F ufs /dev/md/rdsk/d10
** /dev/md/rdsk/d10
** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cylinder Groups
1360604 files, 22794043 used, 2315764 free (157924 frags, 269730 blocks, 0.6% fragmentation)
[sun2007] / #
[sun2007] / # fsck -y -F ufs /dev/md/rdsk/d30
** /dev/md/rdsk/d30
** Last Mounted on /var/crash
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cylinder Groups
5 files, 12 used, 10327120 free (8 frags, 1290889 blocks, 0.0% fragmentation)
[sun2007] / #

Luego un init 6
Pero al levantar me da errores el dcs
Aplique la solucion que puse hace tiempo atras en mi blog http://solaris4ever.blogspot.com.ar/2011/10/error-al-agregar-una-sb-con-dr.html?m=1

estos son los errores
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'name' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'endpoint_type' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'isrpc' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'wait' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Unspecified inetd_start method for instance svc:/platform/sun4u/dcs:default

[sun2007] /export/zona4/root/var/spool/clientmqueue # svcs dcs
STATE          STIME    FMRI
maintenance    18:30:06 svc:/platform/sun4u/dcs:default
[sun2007] /export/zona4/root/var/spool/clientmqueue # inetadm -l dcs
SCOPE    NAME=VALUE
Error: Required property name is missing.
Error: Required property endpoint_type is missing.
Error: Required property proto is missing.
Error: Required property isrpc is missing.
Error: Required property wait is missing.
Error: Required property exec is missing.
Error: Required property user is missing.
default  bind_addr=""
default  bind_fail_max=-1
default  bind_fail_interval=-1
default  max_con_rate=-1
default  max_copies=-1
default  con_rate_offline=-1
default  failrate_cnt=40
default  failrate_interval=60
default  inherit_env=TRUE
default  tcp_trace=FALSE
default  tcp_wrappers=FALSE
default  connection_backlog=10
[sun2007] / # svcadm disable dcs
[sun2007] / # 
[sun2007] / # svcs dcs
STATE          STIME    FMRI
disabled       18:56:11 svc:/platform/sun4u/dcs:default
[sun2007] /#  svccfg -v delete dcs
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/network is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/cryptosvc is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/filesystem_usr is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/nodename is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/sckmd is missing.
[sun2007] /#
[sun2007] / # svcs dcs
svcs: Pattern 'dcs' doesn't match any instances
STATE          STIME    FMRI
[sun2007] / # svccfg -v import /var/svc/manifest/platform/sun4u/dcs.xml
svccfg: Taking "initial" snapshot for svc:/platform/sun4u/dcs:default.
svccfg: Taking "last-import" snapshot for svc:/platform/sun4u/dcs:default.
svccfg: Refreshed svc:/platform/sun4u/dcs:default.
svccfg: Successful import.
[sun2007] / # svcs dcs
STATE          STIME    FMRI
disabled       19:04:43 svc:/platform/sun4u/dcs:default
[sun2007] / #
[sun2007] / # svcadm enable dcs
[sun2007] /# svcs dcs
STATE          STIME    FMRI
online         19:06:24 svc:/platform/sun4u/dcs:default
[sun2007] / #

martes, 7 de mayo de 2013

tar remoto

Rapido y sencillo  tar remoto

Copiar el filesystem /var/mqm/local en el equipo 10.78.33.XX y descomprimirlo en el destino en el filesystem /var/mqm/local

Pararme en el equipo origen, desde el cual extraere los datos

cd /var/mqm
tar cvf - local | ssh -l root 10.78.33.XX  "(cd /var/mqm ; tar xvf - )"


miércoles, 24 de abril de 2013

Diferencia entre la salida del luxadm y fcinfo hba-port


Luego de  conectar 2 cables de fibra a un m5000 y al switch de fibras del storage,
 y ambas con link del lado del equipo y del storage, chequeo como ve el solaris las conecciones estas y noto que :
la salida del luxadm -e port y del comando fcinfo hba-port difieren.
Con el luxadm veo solo 1 fibra conectada y con el fcinfo veo las 2 en online.

# luxadm -e port
/devices/pci@2,600000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
/devices/pci@2,600000/SUNW,qlc@0,1/fp@0,0:devctl                   CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0/fp@0,0:devctl         NOT CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0,1/fp@0,0:devctl       NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0,1/fp@0,0:devctl                   NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
#

 # fcinfo hba-port|grep Stat
        State: offline
        State: online
        State: online
        State: offline
        State: offline
        State: offline
 #


Esto se debe a que el status CONNECTED o NOT CONNECTED no indica una coneccion fisica.
El luxadm -e port CONNECTED indica que establecio comunicacion entre el FC initiatior ( HBA ) y
el FC Target por ejemplo el port del storage.
Si la zona en el storage no esta creada la comunicacion no existe y el status sera NOT_CONNECTED.

Luego que configuren la zona en el storage, recien ahi veo "CONNECTED" las 2 placas


 # luxadm -e port
/devices/pci@2,600000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
/devices/pci@2,600000/SUNW,qlc@0,1/fp@0,0:devctl                   CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0/fp@0,0:devctl         CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0,1/fp@0,0:devctl       NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0,1/fp@0,0:devctl                   NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
 #

viernes, 19 de abril de 2013

Configurar M5000 con un dominio


Finalidad del documento :
En Base a un m5000 con 2 dominios asignados y con Solaris instalado, tenemos que armar un solo dominio con todos los componentes de hardware que disponemos.
Hardware utilizado :
1 m5000 con 64gb de ram , 4 cpu octacore

Descripcion de los componentes del m5000
XSB, eXtended System Board, estas se pueden configurar en 2 modos, Uni-mod y quad-mode, para poder configurar dominios, cada uno de estos debe tener un  LSB asociada.
PSB, Physical System Board, cada PSB esta compuesta por CPU , Memoria y IO board.
CPUM , Cpu Memory Board
MEMB, Memory Board
LSB, Logical System Board

A continuacion, se muestra como esta la configuracion del hardware, antes del armado final.
Vemos que hay 2 dominios configurados con 2 S.O corriendo

XSCF> showboards -a
XSB  DID(LSB) Assignment  Pwr  Conn Conf Test    Fault  
---- -------- ----------- ---- ---- ---- ------- --------
00-0 00(00)   Assigned    y    y    y    Passed  Normal  
01-0 01(00)   Assigned    y    y    y    Passed  Normal  
XSCF> showdomainstatus -a
DID         Domain Status
00          Running
01          Running
02          -
03          -
XSCF> showdomainstatus -d0
DID         Domain Status
00          Running
XSCF> showdscp

DSCP Configuration:
Network: 192.168.224.0
Netmask: 255.255.255.0

 Location     Address
----------   ---------
XSCF         192.168.224.1
Domain #00   192.168.224.2
Domain #01   192.168.224.3
Domain #02   192.168.224.4
Domain #03   192.168.224.5
XSCF> 

XSCF> showfru -a sb
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
sb      01          Uni             no                  
XSCF> showhardconf 
SPARC Enterprise M5000;
    + Serial:BDF1245599; Operator_Panel_Switch:Locked;
    + Power_Supply_System:Single; SCF-ID:XSCF#0;
    + System_Power:On; System_Phase:Cabinet Power On;
    Domain#0 Domain_Status:Running;
    Domain#1 Domain_Status:Running;

    MBU_B Status:Normal; Ver:4401h; Serial:BD124500AG  ;
        + FRU-Part-Number:CF00541-4360 01   /541-4360-01          ;
        + Memory_Size:64 GB;
        + Type:2;
        CPUM#0-CHIP#0 Status:Normal; Ver:0601h; Serial:PP124200D2  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        CPUM#0-CHIP#1 Status:Normal; Ver:0601h; Serial:PP124200D2  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        CPUM#2-CHIP#0 Status:Normal; Ver:0601h; Serial:PP124101TJ  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        CPUM#2-CHIP#1 Status:Normal; Ver:0601h; Serial:PP124101TJ  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        MEMB#0 Status:Normal; Ver:0101h; Serial:NN1242F7UL  ;
            + FRU-Part-Number:CF00541-0545 09   /541-0545-09          ;
            MEM#0A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93f;
                + Type:4B; Size:4 GB;
            MEM#0B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f935;
                + Type:4B; Size:4 GB;
            MEM#1A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93e;
                + Type:4B; Size:4 GB;
            MEM#1B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f940;
                + Type:4B; Size:4 GB;
            MEM#2A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f999;
                + Type:4B; Size:4 GB;
            MEM#2B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f92a;
                + Type:4B; Size:4 GB;
            MEM#3A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f937;
                + Type:4B; Size:4 GB;
            MEM#3B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93a;
                + Type:4B; Size:4 GB;
        MEMB#4 Status:Normal; Ver:0101h; Serial:NN1242F7V2  ;
            + FRU-Part-Number:CF00541-0545 09   /541-0545-09          ;
            MEM#0A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344045b;
                + Type:4B; Size:4 GB;
            MEM#0B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-234403d6;
                + Type:4B; Size:4 GB;
            MEM#1A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-234403e1;
                + Type:4B; Size:4 GB;
            MEM#1B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343035a;
                + Type:4B; Size:4 GB;
*           MEM#2A Status:Degraded;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344047f;
                + Type:4B; Size:4 GB;
            MEM#2B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344045d;
                + Type:4B; Size:4 GB;
            MEM#3A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-23440340;
                + Type:4B; Size:4 GB;
            MEM#3B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-23440459;
                + Type:4B; Size:4 GB;
        DDC_A#0 Status:Normal;
        DDC_A#1 Status:Normal;
        DDC_A#2 Status:Normal;
        DDC_A#3 Status:Normal;
        DDC_B#0 Status:Normal;
        DDC_B#1 Status:Normal;
    IOU#0 Status:Normal; Ver:0101h; Serial:NN1235ETAK  ;
        + FRU-Part-Number:CF00541-2240 05   /541-2240-05          ;
        + Type:1;
        DDC_A#0 Status:Normal;
        DDCR Status:Normal;
            DDC_B#0 Status:Normal;
        PCI#1 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#2 Name_Property:network; Card_Type:Other;
        PCI#3 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#4 Name_Property:SUNW,qlc; Card_Type:Other;
    IOU#1 Status:Normal; Ver:0101h; Serial:NN1234EGTL  ;
        + FRU-Part-Number:CF00541-2240 05   /541-2240-05          ;
        + Type:1;
        DDC_A#0 Status:Normal;
        DDCR Status:Normal;
            DDC_B#0 Status:Normal;
        PCI#1 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#2 Name_Property:network; Card_Type:Other;
        PCI#3 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#4 Name_Property:SUNW,qlc; Card_Type:Other;
    XSCFU Status:Normal,Active; Ver:0101h; Serial:NN1239F0NH  ;
        + FRU-Part-Number:CF00541-0481 05   /541-0481-05          ;
    OPNL Status:Normal; Ver:0101h; Serial:NN1235EMT1  ;
        + FRU-Part-Number:CF00541-0850 06   /541-0850-06          ;
    PSU#0 Status:Normal; Serial:476856F+1142AD0055;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    PSU#1 Status:Normal; Serial:476856F+1153AD00M6;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    PSU#2 Status:Normal; Serial:1357FYG-1047AD003J;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    PSU#3 Status:Normal; Serial:476856F+1141AD0019;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    FANBP_C Status:Normal; Ver:0501h; Serial:NN1235ER95;
        + FRU-Part-Number:CF00541-3099 01   /541-3099-01          ;
        FAN_A#0 Status:Normal;
        FAN_A#1 Status:Normal;
        FAN_A#2 Status:Normal;
        FAN_A#3 Status:Normal;
XSCF> 


Ahora comenzamos con las tareas de reconfiguracion
XSCF> 
XSCF> showfru sb 00
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Running  
      00    00-0           
---------------------------
01                Running  
      00    01-0           
XSCF> showboards -a -v
XSB  R DID(LSB) Assignment  Pwr  Conn Conf Test    Fault    COD 
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0   00(00)   Assigned    y    y    y    Passed  Normal   n   
01-0   01(00)   Assigned    y    y    y    Passed  Normal   n   
XSCF> showfru sb 0
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
XSCF> showfru sb 1
Device  Location    XSB Mode        Memory Mirror Mode  
sb      01          Uni             no                  

Antes de sacar la placa XSB , los dominios tienen que estar apagados, sino sucedera este error :

XSCF> deleteboard -c unassign 00-0
XSB#00-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSB#00-0 is the last LSB for DomainID 0, and this domain is still running. Operation failed.

Ahora si, apagamos los dominios.
XSCF> poweroff -d 0
DomainIDs to power off:00
Continue? [y|n] :y
00 :Powering off

*Note*
 This command only issues the instruction to power-off.
 The result of the instruction can be checked by the "showlogs power".
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Running (Waiting for OS Shutdown)
      00    00-0           
---------------------------
01                Running  
      00    01-0           
XSCF> poweroff -d 1               
DomainIDs to power off:01
Continue? [y|n] :y
01 :Powering off

*Note*
 This command only issues the instruction to power-off.
 The result of the instruction can be checked by the "showlogs power".
XSCF> showdcl -a   
DID   LSB   XSB   Status   
00                Running (Waiting for OS Shutdown)
      00    00-0           
---------------------------
01                Running (Waiting for OS Shutdown)
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Shutdown Started
      00    00-0           
---------------------------
01                Running (Waiting for OS Shutdown)
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
---------------------------
01                Running (Waiting for OS Shutdown)
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
---------------------------
01                Shutdown Started
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
---------------------------
01                Powered Off
      00    01-0           

Ahora que estan apagados los 2 dominios, procedemos a quitar la board 0 y 1
XSCF> deleteboard -c unassign 00-0
XSB#00-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSCF> deleteboard -c unassign 00-0
XSCF> setdcl -d 0 -r 00
XSCF> deleteboard -c unassign 01-0
XSB#01-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSCF> 
XSCF> setdcl -d 0 -r 01           
XSCF> showboards -av
XSB  R DID(LSB) Assignment  Pwr  Conn Conf Test    Fault    COD 
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0   SP       Available   n    n    n    Passed  Normal   n   
01-0   SP       Available   n    n    n    Passed  Normal   n   
XSCF>  showdomainstatus -a
DID         Domain Status
00          -
01          -
02          -
03          -

XSCF> setupfru -x 1 sb 0    
XSCF> showfru -a sb 
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
sb      01          Uni             no                  
XSCF> showfru sb 0
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
XSCF> showfru sb 1
Device  Location    XSB Mode        Memory Mirror Mode  
sb      01          Uni             no                  
XSCF> setupfru -x 1 sb 1
XSCF> showfru sb 1
Device  Location    XSB Mode        Memory Mirror Mode  
sb      01          Uni             no                  
XSCF> setdcl -d 0 -a 0=00-0
XSCF> setdcl -d 0 -a 1=00-1
XSCF> setdcl -d 0 -a 0=01-0
LSB#00 is already registered in DCL.
XSCF> setdcl -d 0 -a 2=01-0
XSCF> setdcl -d 0 -a 3=01-1
XSCF> addboard -c assign -d 0 00-0
XSB#00-0 will be assigned to DomainID 0. Continue?[y|n] :y
XSCF> addboard -c assign -d 0 00-1
XSB#00-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#00-1 is not installed.
XSCF> addboard -c assign -d 0 01-0
XSB#01-0 will be assigned to DomainID 0. Continue?[y|n] :y
XSCF> addboard -c assign -d 0 01-1
XSB#01-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#01-1 is not installed.
XSCF> showdcl -v -d 0
DID   LSB   XSB   Status   No-Mem   No-IO    Float    Cfg-policy
00                Powered Off                         FRU      
      00    00-0           False    False    False             
      01    00-1           False    False    False             
      02    01-0           False    False    False             
      03    01-1           False    False    False             
      04    -                                                  
      05    -                                                  
      06    -                                                  
      07    -                                                  
      08    -                                                  
      09    -                                                  
      10    -                                                  
      11    -                                                  
      12    -                                                  
      13    -                                                  
      14    -                                                  
      15    -                                                  
XSCF> showboards -v -a
XSB  R DID(LSB) Assignment  Pwr  Conn Conf Test    Fault    COD 
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0 * 00(00)   Assigned    n    n    n    Unknown Normal   n   
01-0 * 00(02)   Assigned    n    n    n    Unknown Normal   n   
XSCF> showdcl -v -a
DID   LSB   XSB   Status   No-Mem   No-IO    Float    Cfg-policy
00                Powered Off                         FRU      
      00    00-0           False    False    False             
      01    00-1           False    False    False             
      02    01-0           False    False    False             
      03    01-1           False    False    False             
      04    -                                                  
      05    -                                                  
      06    -                                                  
      07    -                                                  
      08    -                                                  
      09    -                                                  
      10    -                                                  
      11    -                                                  
      12    -                                                  
      13    -                                                  
      14    -                                                  
      15    -                                                  
---------------------------------------------------------------
01                Powered Off                         FRU      
      00    01-0           False    False    False             
      01    -                                                  
      02    -                                                  
      03    -                                                  
      04    -                                                  
      05    -                                                  
      06    -                                                  
      07    -                                                  
      08    -                                                  
      09    -                                                  
      10    -                                                  
      11    -                                                  
      12    -                                                  
      13    -                                                  
      14    -                                                  
      15    -                                                  
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
      01    00-1           
      02    01-0           
      03    01-1           
---------------------------
01                Powered Off
      00    01-0           
XSCF> setdcl -d 1 -r 00
XSCF> showdcl -a       
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
      01    00-1           
      02    01-0           
      03    01-1           
XSCF> addboard -c assign -d 0 00-1
XSB#00-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#00-1 is not installed.
XSCF> addboard -c assign -d 0 01-1
XSB#01-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#01-1 is not installed.
XSCF> poweron -d 0
DomainIDs to power on:00
Continue? [y|n] :y
00 :Powering on

*Note*
 This command only issues the instruction to power-on.
 The result of the instruction can be checked by the "showlogs power".
XSCF> console -d 0

Console contents may be logged.
Connect to DomainID 0?[y|n] :y
POST Sequence 01 CPU Check
LSB#02 (XSB#01-0): POST 2.17.0 (2011/11/17 10:29)
POST Sequence 02 Banner
LSB#00 (XSB#00-0): POST 2.17.0 (2011/11/17 10:29)
POST Sequence 03 Fatal Check
POST Sequence 04 CPU Register
POST Sequence 05 STICK
POST Sequence 06 MMU
POST Sequence 07 Memory Initialize
POST Sequence 08 Memory
POST Sequence 09 Raw UE In Cache
POST Sequence 0A Floating Point Unit
POST Sequence 0B SC
POST Sequence 0C Cacheable Instruction
POST Sequence 0D Softint
POST Sequence 0E CPU Cross Call
POST Sequence 0F CMU-CH
POST Sequence 10 PCI-CH
POST Sequence 11 Master Device
POST Sequence 12 DSCP
POST Sequence 13 SC Check Before STICK Diag
POST Sequence 14 STICK Stop
POST Sequence 15 STICK Start
POST Sequence 16 Error CPU Check
POST Sequence 17 System Configuration
POST Sequence 18 System Status Check
POST Sequence 19 System Status Check After Sync
POST Sequence 1A OpenBoot Start...
POST Sequence Complete.

SPARC Enterprise M5000 Server, using Domain console
Copyright (c) 1998, 2012, Oracle and/or its affiliates. All rights reserved.
Copyright (c) 2012, Oracle and/or its affiliates and Fujitsu Limited. All rights reserved.
OpenBoot 4.33.5.d, 65536 MB memory installed, Serial #102844532.
Ethernet address 0:10:e0:21:48:74, Host ID: 86214874.

Aborting auto-boot sequence.
{0} ok 

root@m5kd0 # prtdiag -v
System Configuration:  Oracle Corporation  sun4u SPARC Enterprise M5000 Server
System clock frequency: 1012 MHz
Memory size: 65536 Megabytes

==================================== CPUs ====================================

      CPU                 CPU                         Run    L2$    CPU   CPU 
LSB   Chip                 ID                         MHz     MB    Impl. Mask
---   ----  ----------------------------------------  ----   ---    ----- ----
 00     0      0,   1,   2,   3,   4,   5,   6,   7   2660  11.0        7  193
 00     1      8,   9,  10,  11,  12,  13,  14,  15   2660  11.0        7  193
 02     0     64,  65,  66,  67,  68,  69,  70,  71   2660  11.0        7  193
 02     1     72,  73,  74,  75,  76,  77,  78,  79   2660  11.0        7  193

============================ Memory Configuration ============================

       Memory  Available           Memory     DIMM    # of  Mirror  Interleave
LSB    Group   Size                Status     Size    DIMMs Mode    Factor    
---    ------  ------------------  -------    ------  ----- ------- ----------
 00    A        16384MB            okay       4096MB      4 no       2-way
 00    B        16384MB            okay       4096MB      4 no       2-way
 02    A        16384MB            okay       4096MB      4 no       2-way
 02    B        16384MB            okay       4096MB      4 no       2-way
picl_initialize failed: Daemon not responding

==================== Hardware Revisions ====================

System PROM revisions:
----------------------

OBP 4.33.5.d 2012/07/18 06:55


=================== Environmental Status ===================

Mode switch is in LOCK mode 
picl_initialize failed: Daemon not responding

En la primer salida del showhardconf, vemos que un dimm de memoria esta con status DEGRADED, y con un * asterisco al lado.
*           MEM#2A Status:Degraded;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344047f;
                + Type:4B; Size:4 GB;

Eso significa que el dimm de memoria esta en falla.
Desde la XSCF ejecutamos el comando snapshot -L F -t user@milinux:/tmp
esto me genero un archivo .zip en mi linux, que al descomprimirlo es similar al explorer de solaris.
Dentro del archivo @scf@log@monitor.log se ve claramente la posicion del dimm de memoria en falla

Feb 15 06:26:37 m5k Warning: /MBU_B/MEMB#4/MEM#2A:DOMAIN:DIMM permanent correctable error

para poder correr este comando se debe tener coneccion de red, lo que hicimos fue conectar un cable cruzado entre el servidor y mi linux que oficiaba 
de terminal (con minicom) configuramos una ip en el server y otro en mi linux, y enviamos la salida del snapshot al linux mio.

sábado, 2 de marzo de 2013

Resetear password de ALOM

Para resetear la password de un usuario de ALOM, desde el Sistema Operativo, tipear :

cd /usr/platform/`uname -i`/sbin
scadm userpassword username   donde username generalmente es admin

Si quiero verificar previamente que usuarios existen
scadm usershow 

jueves, 21 de febrero de 2013

Replica de Datos


La finalidad del documento es, mostrar  la replica de datos  mediante un storage externo.
Sobre un Sun Cluster 3.2 con Oracle Rac, en 2 servidores m5000 hay conectado un storage externo de ibm llamado ds 2145, y el manejador de volumenes Veritas Volume Manager 5.0
La replica de caja se realiza a dos dominios de una E25k, con Solaris 10 y Veritas Volume Manager 5.0


Replica de Datos




En que consiste la Copia ?
De los equipos en cluster Sunrac1 y Sunrac2 , que  serian los equipo productivos, se debe copiar los datos contenidos en los 3 diskgroups  ( RedoDG, DatosDG y ArchDG ) a 2 servidores  los cuales servirán uno de Reportes (sun5rep )  y otro de Backup ( sun5bkp )
Como funciona la copia ?
La copia se realiza por discos agrupados en disk groups de Veritas.
En el cuadro de abajo, se muestran en que servidor se ejecuta cada script.



SUN5REP
SUNRAC1/SUNRAC2
SUN5BKP
1
oracle_replication.sh stop_grid


2
Desmonto_DG_y_FS.ksh

Desmonto_DG_y_FS.ksh
3

oracle_replication.sh begin_backup

4
Semanal_Copia_de_Caja.ksh


5

oracle_replication.sh end_backup

6
Semanal_Copia_de_Caja_Solo_Archive.ksh


7
Monto_DG_y_FS_Redo_y_Data.ksh

Monto_DG_y_FS_Redo_y_Data.ksh
8
Monto_DG_y_FS_Archive.ksh

Monto_DG_y_FS_Archive.ksh
9
oracle_replication.sh start_grid


10
oracle_replication.sh recover_database



 oracle_replication.sh stop_grid  En este script le doy stop a la base de datos , al ASM y a los diskgroups del Grid.

 Desmonto_DG_y_FS.ksh Realizo un Stop y deport de los DiskGroups y luego umount del filesystem del Archive Log.
oracle_replication.sh begin_backup Setea la Base de datos en modo Begin Backup
Semanal_Copia_de_caja.ksh  Ejecuta la replica del storage, invocandolo desde un ssh al equipo que administra la caja, algo asi user@10.xx.xx.xx "svctask startfcconsistgrp -prep SUN5REP_DB"
oracle_replication.sh end_backup Setea la Base de datos en modo End Backup
Semanal_Copia_de_Caja_Solo_Archive.ksh Ejecuto la replica SOLO de los Archives Logs , ejemplo ssh usuario@10.xx.xx.16 "svctask startfcconsistgrp -prep SUN5REP_ARCH"
Monto_DG_y_FS_Redo_y_Data.ksh Realizo un Import y un Start de los Volumenes
Monto_DG_y_FS_Archive.ksh Realizo un Import y un Start del volume Archive y luego un mount del filesystem /archives
oracle_replication.sh start_grid Levanta los diskgroups, el ASM y la Base de datos en modo MOUNT
oracle_replication.sh recover_database  Recupera la base de datos


Nota:
De requerir los scripts, solicitarlos en el comentario.
Documento realizado con Nicolas Morono ( @nicomorono )


jueves, 24 de enero de 2013

Agregar en caliente Raw Device a Sun cluster 3.3 con Oracle RAC


[sunrac1]  # vxdctl -c mode  ( Chequeo el nodo que tiene el control de los discos )
mode: enabled: cluster active - MASTER
master: sunrac1

Primero le doy un label a cada disco que quiero agregar ( con el comando format )y luego ejecuto en caliente, el siguiente comando ( puede tardar unos minutos en sincronizar los 2 nodos )
[psunrac1]  # cldev populate
Configuring DID devices
did instance 35 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Cd0 created for instance 35.
did instance 36 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Bd0 created for instance 36.
did instance 37 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Ad0 created for instance 37.
Configuring the /dev/global directory (global devices)
obtaining access to all attached disks

[sunrac1]  # vxdctl enable  ( en ambos nodos )

Todos los comandos a continuacion se ejecutan solo en el nodo que tiene el control de los discos.

[sunrac1]  # vxdiskadm , opcion1
Select disk devices to add: [,all,list,q,?] list

DEVICE       DISK         GROUP        STATUS
c0t0d0       rootdg_1     rootdg       online
c0t1d0       -            -            online invalid
c2t0d0       rootmirror   rootdg       online
c2t1d0       -            -            online invalid
san_vc0_0    -            -            online invalid
san_vc0_1    san_vc0_1    Datosdg      online shared
san_vc0_2    san_vc0_2    Datosdg      online shared
san_vc0_3    san_vc0_3    Datosdg      online shared
san_vc0_4    san_vc0_4    Datosdg      online shared
san_vc0_5    san_vc0_5    Datosdg      online shared
san_vc0_6    san_vc0_6    Datosdg      online shared
san_vc0_7    san_vc0_7    Datosdg      online shared
san_vc0_8    san_vc0_8    Datosdg      online shared
san_vc0_9    san_vc0_9    Datosdg      online shared
san_vc0_10   san_vc0_10   Datosdg      online shared
san_vc0_11   san_vc0_11   Datosdg      online shared
san_vc0_12   san_vc0_13   Crsdg        online shared
san_vc0_13   san_vc0_14   Interdg      online
san_vc0_14   san_vc0_15   Interdg      online
san_vc0_15   san_vc0_16   Interdg      online
san_vc0_16   san_vc0_17   Interdg      online
san_vc0_17   localrac1dg01 localrac1dg  online
san_vc0_18   Redodg01     Redodg       online shared
san_vc0_19   san_vc0_20   Interdg      online
san_vc0_20   Archdg01     Archdg       online
san_vc0_21   san_vc0_21   Datosdg      online shared
san_vc0_22   san_vc0_22   Datosdg      online shared
san_vc0_23   -            -            online invalid
san_vc0_24   -            -            online invalid
san_vc0_25   -            -            online invalid

Select disk devices to add: [,all,list,q,?]  san_vc0_23 san_vc0_24 san_vc0_25

 Chequeo el tamaño de los discos que agregue
[sunrac1] # vxassist -g Datosdg maxsize san_vc0_23
Maximum volume size: 276723712 (135119Mb)
[sunrac1]  # vxassist -g Datosdg maxsize san_vc0_24
Maximum volume size: 276723712 (135119Mb)
[sunrac1]  # vxassist -g Datosdg maxsize san_vc0_25
Maximum volume size: 276723712 (135119Mb)
[sunrac1]  #

[sunrac1]  # vxassist -g Datosdg -U gen make datos14 135119M san_vc0_23
[sunrac1]  # vxassist -g Datosdg -U gen make datos15 135119M san_vc0_24
[sunrac1]  # vxassist -g Datosdg -U gen make datos16 135119M san_vc0_25
[sunrac1]  # vxedit -g Datosdg set group=asmadmin user=grid mode=660 datos14
[sunrac1]  # vxedit -g Datosdg set group=asmadmin user=grid mode=660 datos15
[sunrac1]  # vxedit -g Datosdg set group=asmadmin user=grid mode=660 datos16

Chequeo que hayan quedado con los permisos correctos

[psunrac1]  # ls -lt /dev/vx/rdsk/Datosdg/ 
crw-rw----   1 grid     asmadmin 335, 61000 Jan 24 10:29 datos1
crw-rw----   1 grid     asmadmin 335, 61015 Jan 24 10:27 datos16
crw-rw----   1 grid     asmadmin 335, 61014 Jan 24 10:27 datos15
crw-rw----   1 grid     asmadmin 335, 61013 Jan 24 10:27 datos14
crw-rw----   1 grid     asmadmin 335, 61012 Jan 24 10:23 datos13
crw-rw----   1 grid     asmadmin 335, 61007 Jan 24 10:07 datos8
crw-rw----   1 grid     asmadmin 335, 61006 Jan 24 01:41 datos7
crw-rw----   1 grid     asmadmin 335, 61011 Jan 24 00:17 datos12

Errores cometidos y Soluciones aplicadas :

Al intentar agregar los discos con vxdiskadm fallo porque no veia los discos en el otro nodo.
La solucion fue ejecutar el vxdctl enable en el otro nodo y volver a correr el vxdiskadm en el nodo primario.
Otro error fue con el vxdiskadm, cuando agregamos los discos, pusimos los nombres default en lugar del nombre que queriamos poner a los discos.
La solucion fue , una vez agregado los discos, desde la linea de comando, renombramos los discos de la siguiente manera :

[sunrac1]  # vxedit -g Datosdg rename Datosdg01 san_vc0_23
[sunrac1]  # vxedit -g Datosdg rename Datosdg02 san_vc0_24
[sunrac1]  # vxedit -g Datosdg rename Datosdg03 san_vc0_25

Tareas realizadas con mi colega Nicolas Morono

lunes, 1 de octubre de 2012

No funciona el boot net -s


Intento hacer un booteo por red, y el sector de booteo esta corrupto
 Sun Fire E25K, using IOSRAM based Console
 Ethernet address 0:0:be:a9:fb:e9, Host ID: 82a9fbe9.
 {20} ok
 {20} ok boot net -s
 Boot device: /pci@3c,70.0000/network@3,1  File and args: -s
 Requesting Internet Address for 0:0:be:a9:fb:e9
 boot: cannot open kernel/sparcv9/unix
 Enter filename [kernel/sparcv9/unix]:
boot: cannot open kernel/sparcv9/unix
Enter filename [kernel/sparcv9/unix]: ^C^D
 Type  'go' to resume
 {20} ok
Chequeo con devalias , si esta bien seteado la red 
Sep 28 11:39:39 2012 {20} ok devalias
Sep 28 11:40:16 2012 net                      /pci@3c,70.0000/network@3,1
Luego de haber chequeado que los parametros de OBP estan correctos, el problema es que probablemente este corrupto el sector de booteo 
Esto se soluciona asi :
Primero , chequeo en el bootparams, de donde saco el boot que le corresponde a ese dominio, en este caso tomo de ejemplo el dominio B 
root@e25k-1-sc0 # grep e25k-1-b /etc/bootparams
e25k-1-b  root=e25k-1-sc-i1:/export/install/SOL_10_1009_SPARC/Solaris_10/Tools/Boot install=e25k-1-sc-i1:/export/install/SOL_10_1009_SPARC boottype=:in   rootopts=:rsize=8192
root@e25k-1-sc0 #
Me paro en el directorio que tiene los comandos para generar el boot nuevo pra el dominio que yo le indique
cd /export/install/SOL_10_1009_SPARC/Solaris_10/Tools
Ejecuto el comando que hace la magia ( Ojo, que esto me borra el anterior, por si me interesaba guardarlo para algo, sino da igual )
./add_install_client e25k-1-b sun4u
Listo, chequeo como  quedo.
grep e25k-1-b /etc/bootparams
Y luego puedo ejecutar el booteo por red ( seguramente tenga que realizar fsck )
console -d B
 {20} ok boot net -s
 Resetting...
 Rebooting with command: boot net -s
 Boot device: /pci@3c,70.0000/network@3,1  File and args: -s
 Requesting Internet Address for 0:0:be:a9:fb:e9
Booting to milestone "milestone/single-user:default".
 Configuring devices.
 SUNW,eri0 : 100 Mbps half duplex link up
Using RPC Bootparams for network configuration information.
 Attempting to configure interface dman0...
 Configured interface dman0
 Attempting to configure interface ce5...
 Skipped interface ce5
 Attempting to configure interface ce4...
 Skipped interface ce4
 Attempting to configure interface ce3...
 Skipped interface ce3
 Attempting to configure interface ce2...
 Skipped interface ce2
 Attempting to configure interface ce1...
 Skipped interface ce1
 Attempting to configure interface ce0...
 Skipped interface ce0
 Attempting to configure interface eri0...
 Configured interface eri0
 ip_arp_done: init failed
 ifconfig: setifflags: SIOCSLIFFLAGS: eri0: Cannot assign requested address
 Requesting System Maintenance Mode
 SINGLE USER MODE
 # format
Searching for disks...done
 AVAILABLE DISK SELECTIONS:
        0. c0t10d0
           /pci@3c,700000/pci@1/pci@1/scsi@2/sd@a,0
        1. c0t11d0
          /pci@3c,700000/pci@1/pci@1/scsi@2/sd@b,0
# fsck -y /dev/rdsk/c0t10d0s0
 ** /dev/rdsk/c0t10d0s0
 ** Last Mounted on /
 ** Phase 1 - Check Blocks and Sizes
 ** Phase 2 - Check Pathnames
 ** Phase 3a - Check Connectivity
 ** Phase 3b - Verify Shadows/ACLs
 ** Phase 4 - Check Reference Counts
 UNREF FILE  I=617432  OWNER=root MODE=100644
SIZE=28 MTIME=Sep 27 02:39 2012
 RECONNECT?  yes
LINK COUNT FILE I=617432  OWNER=root MODE=100644
 SIZE=28 MTIME=Sep 27 02:39 2012  COUNT 0 SHOULD BE 1
 ADJUST?  yes
 ** Phase 5 - Check Cylinder Groups
***** FILE SYSTEM WAS MODIFIED *****
 #  fsck -y /dev/rdsk/c0t10d0s0
 ** /dev/rdsk/c0t10d0s0
 ** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
 ** Phase 2 - Check Pathnames
 ** Phase 3a - Check Connectivity
 ** Phase 3b - Verify Shadows/ACLs
 ** Phase 4 - Check Reference Counts
 ** Phase 5 - Check Cylinder Groups
 195904 files, 9421235 used, 15688572 free (92068 frags, 1949563 blocks, 0.4% fragmentation)
 #
 #  fsck -y /dev/rdsk/c0t11d0s0
 ** /dev/rdsk/c0t11d0s0
** Last Mounted on /
 ** Phase 1 - Check Blocks and Sizes
 ** Phase 2 - Check Pathnames
 ** Phase 3a - Check Connectivity
 ** Phase 3b - Verify Shadows/ACLs
 ** Phase 4 - Check Reference Counts
 UNREF FILE  I=617432  OWNER=root MODE=100644
 SIZE=28 MTIME=Sep 27 02:39 2012
 RECONNECT?  yes
 LINK COUNT FILE I=617432  OWNER=root MODE=1

Luego init 6 

martes, 26 de junio de 2012

Send mondo Timeout o problema de Hardware y/o Software


Problema de Hardware o Software ? leer todo

Send mondo timeout panic
El equipo, genero un panic y switcheo al otro nodo del cluster, aparentemente seria por hardware, esta es la salida fmdump



Jun 13 07:51:24 sol5002 fmd: [ID 441519 daemon.error] SUNW-MSG-ID: FMD-8000-2K, TYPE: Defect, VER: 1, SEVERITY: Minor
Jun 13 07:51:24 sol5002 EVENT-TIME: Wed Jun 13 07:51:24 ART 2012
Jun 13 07:51:24 sol5002 PLATFORM: SUNW,Sun-Fire-15000, CSN: -, HOSTNAME: sol5002
Jun 13 07:51:24 sol5002 SOURCE: fmd-self-diagnosis, REV: 1.0
Jun 13 07:51:24 sol5002 EVENT-ID: 2ad4ec18-b1a4-eca0-a67d-a268a7af7071
Jun 13 07:51:24 sol5002 DESC: A Solaris Fault Manager component has experienced an error that required the module to be disabled. Refer to http://sun.com/msg/FMD-8000-2K for more information.
Jun 13 07:51:24 sol5002 AUTO-RESPONSE: The module has been disabled. Events destined for the module will be saved for manual diagnosis.
Jun 13 07:51:24 sol5002 IMPACT: Automated diagnosis and response for subsequent events associated with this module will not occur.

Envie un explorer del equipo y explorer de la SC para que lo analizaran en Oracle.
Lo que vi, fue que la falla estaria en el dimm de memoria J16301 . de la SB1,P3,B1
Lo primero que vieron en el analisis del explorer fue lo siguiente :

*///Salida del FMA confirma evento de hardware.
::::::::::::::
fmadm-faulty.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
faulted fmd:///module/cpumem-diagnosis
2ad4ec18-b1a4-eca0-a67d-a268a7af7071

*///La probalidad de falla es del 100% en memoria RAM, pero no apunta a un FRU especfico.
fmdump-vu_2ad4ec18-b1a4-eca0-a67d-a268a7af7071.out
::::::::::::::
TIME UUID SUNW-MSG-ID
Jun 13 07:51:24.7743 2ad4ec18-b1a4-eca0-a67d-a268a7af7071 FMD-8000-2K
100% defect.sunos.fmd.module

Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -

*///Numero alto de errores en DIMM
fmdump-e.out
::::::::::::::
TIME CLASS
Jun 13 03:09:59.7741 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7740 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7736 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7733 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7731 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7730 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7730 ereport.cpu.ultraSPARC-IVplus.ce

*///Ubicando el origen exacto de la falla, multiples dimms en SB1 involucrados.
fmdump-eV.out |grep unum|more
unum = SB1/P2/B1/D0 J15301
unum = SB1/P1/B1/D0 J14301
unum = SB1/P2/B0/D0 J15300
unum = SB1/P3/B0/D0 J16300
unum = SB1/P3/B1/D0 J16301
unum = SB1/P0/B0/D0 J13300
unum = SB1/P1/B0/D0 J14300
unum = SB1/P0/B1/D0 J13301
unum = SB1/P2/B0/D0 J15300
unum = SB1/P0/B0/D0 J13300
unum = SB1/P0/B1/D0 J13301



1er conclusion

Luego, del analisis del ingeniero del caso, realizado al explorer de la System controller, nos indica que hay muchos RSTOPS reportados, comenzaron en Junio 10, apuntando a DIMMs de SB1/P1

Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716936303484 NOTICE StartupManager.cc 2602] efhd output: ECC correctable errors detected from Processor Port SB1/P1, no
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944070151 NOTICE StartupManager.cc 2602] efhd output: corresponding parity error in DXs or DCDSs.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944567150 NOTICE StartupManager.cc 2602] efhd output: Assuming the error originated in memory on this port.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944976756 NOTICE StartupManager.cc 2602] efhd output: Data syndrome 049 is CE bit 49.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716945364851 NOTICE StartupManager.cc 2602] efhd output: This bit is in one of Dimm SB1/P1/B0/D0 or Dimm SB1/P1/B1/D0.

Jun 10 12:15:24 2012 e25k-5-sc0 dsmd[27493]: [2517 7280787849650558 WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:16:14 2012 e25k-5-sc0 dsmd[27493]: [2517 7280837789222307 WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:16:46 2012 e25k-5-sc0 dsmd[27493]: [2517 7280869346469788 WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:17:02 2012 e25k-5-sc0 dsmd[27493]: [2517 7280886045362988 WARNING Domain.cc 591] Record stop has been detected in domain B.

El 12 de Junio, mas rstops, esta vez sobre DIMMs de SB1/P2

Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096796647204 NOTICE StartupManager.cc 2602] efhd output: This bit is in one of Dimm SB1/P2/B0/D0 or Dimm SB1/P2/B1/D0.
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797043039 NOTICE StartupManager.cc 2602] efhd output: Bank/Dimm fault attribution for data CEs is the responsibility of
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797435634 NOTICE StartupManager.cc 2602] efhd output: lpost or domain software which has address information that
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797824449 NOTICE StartupManager.cc 2602] efhd output: allows error attribution to a bank. No action taken here.
NW,UltraSPARC-IV+:send_one_mondo+160 (24, 24, 995c5647, 1, 18b1448, 1)


*///Finalmente viene el panic en el dominio en Junio 13.

Jun 13 06:39:34 sol5002 ^Mpanic[cpu35]/thread=2a100a77cc0:
Jun 13 06:39:34 sol5002 unix: [ID 862289 kern.notice] send mondo timeout (target 0x24) [1470496 NACK 0 BUSY]
Jun 13 06:39:34 sol5002 unix: [ID 100000 kern.notice]
*////El rstop mas cercano a esa hora, es este. Donde se reporta falla en los procesadores P2 y P1. de la SB1.-------------------------------------------------------------------
desde la SC, dentro de /var/opt/SUNWMS/adm/B/dump , podemos ver el log de los record stop
redxl> dumpf load dsmd.rstop.120613.0647.41
Created Wed Jun 13 06:47:41 2012
By hpost v. 1.6 Generic 124319-04 Oct 12 2007 11:30:48 executing as pid=20198
On ssc name: e25k-5-sc0.
Primary service FRU is Slot SB1.

redxl> wfail -B
port SB1/P2 # redx wfail of dump 120613.0447.41
port SB1/P3 # redx wfail of dump 120613.0447.41


CONCLUSION de los ingenieros de Oracle
==============================
Panic producido por falla de hardware en SB1.
PLAN de ACCION
===========

Reemplazo de SB1
540-6753
540-6753 [F] CPU/Memory Uniboard w/4× US IV+ 1.8GHz, 0MB
Se recomienda altamente actualizar los patches de kernel para un mejor control de estos eventos.
Referencia:
Systems With UltraSPARC IV+ Processors Running Solaris 9 or 10 May Experience "send mondo timeout" Panic (Doc ID 1019109.1)

Eso hicimos, instalamos los parches recomendados , pero …....
Luego de reemplazar la System Board, y memoria
El equipo levanto.
Luego del boot, se chequeo los eventos fma y vimos esta condicion

 fmd:///module/cpumem-diagnosis degraded, se le hizo un fmadm repair y lo reparo.
el fmdump muestra eventos anteriores sobre el mismo modulo.

Envio el explorer y la contestacion fue :
Hemos revisado la información del explorer del dominio , luego del cambio de la SB1.

//La salida del comando 'fmadm faulty" no muestra enventos.
::::::::::::::
fmadm-faulty.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
//La salida del comando "fmadm faulty -a" siempre mostrara los eventos anteriores. Estos ya no requieren ninguna accion.
:::::::::::::
fmadm-faulty-a.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e70d5a
ff12f344-8d86-eac6-832b-92ac8e1063eb
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e712fa
7ea9887b-6631-4a28-806e-d74a61cd4733
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e7368e
44d9d55f-8277-cdeb-f205-8ca3a2d52ab6
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=227500dc
d100412a-3592-493e-95f1-d460a157e15b
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=4657339a
//El FMA (fmdump -e ) reporta eventos nuevamente  uhhhh
Jun 13 17:30:30.2977 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.293 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3054 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3113 ereport.cpu.ultraSPARC-IVplus.ce

*///Estos son los DIMMS involucrados.

unum = SB1/P3/B0/D0 J16300
unum = SB1/P2/B0/D0 J15300
unum = SB1/P1/B1/D0 J14301
unum = SB1/P3/B1/D0 J16301

Me pidieron otro explorer del equipo y de la System Controller
Envie un explorer de la sc y me contestaron :

// El ultimo rstop registrado en el equipo, se presento el dia de hoy, 13 de Junio, a las 15:01 horas.
-rw-r--r-- 1 sctools other 2288 Jun 13 15:00 wfailoutput.120613.1659.57
-rw-r--r-- 1 sctools other 1934 Jun 13 15:00 wfailoutput.120613.1700.32
-rw-r--r-- 1 sctools other 2288 Jun 13 15:01 wfailoutput.120613.1701.16 
 El ultimo POST registrado en el equipo, nos indica a que hora fue remplazada la system board y la ultima vez en que el dominio fue encendido.
///
Los logs nos dan la misma fecha: 13 de Junio a las 15:01
horas:-rw-r--r-- 1 sctools other 1035 Jun 13 15:00 post120613.1700.10.log
-rw-r--r--
1 sctools other 924 Jun 13 15:00 post120613.1700.33.log
-rw-r--r--
1 sctools other 1035 Jun 13 15:00 post120613.1700.52.log
-rw-r--r--
1 sctools other 924 Jun 13 15:01 post120613.1701.16.log
-rw-r--r--
1 sctools other 1035 Jun 13 15:01 post120613.1701.27.log <----


///
Esta es la hora en la que se capturo el explorer de la SC:
=========== SUN(TM) EXPLORER DATA COLLECTOR (Version 5.10) =======
== Esto indica que desde las 15:01, hora en que se levanto por ultima vez el dominio, hasta las 20:42, hora en que se recolecto el explorer, no se han presentado nuevos record stops.


REVISANDO EL EXPLORER DEL DOMINIO
=================================
/ El fma faulty no muestra errores:
$ more fmadm-faulty.ou
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------

/// El fmadm faulty -i tampoco aparecen errores:
$ more fmadm-faulty-i.out
STATE RESOURCE / CACHE-ID
-------- ----------------------------------------------------------------------

// Es en el fmdump -a donde aparecen errores de memoria, pero no se muestra la fecha de origen de dichos eventos:
ATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e70d5a
ff12f344-8d86-eac6-832b-92ac8e1063eb
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e712fa
7ea9887b-6631-4a28-806e-d74a61cd4733
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e7368e
44d9d55f-8277-cdeb-f205-8ca3a2d52ab6
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=227500dc
d100412a-3592-493e-95f1-d460a157e15b
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=4657339a
296a078c-9763-6c57-f7c9-89a413657bdc
 En el fmdump -e, aparecen algunos errores que parecieran indicar errores de ecc en memoria y cpu:
bash-3.2$
tail fmdump-e.out
Jun
13 17:30:20.8827 ereport.cpu.ultraSPARC-IVplus.ce
Jun
13 17:30:22.9015 ereport.cpu.ultraSPARC-IVplus.ivc
Jun
13 17:30:22.9015 ereport.cpu.ultraSPARC-IVplus.ce
Jun
13 17:30:24.8022 ereport.cpu.ultraSPARC-IVplus.ivc
Jun
13 17:30:26.8814 ereport.cpu.ultraSPARC-IVplus.ce
Jun
13 17:30:30.1206 ereport.io.xmits.ecc.dwce
Jun
13 17:30:30.2977 ereport.cpu.ultraSPARC-IVplus.ivc
Jun
13 17:30:30.2993 ereport.cpu.ultraSPARC-IVplus.ivc
Jun
13 17:30:30.3054 ereport.cpu.ultraSPARC-IVplus.ivc
Jun
13 17:30:30.3113 ereport.cpu.ultraSPARC-IVplus.ce// Estos son todos los archivos fmdump -vu recolectados en el explorer:
bash-3.2$
ls -lrt | grep fmdump-vu
-rwxrwxrwx+
1 root staff 320 Jun 13 15:30 fmdump-vu_2bd9feed-7269-c64a-8f54-a269a93cec55.out
-rwxrwxrwx+
1 root staff 320 Jun 13 15:30 fmdump-vu_ca963465-a151-cc2d-9521-a8e0e6749a70.out-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_d002087b-50d0-64c8-fe5a-8de2099fa3b4.out
-rwxrwxrwx+
1 root staff 320 Jun 13 15:30 fmdump-vu_bd302929-fe79-49bd-b1b4-9c9599c7f7db.out
-rwxrwxrwx+
1 root staff 320 Jun 13 15:30 fmdump-vu_d1c88b3a-affd-c8fd-b7ad-e161f51f7c2d.out
-rwxrwxrwx+
1 root staff 320 Jun 13 15:30 fmdump-vu_92f53876-b809-4969-d00d-dac6859754b6.out
-rwxrwxrwx+
1 root staff 320 Jun 13 15:31 fmdump-vu_210c66e3-a939-62c6-d0e3-8b040b97ff82.out
-rwxrwxrwx+
1 root staff 320 Jun 13 15:31 fmdump-vu_cdf55e54-0758-6e26-9f46-de77a562dd5a.out
/ Revisando del ultimo hacia el primero, se encuentra que siempre se reporta un error en el modulo de fma llamado cpumem-diagnosis:

bash-3.2$ more fmdump-vu_fde87c22-19d6-e8c6-a9a6-a80bb9a1dcf4.out
TIME UUID SUNW-MSG-ID
Jun 13 09:03:58.0344 fde87c22-19d6-e8c6-a9a6-a80bb9a1dcf4 FMD-8000-2K
100% defect.sunos.fmd.module

Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -

bash-3.2$ more fmdump-vu_e2ca8c9b-20e2-c419-a73a-e3f0f3198fd2.out
TIME UUID SUNW-MSG-ID
Jun 13 08:46:46.2303 e2ca8c9b-20e2-c419-a73a-e3f0f3198fd2 FMD-8000-2K
100% defect.sunos.fmd.module

Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -

bash-3.2$ more fmdump-vu_2ad4ec18-b1a4-eca0-a67d-a268a7af7071.out
TIME UUID SUNW-MSG-ID
Jun 13 07:51:24.7743 2ad4ec18-b1a4-eca0-a67d-a268a7af7071 FMD-8000-2K
100% defect.sunos.fmd.module

Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -

bash-3.2$ more fmdump-vu_2af501d9-6d9b-cc47-bfd9-b27d4214a161.out
TIME UUID SUNW-MSG-ID
Jun 08 02:41:09.9915 2af501d9-6d9b-cc47-bfd9-b27d4214a161 FMD-8000-2K
100% defect.sunos.fmd.module

Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -

bash-3.2$ more fmdump-vu_9512e0a0-f65f-4d3d-8010-c94ad974d5de.out
TIME UUID SUNW-MSG-ID
Jun 01 02:40:48.2977 9512e0a0-f65f-4d3d-8010-c94ad974d5de FMD-8000-2K
100% defect.sunos.fmd.module

Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -


== Esta informacion nos direcciona hacia un posible error o bug del fma.


Plan de accion.
1) Limpiar logs de fma.
(aun no se han limpiado todos, ya que en el explorer hay logs con fecha del 1 de Junio y anteriores; si estuviera completamente limpio, veriamos solo logs de fma del dia de hoy).
Favor de aplicar todos los pasos.

Clearing FMA Faults from the O/S
================================

Please run the following commands from the O/S:

1. Run the fmadm faulty command

# fmadm faulty

When you run the fmadm faulty command you may see the output similar to below, and it is the long hex number that is the UUID
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
degraded dev:////pci@8,700000 d83323bd-f87b-6cc9-f754-c62f479c7706
-------- ----------------------------------------------------------------------

**NOTE: if fmadm comes back clean, skip to step 3 and continue

2. Run the fmadm repair command on all the UUIDs.
Since you will probably see the same UUID for each event, you will only need to repair that UUID. If you see different UUIDs, run it on each one.

# fmadm repair d83323bd-f87b-6cc9-f754-c62f479c7706

3. Clear ereports and resource cache

# cd /var/fm/fmd
# rm e* f* c*/eft/* r*/*

4. Reset the fmd serd modules
# fmadm reset cpumem-diagnosis
# fmadm reset cpumem-retire
# fmadm reset eft
# fmadm reset io-retire


5. Reboot the system to clear the errors.
En este punto, es necesario monitorear si aparecen nuevos errores de fma despues del reboot.


2) Si llegara a suceder que el problema continuara (que aparecieran nuevos errores de fma), entonces sera necesario aplicar un POST 96 al dominio ,para descartar en su totalidad que haya una falla de hardware en el system board, memoria o en el expander board.

Para correr el POST 96, es necesario dar de baja y apagar el dominio con un setkeyswitch off y encenderlo con el siguiente comando:
setkeyswitch -d B -l 96 on
donde "B" es el identificador del dominio y "l" es el nivel del POST

A esta Altura, el ingeniero de Oracle, recomendo cambiar el EXPANDER BOARD ( ya habiamos reemplazados 2 SB y Memorias )
Al momento, las cosas venian asi :
El equipo venia presentando record stops desde Diciembre, pero el 13 de Junio a las 07:51 presento un panic.

Con la ayuda de un ingeniero de campo, reemplazamos la system board y todos los dimms de memoria, pero el problema continuaba. Entonces se remplazo tambien la expander board pero el problema persiste.

Se corrio un post 96 con todo este nuevo hardware y no aparecio ningun error.
El ingeniero en sitio hizo la prueba de hacer un boot del dominio desde un dvd de solaris en una version mas reciente a la que esta instalada en el equipo (utilizo Solaris 10 Release 09/10)y el problema persistio, se siguieron presentando los record stops en el dominio.


A esta altura es un kilombo, esto seria un resumen
====================
El equipo genera record stops todo el tiempo cuando el sistema operativo esta corriendo. Los record stops indican problemas en los cpus.
En el sistema operativo, se presentan mensajes de fma que indican errores de memoria.
AUN NO HEMOS PODIDO DETERMINAR SI EL PROBLEMA ES DE HARDWARE O DE SOFTWARE.

De acuerdo al analisis del nuevo ingeniero que tomo el caso se desprende:
Del core generado Jun 13 9:03 ,
- El panic fue debido a un "send mondo timeout", lo cual se traduce a un excesivo numero de CE registrados, sumado a que no se tienen los parches para hacer un mejor manejo de los errores de FMA.
- Los parches de FMA estan desactualizados, se deben actualizar para mejorar el manejo de los mensajes de error (rstops)
- La SB actual no presenta falla en ninguno de sus componentes en Post 96 , pero los rstops siguen generandose.
$ strings vmcore.0 | head
SunOS
sol5002
5.10
Generic_127111-09
sun4u
SUNW,Sun-Fire-15000
send mondo timeout (target 0x24) [1470496 NACK 0 BUSY] --* Indica el problema antes mencionado!!
.symtab
.strtab
.shstrtab


Anexo link con informacion al respecto :
https://support.us.oracle.com/oip/faces/secure/km/DocumentDisplay.jspx?id=1019109.1&h=Y
https://support.us.oracle.com/oip/faces/secure/km/DocumentDisplay.jspx?id=1000495.1&h=Y

patch 125369-03 esta obsoleto y reemplazado por 127755-01
patch 137111-01 esta obsoleto y reemplazado por 137137-09

*** Rstops :
------------

Cambian un poco en relacion al Hw instalado pero me da la impresion que la mayor parte de ellos hacen referencia a CE.
por lo que la instalacion de los parches de FMA son necesarios
-Current Action Plan:
--------------------------------------------------------------

1.- Instalar parches faltantes de FMA:
FMA Patch 127755 missing (rps -01, current -01): SunOS 5.10: Fault Manager patch
FMA Patch 127127 missing (rps -11, current -11): SunOS 5.10: kernel patch
FMA Patch 137137 missing (rps -09, current -09): SunOS 5.10: kernel patch
FMA Patch 139555 missing (rps -08, current -08): SunOS 5.10: Kernel Patch
FMA Patch 141444 missing (rps -09, current -09): SunOS 5.10: kernel patch
FMA Patch 142909 missing (rps -17, current -17): SunOS 5.10: kernel patch
FMA Patch 144500 missing (rps -19, current -19): SunOS 5.10: Solaris kernel patch
FMA Patch 147790 missing (current -01): SunOS 5.10: fmd patch
FMA Patch 146582 missing (current -02): SunOS 5.10: fmadm patch
FMA Patch 147705 missing (rps -01, current -02): SunOS 5.10: pciex patch
FMA Patch 147778 missing (current -01): SunOS 5.10: fmd patch
FMA Patch 148629 missing (current -01): SunOS 5.10: xaui patch

2.- Reiniciar equipo y verificar que haya reducido o detenido el numero de rstops
Se abrieron dos escalaciones técnicas, a ingenieros de Kernel y a Ingenieros de Sparc
De las dos escalaciones se logra concluir:

1)causa del panic reportado por cliente en este SR:
Could be a hardware or OBP, firmware and fma patch issues.

Solucion:
Actulizar patches de OS

Solucion implementada:
Patches recomendados del EIS-March-2012 fueron aplicados anoche por FEs. 
2)Respecto a los Rstops.

Estos vienen ocurriendo desde el 2011, son del tipo CE, "errores corregibles" por lo que no
requieren accion.
Solo si el FMA del dominio los reporta deberan ser reemplazados. No se deben cambiar DIMMS que no
esten reportados en logs del FMA.




Plan de accion
================
1. Actualizar patches de SC-SMS
Correr post en nivel 127 domain B.


El post 127 tarda aprox 70 minutos

_________________________________-
Esto conteste yo
Se realizo, el ultimo action plan, que consistia en la instalacion de parches de SC-SMS + un setkeyswitch -d B -l 127.

Al levantar el dominio luego de pocos minutos el FMA reporta errores nuevamente:

[sol5002] /opt/SUNWexplo/output # fmdump -v
TIME UUID SUNW-MSG-ID
Jun 16 02:54:24.5023 79a1d7cf-9a4a-cd58-b57b-ca35d705af4c SUN4U-8001-32
100% fault.memory.datapath

Problem in: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
Affects: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
FRU: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
Location: -
A esta altura ( empezamos un miercoles a las 7am y terminamos un sabado 15 hs ) el ingeniero de campo Ojea Quintana tuvo la solucion final.
Probamos de levantar el sistema operativo con las placas de red unplumbed y levanta sin RecordStop (es decir, sin fallas).

El problema se acoto a lo que es el IO Board, y se reemplazo 
la IO1 (501-7394 que es el IO board completo).
El cluster levanto sin errores de ningún tipo.