Rapido y sencillo tar remoto
Copiar el filesystem /var/mqm/local en el equipo 10.78.33.XX y descomprimirlo en el destino en el filesystem /var/mqm/local
Pararme en el equipo origen, desde el cual extraere los datos
cd /var/mqm
tar cvf - local | ssh -l root 10.78.33.XX "(cd /var/mqm ; tar xvf - )"
Apuntes de Solaris
martes, 7 de mayo de 2013
miércoles, 24 de abril de 2013
Diferencia entre la salida del luxadm y fcinfo hba-port
Luego de conectar 2 cables de fibra a un m5000 y al switch de fibras del storage,
y ambas con link del lado del equipo y del storage, chequeo como ve el solaris las conecciones estas y noto que :
la salida del luxadm -e port y del comando fcinfo hba-port difieren.
Con el luxadm veo solo 1 fibra conectada y con el fcinfo veo las 2 en online.
# luxadm -e port
/devices/pci@2,600000/SUNW,qlc@0/fp@0,0:devctl NOT CONNECTED
/devices/pci@2,600000/SUNW,qlc@0,1/fp@0,0:devctl CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0/fp@0,0:devctl NOT CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0,1/fp@0,0:devctl NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0,1/fp@0,0:devctl NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0/fp@0,0:devctl NOT CONNECTED
#
# fcinfo hba-port|grep Stat
State: offline
State: online
State: online
State: offline
State: offline
State: offline
#
Esto se debe a que el status CONNECTED o NOT CONNECTED no indica una coneccion fisica.
El luxadm -e port CONNECTED indica que establecio comunicacion entre el FC initiatior ( HBA ) y
el FC Target por ejemplo el port del storage.
Si la zona en el storage no esta creada la comunicacion no existe y el status sera NOT_CONNECTED.
Luego que configuren la zona en el storage, recien ahi veo "CONNECTED" las 2 placas
# luxadm -e port
/devices/pci@2,600000/SUNW,qlc@0/fp@0,0:devctl NOT CONNECTED
/devices/pci@2,600000/SUNW,qlc@0,1/fp@0,0:devctl CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0/fp@0,0:devctl CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0,1/fp@0,0:devctl NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0,1/fp@0,0:devctl NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0/fp@0,0:devctl NOT CONNECTED
#
viernes, 19 de abril de 2013
Configurar M5000 con un dominio
Finalidad del documento :
En Base a un m5000 con 2 dominios asignados y con Solaris instalado, tenemos que armar un solo dominio con todos los componentes de hardware que disponemos.
Hardware utilizado :
1 m5000 con 64gb de ram , 4 cpu octacore
Descripcion de los componentes del m5000
XSB, eXtended System Board, estas se pueden configurar en 2 modos, Uni-mod y quad-mode, para poder configurar dominios, cada uno de estos debe tener un LSB asociada.
PSB, Physical System Board, cada PSB esta compuesta por CPU , Memoria y IO board.
CPUM , Cpu Memory Board
MEMB, Memory Board
LSB, Logical System Board
A continuacion, se muestra como esta la configuracion del hardware, antes del armado final.
Vemos que hay 2 dominios configurados con 2 S.O corriendo
XSCF> showboards -a
XSB DID(LSB) Assignment Pwr Conn Conf Test Fault
---- -------- ----------- ---- ---- ---- ------- --------
00-0 00(00) Assigned y y y Passed Normal
01-0 01(00) Assigned y y y Passed Normal
XSCF> showdomainstatus -a
DID Domain Status
00 Running
01 Running
02 -
03 -
XSCF> showdomainstatus -d0
DID Domain Status
00 Running
XSCF> showdscp
DSCP Configuration:
Network: 192.168.224.0
Netmask: 255.255.255.0
Location Address
---------- ---------
XSCF 192.168.224.1
Domain #00 192.168.224.2
Domain #01 192.168.224.3
Domain #02 192.168.224.4
Domain #03 192.168.224.5
XSCF>
XSCF> showfru -a sb
Device Location XSB Mode Memory Mirror Mode
sb 00 Uni no
sb 01 Uni no
XSCF> showhardconf
SPARC Enterprise M5000;
+ Serial:BDF1245599; Operator_Panel_Switch:Locked;
+ Power_Supply_System:Single; SCF-ID:XSCF#0;
+ System_Power:On; System_Phase:Cabinet Power On;
Domain#0 Domain_Status:Running;
Domain#1 Domain_Status:Running;
MBU_B Status:Normal; Ver:4401h; Serial:BD124500AG ;
+ FRU-Part-Number:CF00541-4360 01 /541-4360-01 ;
+ Memory_Size:64 GB;
+ Type:2;
CPUM#0-CHIP#0 Status:Normal; Ver:0601h; Serial:PP124200D2 ;
+ FRU-Part-Number:CA06761-D205 C3 /371-4932-03 ;
+ Freq:2.660 GHz; Type:48;
+ Core:4; Strand:2;
CPUM#0-CHIP#1 Status:Normal; Ver:0601h; Serial:PP124200D2 ;
+ FRU-Part-Number:CA06761-D205 C3 /371-4932-03 ;
+ Freq:2.660 GHz; Type:48;
+ Core:4; Strand:2;
CPUM#2-CHIP#0 Status:Normal; Ver:0601h; Serial:PP124101TJ ;
+ FRU-Part-Number:CA06761-D205 C3 /371-4932-03 ;
+ Freq:2.660 GHz; Type:48;
+ Core:4; Strand:2;
CPUM#2-CHIP#1 Status:Normal; Ver:0601h; Serial:PP124101TJ ;
+ FRU-Part-Number:CA06761-D205 C3 /371-4932-03 ;
+ Freq:2.660 GHz; Type:48;
+ Core:4; Strand:2;
MEMB#0 Status:Normal; Ver:0101h; Serial:NN1242F7UL ;
+ FRU-Part-Number:CF00541-0545 09 /541-0545-09 ;
MEM#0A Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93f;
+ Type:4B; Size:4 GB;
MEM#0B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f935;
+ Type:4B; Size:4 GB;
MEM#1A Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93e;
+ Type:4B; Size:4 GB;
MEM#1B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f940;
+ Type:4B; Size:4 GB;
MEM#2A Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f999;
+ Type:4B; Size:4 GB;
MEM#2B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f92a;
+ Type:4B; Size:4 GB;
MEM#3A Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f937;
+ Type:4B; Size:4 GB;
MEM#3B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93a;
+ Type:4B; Size:4 GB;
MEMB#4 Status:Normal; Ver:0101h; Serial:NN1242F7V2 ;
+ FRU-Part-Number:CF00541-0545 09 /541-0545-09 ;
MEM#0A Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344045b;
+ Type:4B; Size:4 GB;
MEM#0B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-234403d6;
+ Type:4B; Size:4 GB;
MEM#1A Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-234403e1;
+ Type:4B; Size:4 GB;
MEM#1B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343035a;
+ Type:4B; Size:4 GB;
* MEM#2A Status:Degraded;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344047f;
+ Type:4B; Size:4 GB;
MEM#2B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344045d;
+ Type:4B; Size:4 GB;
MEM#3A Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-23440340;
+ Type:4B; Size:4 GB;
MEM#3B Status:Normal;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-23440459;
+ Type:4B; Size:4 GB;
DDC_A#0 Status:Normal;
DDC_A#1 Status:Normal;
DDC_A#2 Status:Normal;
DDC_A#3 Status:Normal;
DDC_B#0 Status:Normal;
DDC_B#1 Status:Normal;
IOU#0 Status:Normal; Ver:0101h; Serial:NN1235ETAK ;
+ FRU-Part-Number:CF00541-2240 05 /541-2240-05 ;
+ Type:1;
DDC_A#0 Status:Normal;
DDCR Status:Normal;
DDC_B#0 Status:Normal;
PCI#1 Name_Property:SUNW,qlc; Card_Type:Other;
PCI#2 Name_Property:network; Card_Type:Other;
PCI#3 Name_Property:SUNW,qlc; Card_Type:Other;
PCI#4 Name_Property:SUNW,qlc; Card_Type:Other;
IOU#1 Status:Normal; Ver:0101h; Serial:NN1234EGTL ;
+ FRU-Part-Number:CF00541-2240 05 /541-2240-05 ;
+ Type:1;
DDC_A#0 Status:Normal;
DDCR Status:Normal;
DDC_B#0 Status:Normal;
PCI#1 Name_Property:SUNW,qlc; Card_Type:Other;
PCI#2 Name_Property:network; Card_Type:Other;
PCI#3 Name_Property:SUNW,qlc; Card_Type:Other;
PCI#4 Name_Property:SUNW,qlc; Card_Type:Other;
XSCFU Status:Normal,Active; Ver:0101h; Serial:NN1239F0NH ;
+ FRU-Part-Number:CF00541-0481 05 /541-0481-05 ;
OPNL Status:Normal; Ver:0101h; Serial:NN1235EMT1 ;
+ FRU-Part-Number:CF00541-0850 06 /541-0850-06 ;
PSU#0 Status:Normal; Serial:476856F+1142AD0055;
+ FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
+ Power_Status:On; AC:200 V;
PSU#1 Status:Normal; Serial:476856F+1153AD00M6;
+ FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
+ Power_Status:On; AC:200 V;
PSU#2 Status:Normal; Serial:1357FYG-1047AD003J;
+ FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
+ Power_Status:On; AC:200 V;
PSU#3 Status:Normal; Serial:476856F+1141AD0019;
+ FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
+ Power_Status:On; AC:200 V;
FANBP_C Status:Normal; Ver:0501h; Serial:NN1235ER95;
+ FRU-Part-Number:CF00541-3099 01 /541-3099-01 ;
FAN_A#0 Status:Normal;
FAN_A#1 Status:Normal;
FAN_A#2 Status:Normal;
FAN_A#3 Status:Normal;
XSCF>
Ahora comenzamos con las tareas de reconfiguracion
XSCF>
XSCF> showfru sb 00
Device Location XSB Mode Memory Mirror Mode
sb 00 Uni no
XSCF> showdcl -a
DID LSB XSB Status
00 Running
00 00-0
---------------------------
01 Running
00 01-0
XSCF> showboards -a -v
XSB R DID(LSB) Assignment Pwr Conn Conf Test Fault COD
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0 00(00) Assigned y y y Passed Normal n
01-0 01(00) Assigned y y y Passed Normal n
XSCF> showfru sb 0
Device Location XSB Mode Memory Mirror Mode
sb 00 Uni no
XSCF> showfru sb 1
Device Location XSB Mode Memory Mirror Mode
sb 01 Uni no
Antes de sacar la placa XSB , los dominios tienen que estar apagados, sino sucedera este error :
XSCF> deleteboard -c unassign 00-0
XSB#00-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSB#00-0 is the last LSB for DomainID 0, and this domain is still running. Operation failed.
Ahora si, apagamos los dominios.
XSCF> poweroff -d 0
DomainIDs to power off:00
Continue? [y|n] :y
00 :Powering off
*Note*
This command only issues the instruction to power-off.
The result of the instruction can be checked by the "showlogs power".
XSCF> showdcl -a
DID LSB XSB Status
00 Running (Waiting for OS Shutdown)
00 00-0
---------------------------
01 Running
00 01-0
XSCF> poweroff -d 1
DomainIDs to power off:01
Continue? [y|n] :y
01 :Powering off
*Note*
This command only issues the instruction to power-off.
The result of the instruction can be checked by the "showlogs power".
XSCF> showdcl -a
DID LSB XSB Status
00 Running (Waiting for OS Shutdown)
00 00-0
---------------------------
01 Running (Waiting for OS Shutdown)
00 01-0
XSCF> showdcl -a
DID LSB XSB Status
00 Shutdown Started
00 00-0
---------------------------
01 Running (Waiting for OS Shutdown)
00 01-0
XSCF> showdcl -a
DID LSB XSB Status
00 Powered Off
00 00-0
---------------------------
01 Running (Waiting for OS Shutdown)
00 01-0
XSCF> showdcl -a
DID LSB XSB Status
00 Powered Off
00 00-0
---------------------------
01 Shutdown Started
00 01-0
XSCF> showdcl -a
DID LSB XSB Status
00 Powered Off
00 00-0
---------------------------
01 Powered Off
00 01-0
Ahora que estan apagados los 2 dominios, procedemos a quitar la board 0 y 1
XSCF> deleteboard -c unassign 00-0
XSB#00-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSCF> deleteboard -c unassign 00-0
XSCF> setdcl -d 0 -r 00
XSCF> deleteboard -c unassign 01-0
XSB#01-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSCF>
XSCF> setdcl -d 0 -r 01
XSCF> showboards -av
XSB R DID(LSB) Assignment Pwr Conn Conf Test Fault COD
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0 SP Available n n n Passed Normal n
01-0 SP Available n n n Passed Normal n
XSCF> showdomainstatus -a
DID Domain Status
00 -
01 -
02 -
03 -
XSCF> setupfru -x 1 sb 0
XSCF> showfru -a sb
Device Location XSB Mode Memory Mirror Mode
sb 00 Uni no
sb 01 Uni no
XSCF> showfru sb 0
Device Location XSB Mode Memory Mirror Mode
sb 00 Uni no
XSCF> showfru sb 1
Device Location XSB Mode Memory Mirror Mode
sb 01 Uni no
XSCF> setupfru -x 1 sb 1
XSCF> showfru sb 1
Device Location XSB Mode Memory Mirror Mode
sb 01 Uni no
XSCF> setdcl -d 0 -a 0=00-0
XSCF> setdcl -d 0 -a 1=00-1
XSCF> setdcl -d 0 -a 0=01-0
LSB#00 is already registered in DCL.
XSCF> setdcl -d 0 -a 2=01-0
XSCF> setdcl -d 0 -a 3=01-1
XSCF> addboard -c assign -d 0 00-0
XSB#00-0 will be assigned to DomainID 0. Continue?[y|n] :y
XSCF> addboard -c assign -d 0 00-1
XSB#00-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#00-1 is not installed.
XSCF> addboard -c assign -d 0 01-0
XSB#01-0 will be assigned to DomainID 0. Continue?[y|n] :y
XSCF> addboard -c assign -d 0 01-1
XSB#01-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#01-1 is not installed.
XSCF> showdcl -v -d 0
DID LSB XSB Status No-Mem No-IO Float Cfg-policy
00 Powered Off FRU
00 00-0 False False False
01 00-1 False False False
02 01-0 False False False
03 01-1 False False False
04 -
05 -
06 -
07 -
08 -
09 -
10 -
11 -
12 -
13 -
14 -
15 -
XSCF> showboards -v -a
XSB R DID(LSB) Assignment Pwr Conn Conf Test Fault COD
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0 * 00(00) Assigned n n n Unknown Normal n
01-0 * 00(02) Assigned n n n Unknown Normal n
XSCF> showdcl -v -a
DID LSB XSB Status No-Mem No-IO Float Cfg-policy
00 Powered Off FRU
00 00-0 False False False
01 00-1 False False False
02 01-0 False False False
03 01-1 False False False
04 -
05 -
06 -
07 -
08 -
09 -
10 -
11 -
12 -
13 -
14 -
15 -
---------------------------------------------------------------
01 Powered Off FRU
00 01-0 False False False
01 -
02 -
03 -
04 -
05 -
06 -
07 -
08 -
09 -
10 -
11 -
12 -
13 -
14 -
15 -
XSCF> showdcl -a
DID LSB XSB Status
00 Powered Off
00 00-0
01 00-1
02 01-0
03 01-1
---------------------------
01 Powered Off
00 01-0
XSCF> setdcl -d 1 -r 00
XSCF> showdcl -a
DID LSB XSB Status
00 Powered Off
00 00-0
01 00-1
02 01-0
03 01-1
XSCF> addboard -c assign -d 0 00-1
XSB#00-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#00-1 is not installed.
XSCF> addboard -c assign -d 0 01-1
XSB#01-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#01-1 is not installed.
XSCF> poweron -d 0
DomainIDs to power on:00
Continue? [y|n] :y
00 :Powering on
*Note*
This command only issues the instruction to power-on.
The result of the instruction can be checked by the "showlogs power".
XSCF> console -d 0
Console contents may be logged.
Connect to DomainID 0?[y|n] :y
POST Sequence 01 CPU Check
LSB#02 (XSB#01-0): POST 2.17.0 (2011/11/17 10:29)
POST Sequence 02 Banner
LSB#00 (XSB#00-0): POST 2.17.0 (2011/11/17 10:29)
POST Sequence 03 Fatal Check
POST Sequence 04 CPU Register
POST Sequence 05 STICK
POST Sequence 06 MMU
POST Sequence 07 Memory Initialize
POST Sequence 08 Memory
POST Sequence 09 Raw UE In Cache
POST Sequence 0A Floating Point Unit
POST Sequence 0B SC
POST Sequence 0C Cacheable Instruction
POST Sequence 0D Softint
POST Sequence 0E CPU Cross Call
POST Sequence 0F CMU-CH
POST Sequence 10 PCI-CH
POST Sequence 11 Master Device
POST Sequence 12 DSCP
POST Sequence 13 SC Check Before STICK Diag
POST Sequence 14 STICK Stop
POST Sequence 15 STICK Start
POST Sequence 16 Error CPU Check
POST Sequence 17 System Configuration
POST Sequence 18 System Status Check
POST Sequence 19 System Status Check After Sync
POST Sequence 1A OpenBoot Start...
POST Sequence Complete.
SPARC Enterprise M5000 Server, using Domain console
Copyright (c) 1998, 2012, Oracle and/or its affiliates. All rights reserved.
Copyright (c) 2012, Oracle and/or its affiliates and Fujitsu Limited. All rights reserved.
OpenBoot 4.33.5.d, 65536 MB memory installed, Serial #102844532.
Ethernet address 0:10:e0:21:48:74, Host ID: 86214874.
Aborting auto-boot sequence.
{0} ok
root@m5kd0 # prtdiag -v
System Configuration: Oracle Corporation sun4u SPARC Enterprise M5000 Server
System clock frequency: 1012 MHz
Memory size: 65536 Megabytes
==================================== CPUs ====================================
CPU CPU Run L2$ CPU CPU
LSB Chip ID MHz MB Impl. Mask
--- ---- ---------------------------------------- ---- --- ----- ----
00 0 0, 1, 2, 3, 4, 5, 6, 7 2660 11.0 7 193
00 1 8, 9, 10, 11, 12, 13, 14, 15 2660 11.0 7 193
02 0 64, 65, 66, 67, 68, 69, 70, 71 2660 11.0 7 193
02 1 72, 73, 74, 75, 76, 77, 78, 79 2660 11.0 7 193
============================ Memory Configuration ============================
Memory Available Memory DIMM # of Mirror Interleave
LSB Group Size Status Size DIMMs Mode Factor
--- ------ ------------------ ------- ------ ----- ------- ----------
00 A 16384MB okay 4096MB 4 no 2-way
00 B 16384MB okay 4096MB 4 no 2-way
02 A 16384MB okay 4096MB 4 no 2-way
02 B 16384MB okay 4096MB 4 no 2-way
picl_initialize failed: Daemon not responding
==================== Hardware Revisions ====================
System PROM revisions:
----------------------
OBP 4.33.5.d 2012/07/18 06:55
=================== Environmental Status ===================
Mode switch is in LOCK mode
picl_initialize failed: Daemon not responding
En la primer salida del showhardconf, vemos que un dimm de memoria esta con status DEGRADED, y con un * asterisco al lado.
* MEM#2A Status:Degraded;
+ Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344047f;
+ Type:4B; Size:4 GB;
Eso significa que el dimm de memoria esta en falla.
Desde la XSCF ejecutamos el comando snapshot -L F -t user@milinux:/tmp
esto me genero un archivo .zip en mi linux, que al descomprimirlo es similar al explorer de solaris.
Dentro del archivo @scf@log@monitor.log se ve claramente la posicion del dimm de memoria en falla
Feb 15 06:26:37 m5k Warning: /MBU_B/MEMB#4/MEM#2A:DOMAIN:DIMM permanent correctable error
para poder correr este comando se debe tener coneccion de red, lo que hicimos fue conectar un cable cruzado entre el servidor y mi linux que oficiaba
de terminal (con minicom) configuramos una ip en el server y otro en mi linux, y enviamos la salida del snapshot al linux mio.
sábado, 2 de marzo de 2013
Resetear password de ALOM
Para resetear la password de un usuario de ALOM, desde el Sistema Operativo, tipear :
cd /usr/platform/`uname -i`/sbin
scadm userpassword username donde username generalmente es admin
Si quiero verificar previamente que usuarios existen
scadm usershow
cd /usr/platform/`uname -i`/sbin
scadm userpassword username donde username generalmente es admin
Si quiero verificar previamente que usuarios existen
scadm usershow
jueves, 21 de febrero de 2013
Replica de Datos
La finalidad del documento es, mostrar
la replica de datos mediante un storage externo.
Sobre un Sun Cluster 3.2 con Oracle Rac, en 2 servidores m5000 hay
conectado un storage externo de ibm llamado ds 2145, y el manejador de volumenes
Veritas Volume Manager 5.0
La replica de caja se realiza a dos dominios de una E25k, con Solaris 10 y
Veritas Volume Manager 5.0
En que consiste la Copia ?
De los
equipos en cluster Sunrac1 y Sunrac2 , que
serian los equipo productivos, se debe copiar los datos contenidos en
los 3 diskgroups ( RedoDG, DatosDG y
ArchDG ) a 2 servidores los cuales
servirán uno de Reportes (sun5rep ) y
otro de Backup ( sun5bkp )
Como funciona la copia ?
La copia se
realiza por discos agrupados en disk groups de Veritas.
En el cuadro de abajo, se muestran en que servidor se ejecuta cada script.
|
|
SUN5REP
|
SUNRAC1/SUNRAC2
|
SUN5BKP
|
|
1
|
oracle_replication.sh stop_grid
|
|
|
|
2
|
Desmonto_DG_y_FS.ksh
|
|
Desmonto_DG_y_FS.ksh
|
|
3
|
|
oracle_replication.sh begin_backup
|
|
|
4
|
Semanal_Copia_de_Caja.ksh
|
|
|
|
5
|
|
oracle_replication.sh end_backup
|
|
|
6
|
Semanal_Copia_de_Caja_Solo_Archive.ksh
|
|
|
|
7
|
Monto_DG_y_FS_Redo_y_Data.ksh
|
|
Monto_DG_y_FS_Redo_y_Data.ksh
|
|
8
|
Monto_DG_y_FS_Archive.ksh
|
|
Monto_DG_y_FS_Archive.ksh
|
|
9
|
oracle_replication.sh start_grid
|
|
|
|
10
|
oracle_replication.sh recover_database
|
|
|
oracle_replication.sh stop_grid En este script le doy stop a la base de datos , al ASM y a los diskgroups del Grid.
Desmonto_DG_y_FS.ksh Realizo un Stop y deport de los DiskGroups y luego umount del filesystem del Archive Log.
oracle_replication.sh begin_backup Setea la Base de datos en modo Begin Backup
Semanal_Copia_de_caja.ksh Ejecuta la replica del storage, invocandolo desde un ssh al equipo que administra la caja, algo asi user@10.xx.xx.xx "svctask startfcconsistgrp -prep SUN5REP_DB"
oracle_replication.sh end_backup Setea la Base de datos en modo End Backup
Semanal_Copia_de_Caja_Solo_Archive.ksh Ejecuto la replica SOLO de los Archives Logs , ejemplo ssh usuario@10.xx.xx.16 "svctask startfcconsistgrp -prep SUN5REP_ARCH"
Monto_DG_y_FS_Redo_y_Data.ksh Realizo un Import y un Start de los Volumenes
Monto_DG_y_FS_Archive.ksh Realizo un Import y un Start del volume Archive y luego un mount del filesystem /archives
oracle_replication.sh start_grid Levanta los diskgroups, el ASM y la Base de datos en modo MOUNT
oracle_replication.sh recover_database Recupera la base de datos
Nota:
De requerir los scripts, solicitarlos en el comentario.
Documento realizado con Nicolas Morono ( @nicomorono )
jueves, 24 de enero de 2013
Agregar en caliente Raw Device a Sun cluster 3.3 con Oracle RAC
[sunrac1] # vxdctl -c mode ( Chequeo el nodo que tiene el control de los discos )
mode: enabled: cluster active - MASTER
master: sunrac1
Primero le doy un label a cada disco que quiero agregar ( con el comando format )y luego ejecuto en caliente, el siguiente comando ( puede tardar unos minutos en sincronizar los 2 nodos )
[psunrac1] # cldev populate
Configuring DID devices
did instance 35 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Cd0 created for instance
35.
did instance 36 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Bd0 created for instance
36.
did instance 37 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Ad0 created for instance
37.
Configuring the /dev/global directory (global devices)
obtaining access to all attached disks
[sunrac1] # vxdctl enable ( en ambos nodos )
Todos los comandos a continuacion se ejecutan solo en el nodo que tiene el control de los discos.
[sunrac1] # vxdiskadm , opcion1
Select disk devices to add:
[,all,list,q,?] list
DEVICE DISK GROUP STATUS
c0t0d0
rootdg_1 rootdg online
c0t1d0 - - online invalid
c2t0d0
rootmirror rootdg online
c2t1d0 - - online invalid
san_vc0_0 - - online invalid
san_vc0_1
san_vc0_1 Datosdg online shared
san_vc0_2
san_vc0_2 Datosdg online shared
san_vc0_3
san_vc0_3 Datosdg online shared
san_vc0_4
san_vc0_4 Datosdg online shared
san_vc0_5
san_vc0_5 Datosdg online shared
san_vc0_6
san_vc0_6 Datosdg online shared
san_vc0_7
san_vc0_7 Datosdg online shared
san_vc0_8
san_vc0_8 Datosdg online shared
san_vc0_9
san_vc0_9 Datosdg online shared
san_vc0_10
san_vc0_10 Datosdg online shared
san_vc0_11
san_vc0_11 Datosdg online shared
san_vc0_12
san_vc0_13 Crsdg online shared
san_vc0_13
san_vc0_14 Interdg online
san_vc0_14
san_vc0_15 Interdg online
san_vc0_15
san_vc0_16 Interdg online
san_vc0_16
san_vc0_17 Interdg online
san_vc0_17
localrac1dg01 localrac1dg online
san_vc0_18
Redodg01 Redodg online shared
san_vc0_19
san_vc0_20 Interdg online
san_vc0_20
Archdg01 Archdg online
san_vc0_21
san_vc0_21 Datosdg online shared
san_vc0_22
san_vc0_22 Datosdg online shared
san_vc0_23 - - online invalid
san_vc0_24 - - online invalid
san_vc0_25 - - online invalid
Select disk devices to add:
[,all,list,q,?] san_vc0_23 san_vc0_24 san_vc0_25
Chequeo el tamaño de los discos que agregue
[sunrac1] # vxassist -g Datosdg maxsize
san_vc0_23
Maximum volume size: 276723712 (135119Mb)
[sunrac1] # vxassist -g Datosdg maxsize
san_vc0_24
Maximum volume size: 276723712 (135119Mb)
[sunrac1] # vxassist -g Datosdg maxsize
san_vc0_25
Maximum volume size: 276723712 (135119Mb)
[sunrac1] #
[sunrac1] # vxassist -g Datosdg -U gen make
datos14 135119M san_vc0_23
[sunrac1] # vxassist -g Datosdg -U gen make
datos15 135119M san_vc0_24
[sunrac1] # vxassist -g Datosdg -U gen make
datos16 135119M san_vc0_25
[sunrac1] # vxedit -g Datosdg set
group=asmadmin user=grid mode=660 datos14
[sunrac1] # vxedit -g Datosdg set
group=asmadmin user=grid mode=660 datos15
[sunrac1] # vxedit -g Datosdg set
group=asmadmin user=grid mode=660 datos16
Chequeo que hayan quedado con los permisos correctos
[psunrac1] # ls -lt /dev/vx/rdsk/Datosdg/
crw-rw---- 1 grid asmadmin 335, 61000 Jan 24 10:29 datos1
crw-rw---- 1 grid asmadmin 335, 61015 Jan 24 10:27 datos16
crw-rw---- 1 grid asmadmin 335, 61014 Jan 24 10:27 datos15
crw-rw---- 1 grid asmadmin 335, 61013 Jan 24 10:27 datos14
crw-rw---- 1 grid asmadmin 335, 61012 Jan 24 10:23 datos13
crw-rw---- 1 grid asmadmin 335, 61007 Jan 24 10:07 datos8
crw-rw---- 1 grid asmadmin 335, 61006 Jan 24 01:41 datos7
crw-rw---- 1 grid asmadmin 335, 61011 Jan 24 00:17 datos12
Errores cometidos y Soluciones aplicadas :
Al intentar agregar los discos con vxdiskadm fallo porque no veia los discos en el otro nodo.
La solucion fue ejecutar el vxdctl enable en el otro nodo y volver a correr el vxdiskadm en el nodo primario.
Otro error fue con el vxdiskadm, cuando agregamos los discos, pusimos los nombres default en lugar del nombre que queriamos poner a los discos.
La solucion fue , una vez agregado los discos, desde la linea de comando, renombramos los discos de la siguiente manera :
[sunrac1] # vxedit -g Datosdg rename Datosdg01 san_vc0_23
[sunrac1] # vxedit -g Datosdg rename Datosdg02 san_vc0_24
[sunrac1] # vxedit -g Datosdg rename Datosdg03 san_vc0_25
Errores cometidos y Soluciones aplicadas :
Al intentar agregar los discos con vxdiskadm fallo porque no veia los discos en el otro nodo.
La solucion fue ejecutar el vxdctl enable en el otro nodo y volver a correr el vxdiskadm en el nodo primario.
Otro error fue con el vxdiskadm, cuando agregamos los discos, pusimos los nombres default en lugar del nombre que queriamos poner a los discos.
La solucion fue , una vez agregado los discos, desde la linea de comando, renombramos los discos de la siguiente manera :
[sunrac1] # vxedit -g Datosdg rename Datosdg01 san_vc0_23
[sunrac1] # vxedit -g Datosdg rename Datosdg02 san_vc0_24
[sunrac1] # vxedit -g Datosdg rename Datosdg03 san_vc0_25
lunes, 1 de octubre de 2012
No funciona el boot net -s
Intento hacer un booteo por red, y el sector de booteo esta corrupto
Sun Fire E25K, using IOSRAM based Console
Ethernet address 0:0:be:a9:fb:e9, Host ID: 82a9fbe9.
{20} ok
{20} ok boot net -s
Boot device: /pci@3c,70.0000/network@3,1 File and args: -s
Requesting Internet Address for 0:0:be:a9:fb:e9
boot: cannot open kernel/sparcv9/unix
Enter filename [kernel/sparcv9/unix]:
boot: cannot open kernel/sparcv9/unix
Enter filename [kernel/sparcv9/unix]: ^C^D
Type 'go' to resume
{20} ok
Chequeo con devalias , si esta bien seteado la red
Sep 28 11:39:39 2012 {20} ok devalias
Sep 28 11:40:16 2012 net /pci@3c,70.0000/network@3,1
Luego de haber chequeado que los parametros de OBP estan correctos, el problema es que probablemente este corrupto el sector de booteo
Esto se soluciona asi :
Primero , chequeo en el bootparams, de donde saco el boot que le corresponde a ese dominio, en este caso tomo de ejemplo el dominio B
root@e25k-1-sc0 # grep e25k-1-b /etc/bootparams
e25k-1-b root=e25k-1-sc-i1:/export/install/SOL_10_1009_SPARC/Solaris_10/Tools/Boot install=e25k-1-sc-i1:/export/install/SOL_10_1009_SPARC boottype=:in rootopts=:rsize=8192
root@e25k-1-sc0 #
Me paro en el directorio que tiene los comandos para generar el boot nuevo pra el dominio que yo le indique
cd /export/install/SOL_10_1009_SPARC/Solaris_10/Tools
Ejecuto el comando que hace la magia ( Ojo, que esto me borra el anterior, por si me interesaba guardarlo para algo, sino da igual )
./add_install_client e25k-1-b sun4u
Listo, chequeo como quedo.
grep e25k-1-b /etc/bootparams
Y luego puedo ejecutar el booteo por red ( seguramente tenga que realizar fsck )
console -d B
{20} ok boot net -s
Resetting...
Rebooting with command: boot net -s
Boot device: /pci@3c,70.0000/network@3,1 File and args: -s
Requesting Internet Address for 0:0:be:a9:fb:e9
Booting to milestone "milestone/single-user:default".
Configuring devices.
SUNW,eri0 : 100 Mbps half duplex link up
Using RPC Bootparams for network configuration information.
Attempting to configure interface dman0...
Configured interface dman0
Attempting to configure interface ce5...
Skipped interface ce5
Attempting to configure interface ce4...
Skipped interface ce4
Attempting to configure interface ce3...
Skipped interface ce3
Attempting to configure interface ce2...
Skipped interface ce2
Attempting to configure interface ce1...
Skipped interface ce1
Attempting to configure interface ce0...
Skipped interface ce0
Attempting to configure interface eri0...
Configured interface eri0
ip_arp_done: init failed
ifconfig: setifflags: SIOCSLIFFLAGS: eri0: Cannot assign requested address
Requesting System Maintenance Mode
SINGLE USER MODE
# format
Searching for disks...done
AVAILABLE DISK SELECTIONS:
0. c0t10d0
/pci@3c,700000/pci@1/pci@1/scsi@2/sd@a,0
1. c0t11d0
/pci@3c,700000/pci@1/pci@1/scsi@2/sd@b,0
# fsck -y /dev/rdsk/c0t10d0s0
** /dev/rdsk/c0t10d0s0
** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
UNREF FILE I=617432 OWNER=root MODE=100644
SIZE=28 MTIME=Sep 27 02:39 2012
RECONNECT? yes
LINK COUNT FILE I=617432 OWNER=root MODE=100644
SIZE=28 MTIME=Sep 27 02:39 2012 COUNT 0 SHOULD BE 1
ADJUST? yes
** Phase 5 - Check Cylinder Groups
***** FILE SYSTEM WAS MODIFIED *****
# fsck -y /dev/rdsk/c0t10d0s0
** /dev/rdsk/c0t10d0s0
** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cylinder Groups
195904 files, 9421235 used, 15688572 free (92068 frags, 1949563 blocks, 0.4% fragmentation)
#
# fsck -y /dev/rdsk/c0t11d0s0
** /dev/rdsk/c0t11d0s0
** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
UNREF FILE I=617432 OWNER=root MODE=100644
SIZE=28 MTIME=Sep 27 02:39 2012
RECONNECT? yes
LINK COUNT FILE I=617432 OWNER=root MODE=1
Luego init 6
martes, 26 de junio de 2012
Send mondo Timeout o problema de Hardware y/o Software
Problema de Hardware o Software ? leer todo
Send mondo timeout panic
El
equipo,
genero
un
panic
y
switcheo
al
otro
nodo
del
cluster,
aparentemente
seria
por
hardware,
esta
es
la
salida
fmdump
Jun 13 07:51:24 sol5002 fmd: [ID 441519 daemon.error] SUNW-MSG-ID: FMD-8000-2K, TYPE: Defect, VER: 1, SEVERITY: Minor
Jun 13 07:51:24 sol5002 EVENT-TIME: Wed Jun 13 07:51:24 ART 2012
Jun 13 07:51:24 sol5002 PLATFORM: SUNW,Sun-Fire-15000, CSN: -, HOSTNAME: sol5002
Jun 13 07:51:24 sol5002 SOURCE: fmd-self-diagnosis, REV: 1.0
Jun 13 07:51:24 sol5002 EVENT-ID: 2ad4ec18-b1a4-eca0-a67d-a268a7af7071
Jun 13 07:51:24 sol5002 DESC: A Solaris Fault Manager component has experienced an error that required the module to be disabled. Refer to http://sun.com/msg/FMD-8000-2K for more information.
Jun 13 07:51:24 sol5002 AUTO-RESPONSE: The module has been disabled. Events destined for the module will be saved for manual diagnosis.
Jun 13 07:51:24 sol5002 IMPACT: Automated diagnosis and response for subsequent events associated with this module will not occur.
Envie un explorer del equipo y explorer de la SC para que lo analizaran en Oracle.
Jun 13 07:51:24 sol5002 EVENT-TIME: Wed Jun 13 07:51:24 ART 2012
Jun 13 07:51:24 sol5002 PLATFORM: SUNW,Sun-Fire-15000, CSN: -, HOSTNAME: sol5002
Jun 13 07:51:24 sol5002 SOURCE: fmd-self-diagnosis, REV: 1.0
Jun 13 07:51:24 sol5002 EVENT-ID: 2ad4ec18-b1a4-eca0-a67d-a268a7af7071
Jun 13 07:51:24 sol5002 DESC: A Solaris Fault Manager component has experienced an error that required the module to be disabled. Refer to http://sun.com/msg/FMD-8000-2K for more information.
Jun 13 07:51:24 sol5002 AUTO-RESPONSE: The module has been disabled. Events destined for the module will be saved for manual diagnosis.
Jun 13 07:51:24 sol5002 IMPACT: Automated diagnosis and response for subsequent events associated with this module will not occur.
Envie un explorer del equipo y explorer de la SC para que lo analizaran en Oracle.
Lo
que vi, fue que la falla estaria en el dimm de memoria J16301 . de la
SB1,P3,B1
Lo
primero que vieron en el analisis del explorer fue lo siguiente
:
*///Salida del FMA confirma evento de hardware.
::::::::::::::
fmadm-faulty.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
faulted fmd:///module/cpumem-diagnosis
2ad4ec18-b1a4-eca0-a67d-a268a7af7071
*///La probalidad de falla es del 100% en memoria RAM, pero no apunta a un FRU especfico.
fmdump-vu_2ad4ec18-b1a4-eca0-a67d-a268a7af7071.out
::::::::::::::
TIME UUID SUNW-MSG-ID
Jun 13 07:51:24.7743 2ad4ec18-b1a4-eca0-a67d-a268a7af7071 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
*///Numero alto de errores en DIMM
fmdump-e.out
::::::::::::::
TIME CLASS
Jun 13 03:09:59.7741 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7740 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7736 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7733 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7731 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7730 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7730 ereport.cpu.ultraSPARC-IVplus.ce
*///Ubicando el origen exacto de la falla, multiples dimms en SB1 involucrados.
::::::::::::::
TIME UUID SUNW-MSG-ID
Jun 13 07:51:24.7743 2ad4ec18-b1a4-eca0-a67d-a268a7af7071 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
*///Numero alto de errores en DIMM
fmdump-e.out
::::::::::::::
TIME CLASS
Jun 13 03:09:59.7741 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7740 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7736 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7733 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7731 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7730 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 03:09:59.7730 ereport.cpu.ultraSPARC-IVplus.ce
*///Ubicando el origen exacto de la falla, multiples dimms en SB1 involucrados.
fmdump-eV.out
|grep unum|more
unum = SB1/P2/B1/D0 J15301
unum = SB1/P1/B1/D0 J14301
unum = SB1/P2/B0/D0 J15300
unum = SB1/P3/B0/D0 J16300
unum = SB1/P3/B1/D0 J16301
unum = SB1/P2/B1/D0 J15301
unum = SB1/P1/B1/D0 J14301
unum = SB1/P2/B0/D0 J15300
unum = SB1/P3/B0/D0 J16300
unum = SB1/P3/B1/D0 J16301
unum
= SB1/P0/B0/D0 J13300
unum = SB1/P1/B0/D0 J14300
unum = SB1/P0/B1/D0 J13301
unum = SB1/P2/B0/D0 J15300
unum = SB1/P0/B0/D0 J13300
unum = SB1/P0/B1/D0 J13301
unum = SB1/P1/B0/D0 J14300
unum = SB1/P0/B1/D0 J13301
unum = SB1/P2/B0/D0 J15300
unum = SB1/P0/B0/D0 J13300
unum = SB1/P0/B1/D0 J13301
1er conclusion
Luego,
del analisis del ingeniero del caso, realizado al explorer de la
System controller, nos indica que hay muchos RSTOPS reportados,
comenzaron en Junio 10, apuntando a DIMMs de SB1/P1
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716936303484 NOTICE StartupManager.cc 2602] efhd output: ECC correctable errors detected from Processor Port SB1/P1, no
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944070151 NOTICE StartupManager.cc 2602] efhd output: corresponding parity error in DXs or DCDSs.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944567150 NOTICE StartupManager.cc 2602] efhd output: Assuming the error originated in memory on this port.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944976756 NOTICE StartupManager.cc 2602] efhd output: Data syndrome 049 is CE bit 49.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716945364851 NOTICE StartupManager.cc 2602] efhd output: This bit is in one of Dimm SB1/P1/B0/D0 or Dimm SB1/P1/B1/D0.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716936303484 NOTICE StartupManager.cc 2602] efhd output: ECC correctable errors detected from Processor Port SB1/P1, no
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944070151 NOTICE StartupManager.cc 2602] efhd output: corresponding parity error in DXs or DCDSs.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944567150 NOTICE StartupManager.cc 2602] efhd output: Assuming the error originated in memory on this port.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716944976756 NOTICE StartupManager.cc 2602] efhd output: Data syndrome 049 is CE bit 49.
Jun 10 12:14:13 2012 e25k-5-sc0 ssd[1091]: [1319 7280716945364851 NOTICE StartupManager.cc 2602] efhd output: This bit is in one of Dimm SB1/P1/B0/D0 or Dimm SB1/P1/B1/D0.
Jun
10 12:15:24 2012 e25k-5-sc0 dsmd[27493]: [2517 7280787849650558
WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:16:14 2012 e25k-5-sc0 dsmd[27493]: [2517 7280837789222307 WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:16:46 2012 e25k-5-sc0 dsmd[27493]: [2517 7280869346469788 WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:17:02 2012 e25k-5-sc0 dsmd[27493]: [2517 7280886045362988 WARNING Domain.cc 591] Record stop has been detected in domain B.
El 12 de Junio, mas rstops, esta vez sobre DIMMs de SB1/P2
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096796647204 NOTICE StartupManager.cc 2602] efhd output: This bit is in one of Dimm SB1/P2/B0/D0 or Dimm SB1/P2/B1/D0.
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797043039 NOTICE StartupManager.cc 2602] efhd output: Bank/Dimm fault attribution for data CEs is the responsibility of
Jun 10 12:16:14 2012 e25k-5-sc0 dsmd[27493]: [2517 7280837789222307 WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:16:46 2012 e25k-5-sc0 dsmd[27493]: [2517 7280869346469788 WARNING Domain.cc 591] Record stop has been detected in domain B.
Jun 10 12:17:02 2012 e25k-5-sc0 dsmd[27493]: [2517 7280886045362988 WARNING Domain.cc 591] Record stop has been detected in domain B.
El 12 de Junio, mas rstops, esta vez sobre DIMMs de SB1/P2
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096796647204 NOTICE StartupManager.cc 2602] efhd output: This bit is in one of Dimm SB1/P2/B0/D0 or Dimm SB1/P2/B1/D0.
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797043039 NOTICE StartupManager.cc 2602] efhd output: Bank/Dimm fault attribution for data CEs is the responsibility of
Jun
12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797435634 NOTICE
StartupManager.cc 2602] efhd output: lpost or domain software which
has address information that
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797824449 NOTICE StartupManager.cc 2602] efhd output: allows error attribution to a bank. No action taken here.
NW,UltraSPARC-IV+:send_one_mondo+160 (24, 24, 995c5647, 1, 18b1448, 1)
*///Finalmente viene el panic en el dominio en Junio 13.
Jun 13 06:39:34 sol5002 ^Mpanic[cpu35]/thread=2a100a77cc0:
Jun 13 06:39:34 sol5002 unix: [ID 862289 kern.notice] send mondo timeout (target 0x24) [1470496 NACK 0 BUSY]
Jun 13 06:39:34 sol5002 unix: [ID 100000 kern.notice]
Jun 12 19:37:13 2012 e25k-5-sc0 ssd[1091]: [1319 7480096797824449 NOTICE StartupManager.cc 2602] efhd output: allows error attribution to a bank. No action taken here.
NW,UltraSPARC-IV+:send_one_mondo+160 (24, 24, 995c5647, 1, 18b1448, 1)
*///Finalmente viene el panic en el dominio en Junio 13.
Jun 13 06:39:34 sol5002 ^Mpanic[cpu35]/thread=2a100a77cc0:
Jun 13 06:39:34 sol5002 unix: [ID 862289 kern.notice] send mondo timeout (target 0x24) [1470496 NACK 0 BUSY]
Jun 13 06:39:34 sol5002 unix: [ID 100000 kern.notice]
*////El
rstop mas cercano a esa hora, es este. Donde se reporta falla en los
procesadores P2 y P1. de la
SB1.-------------------------------------------------------------------
desde la SC, dentro de /var/opt/SUNWMS/adm/B/dump , podemos ver el log de los record stop
redxl> dumpf load dsmd.rstop.120613.0647.41
Created Wed Jun 13 06:47:41 2012
By hpost v. 1.6 Generic 124319-04 Oct 12 2007 11:30:48 executing as pid=20198
On ssc name: e25k-5-sc0.
Primary service FRU is Slot SB1.
redxl> wfail -B
port SB1/P2 # redx wfail of dump 120613.0447.41
port SB1/P3 # redx wfail of dump 120613.0447.41
CONCLUSION de los ingenieros de Oracle
==============================
desde la SC, dentro de /var/opt/SUNWMS/adm/B/dump , podemos ver el log de los record stop
redxl> dumpf load dsmd.rstop.120613.0647.41
Created Wed Jun 13 06:47:41 2012
By hpost v. 1.6 Generic 124319-04 Oct 12 2007 11:30:48 executing as pid=20198
On ssc name: e25k-5-sc0.
Primary service FRU is Slot SB1.
redxl> wfail -B
port SB1/P2 # redx wfail of dump 120613.0447.41
port SB1/P3 # redx wfail of dump 120613.0447.41
CONCLUSION de los ingenieros de Oracle
==============================
Panic
producido
por
falla
de
hardware
en
SB1.
PLAN
de ACCION
===========
Reemplazo de SB1
540-6753
540-6753 [F] CPU/Memory Uniboard w/4× US IV+ 1.8GHz, 0MB
===========
Reemplazo de SB1
540-6753
540-6753 [F] CPU/Memory Uniboard w/4× US IV+ 1.8GHz, 0MB
Se
recomienda altamente actualizar los patches de kernel para un mejor
control de estos eventos.
Referencia:
Systems With UltraSPARC IV+ Processors Running Solaris 9 or 10 May Experience "send mondo timeout" Panic (Doc ID 1019109.1)
Referencia:
Systems With UltraSPARC IV+ Processors Running Solaris 9 or 10 May Experience "send mondo timeout" Panic (Doc ID 1019109.1)
Eso
hicimos, instalamos los parches recomendados , pero …....
Luego de reemplazar la System Board, y memoria
El equipo levanto.
Luego del boot, se chequeo los eventos fma y vimos esta condicion
fmd:///module/cpumem-diagnosis degraded, se le hizo un fmadm repair y lo reparo.
Luego de reemplazar la System Board, y memoria
El equipo levanto.
Luego del boot, se chequeo los eventos fma y vimos esta condicion
fmd:///module/cpumem-diagnosis degraded, se le hizo un fmadm repair y lo reparo.
el fmdump muestra eventos
anteriores sobre el mismo modulo.
Envio
el explorer y la contestacion fue :
Hemos
revisado
la
información
del
explorer
del
dominio
,
luego
del
cambio
de
la
SB1.
//La
salida
del
comando
'fmadm
faulty"
no
muestra
enventos.
::::::::::::::
fmadm-faulty.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
//La salida del comando "fmadm faulty -a" siempre mostrara los eventos anteriores. Estos ya no requieren ninguna accion.
::::::::::::::
fmadm-faulty.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
//La salida del comando "fmadm faulty -a" siempre mostrara los eventos anteriores. Estos ya no requieren ninguna accion.
:::::::::::::
fmadm-faulty-a.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e70d5a
ff12f344-8d86-eac6-832b-92ac8e1063eb
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e712fa
7ea9887b-6631-4a28-806e-d74a61cd4733
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e7368e
44d9d55f-8277-cdeb-f205-8ca3a2d52ab6
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=227500dc
fmadm-faulty-a.out
::::::::::::::
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e70d5a
ff12f344-8d86-eac6-832b-92ac8e1063eb
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e712fa
7ea9887b-6631-4a28-806e-d74a61cd4733
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e7368e
44d9d55f-8277-cdeb-f205-8ca3a2d52ab6
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=227500dc
d100412a-3592-493e-95f1-d460a157e15b
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=4657339a
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=4657339a
//El
FMA (fmdump -e ) reporta eventos nuevamente uhhhh
Jun 13 17:30:30.2977 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.293 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3054 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3113 ereport.cpu.ultraSPARC-IVplus.ce
*///Estos son los DIMMS involucrados.
unum = SB1/P3/B0/D0 J16300
unum = SB1/P2/B0/D0 J15300
unum = SB1/P1/B1/D0 J14301
unum = SB1/P3/B1/D0 J16301
Jun 13 17:30:30.2977 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.293 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3054 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3113 ereport.cpu.ultraSPARC-IVplus.ce
*///Estos son los DIMMS involucrados.
unum = SB1/P3/B0/D0 J16300
unum = SB1/P2/B0/D0 J15300
unum = SB1/P1/B1/D0 J14301
unum = SB1/P3/B1/D0 J16301
Me
pidieron otro explorer del equipo y de la System Controller
Envie
un explorer de la sc y me contestaron :
// El
ultimo rstop registrado en el equipo, se presento el dia de hoy, 13
de Junio, a las 15:01 horas.
-rw-r--r-- 1 sctools other 2288 Jun 13 15:00 wfailoutput.120613.1659.57
-rw-r--r-- 1 sctools other 1934 Jun 13 15:00 wfailoutput.120613.1700.32
-rw-r--r-- 1 sctools other 2288 Jun 13 15:01 wfailoutput.120613.1701.16
-rw-r--r-- 1 sctools other 2288 Jun 13 15:00 wfailoutput.120613.1659.57
-rw-r--r-- 1 sctools other 1934 Jun 13 15:00 wfailoutput.120613.1700.32
-rw-r--r-- 1 sctools other 2288 Jun 13 15:01 wfailoutput.120613.1701.16
El
ultimo
POST
registrado
en
el
equipo,
nos
indica
a
que
hora
fue
remplazada
la
system
board
y
la
ultima
vez
en
que
el
dominio
fue
encendido.
/// Los logs nos dan la misma fecha: 13 de Junio a las 15:01 horas:-rw-r--r-- 1 sctools other 1035 Jun 13 15:00 post120613.1700.10.log
-rw-r--r-- 1 sctools other 924 Jun 13 15:00 post120613.1700.33.log
-rw-r--r-- 1 sctools other 1035 Jun 13 15:00 post120613.1700.52.log
-rw-r--r-- 1 sctools other 924 Jun 13 15:01 post120613.1701.16.log
-rw-r--r-- 1 sctools other 1035 Jun 13 15:01 post120613.1701.27.log <----
/// Esta es la hora en la que se capturo el explorer de la SC:
/// Los logs nos dan la misma fecha: 13 de Junio a las 15:01 horas:-rw-r--r-- 1 sctools other 1035 Jun 13 15:00 post120613.1700.10.log
-rw-r--r-- 1 sctools other 924 Jun 13 15:00 post120613.1700.33.log
-rw-r--r-- 1 sctools other 1035 Jun 13 15:00 post120613.1700.52.log
-rw-r--r-- 1 sctools other 924 Jun 13 15:01 post120613.1701.16.log
-rw-r--r-- 1 sctools other 1035 Jun 13 15:01 post120613.1701.27.log <----
/// Esta es la hora en la que se capturo el explorer de la SC:
===========
SUN(TM) EXPLORER DATA COLLECTOR (Version 5.10) =======
== Esto indica que desde las 15:01, hora en que se levanto por ultima vez el dominio, hasta las 20:42, hora en que se recolecto el explorer, no se han presentado nuevos record stops.
REVISANDO EL EXPLORER DEL DOMINIO
=================================
/ El fma faulty no muestra errores:
$ more fmadm-faulty.ou
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
/// El fmadm faulty -i tampoco aparecen errores:
$ more fmadm-faulty-i.out
STATE RESOURCE / CACHE-ID
-------- ----------------------------------------------------------------------
// Es en el fmdump -a donde aparecen errores de memoria, pero no se muestra la fecha de origen de dichos eventos:
== Esto indica que desde las 15:01, hora en que se levanto por ultima vez el dominio, hasta las 20:42, hora en que se recolecto el explorer, no se han presentado nuevos record stops.
REVISANDO EL EXPLORER DEL DOMINIO
=================================
/ El fma faulty no muestra errores:
$ more fmadm-faulty.ou
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
/// El fmadm faulty -i tampoco aparecen errores:
$ more fmadm-faulty-i.out
STATE RESOURCE / CACHE-ID
-------- ----------------------------------------------------------------------
// Es en el fmdump -a donde aparecen errores de memoria, pero no se muestra la fecha de origen de dichos eventos:
ATE
RESOURCE / UUID
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e70d5a
ff12f344-8d86-eac6-832b-92ac8e1063eb
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e712fa
7ea9887b-6631-4a28-806e-d74a61cd4733
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e7368e
44d9d55f-8277-cdeb-f205-8ca3a2d52ab6
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=227500dc
d100412a-3592-493e-95f1-d460a157e15b
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=4657339a
296a078c-9763-6c57-f7c9-89a413657bdc
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e70d5a
ff12f344-8d86-eac6-832b-92ac8e1063eb
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e712fa
7ea9887b-6631-4a28-806e-d74a61cd4733
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P0/B1/D0,J13301/offset=22e7368e
44d9d55f-8277-cdeb-f205-8ca3a2d52ab6
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=227500dc
d100412a-3592-493e-95f1-d460a157e15b
-------- ----------------------------------------------------------------------
faulted mem:///unum=SB1/P1/B0/D0,J14300/offset=4657339a
296a078c-9763-6c57-f7c9-89a413657bdc
En
el
fmdump
-e,
aparecen
algunos
errores
que
parecieran
indicar
errores
de
ecc
en
memoria
y
cpu:
bash-3.2$ tail fmdump-e.out
Jun 13 17:30:20.8827 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 17:30:22.9015 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:22.9015 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 17:30:24.8022 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:26.8814 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 17:30:30.1206 ereport.io.xmits.ecc.dwce
Jun 13 17:30:30.2977 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.2993 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3054 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3113 ereport.cpu.ultraSPARC-IVplus.ce// Estos son todos los archivos fmdump -vu recolectados en el explorer:
bash-3.2$ ls -lrt | grep fmdump-vu
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_2bd9feed-7269-c64a-8f54-a269a93cec55.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_ca963465-a151-cc2d-9521-a8e0e6749a70.out-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_d002087b-50d0-64c8-fe5a-8de2099fa3b4.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_bd302929-fe79-49bd-b1b4-9c9599c7f7db.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_d1c88b3a-affd-c8fd-b7ad-e161f51f7c2d.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_92f53876-b809-4969-d00d-dac6859754b6.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:31 fmdump-vu_210c66e3-a939-62c6-d0e3-8b040b97ff82.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:31 fmdump-vu_cdf55e54-0758-6e26-9f46-de77a562dd5a.out
bash-3.2$ tail fmdump-e.out
Jun 13 17:30:20.8827 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 17:30:22.9015 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:22.9015 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 17:30:24.8022 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:26.8814 ereport.cpu.ultraSPARC-IVplus.ce
Jun 13 17:30:30.1206 ereport.io.xmits.ecc.dwce
Jun 13 17:30:30.2977 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.2993 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3054 ereport.cpu.ultraSPARC-IVplus.ivc
Jun 13 17:30:30.3113 ereport.cpu.ultraSPARC-IVplus.ce// Estos son todos los archivos fmdump -vu recolectados en el explorer:
bash-3.2$ ls -lrt | grep fmdump-vu
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_2bd9feed-7269-c64a-8f54-a269a93cec55.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_ca963465-a151-cc2d-9521-a8e0e6749a70.out-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_d002087b-50d0-64c8-fe5a-8de2099fa3b4.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_bd302929-fe79-49bd-b1b4-9c9599c7f7db.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_d1c88b3a-affd-c8fd-b7ad-e161f51f7c2d.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:30 fmdump-vu_92f53876-b809-4969-d00d-dac6859754b6.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:31 fmdump-vu_210c66e3-a939-62c6-d0e3-8b040b97ff82.out
-rwxrwxrwx+ 1 root staff 320 Jun 13 15:31 fmdump-vu_cdf55e54-0758-6e26-9f46-de77a562dd5a.out
/
Revisando del ultimo hacia el primero, se encuentra que siempre se
reporta un error en el modulo de fma llamado
cpumem-diagnosis:
bash-3.2$ more fmdump-vu_fde87c22-19d6-e8c6-a9a6-a80bb9a1dcf4.out
TIME UUID SUNW-MSG-ID
Jun 13 09:03:58.0344 fde87c22-19d6-e8c6-a9a6-a80bb9a1dcf4 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
bash-3.2$ more fmdump-vu_e2ca8c9b-20e2-c419-a73a-e3f0f3198fd2.out
TIME UUID SUNW-MSG-ID
bash-3.2$ more fmdump-vu_fde87c22-19d6-e8c6-a9a6-a80bb9a1dcf4.out
TIME UUID SUNW-MSG-ID
Jun 13 09:03:58.0344 fde87c22-19d6-e8c6-a9a6-a80bb9a1dcf4 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
bash-3.2$ more fmdump-vu_e2ca8c9b-20e2-c419-a73a-e3f0f3198fd2.out
TIME UUID SUNW-MSG-ID
Jun
13 08:46:46.2303 e2ca8c9b-20e2-c419-a73a-e3f0f3198fd2
FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
bash-3.2$ more fmdump-vu_2ad4ec18-b1a4-eca0-a67d-a268a7af7071.out
TIME UUID SUNW-MSG-ID
Jun 13 07:51:24.7743 2ad4ec18-b1a4-eca0-a67d-a268a7af7071 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
bash-3.2$ more fmdump-vu_2ad4ec18-b1a4-eca0-a67d-a268a7af7071.out
TIME UUID SUNW-MSG-ID
Jun 13 07:51:24.7743 2ad4ec18-b1a4-eca0-a67d-a268a7af7071 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU:
-
Location: -
bash-3.2$ more fmdump-vu_2af501d9-6d9b-cc47-bfd9-b27d4214a161.out
TIME UUID SUNW-MSG-ID
Jun 08 02:41:09.9915 2af501d9-6d9b-cc47-bfd9-b27d4214a161 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
bash-3.2$ more fmdump-vu_9512e0a0-f65f-4d3d-8010-c94ad974d5de.out
TIME UUID SUNW-MSG-ID
Jun 01 02:40:48.2977 9512e0a0-f65f-4d3d-8010-c94ad974d5de FMD-8000-2K
Location: -
bash-3.2$ more fmdump-vu_2af501d9-6d9b-cc47-bfd9-b27d4214a161.out
TIME UUID SUNW-MSG-ID
Jun 08 02:41:09.9915 2af501d9-6d9b-cc47-bfd9-b27d4214a161 FMD-8000-2K
100% defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
bash-3.2$ more fmdump-vu_9512e0a0-f65f-4d3d-8010-c94ad974d5de.out
TIME UUID SUNW-MSG-ID
Jun 01 02:40:48.2977 9512e0a0-f65f-4d3d-8010-c94ad974d5de FMD-8000-2K
100%
defect.sunos.fmd.module
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
== Esta informacion nos direcciona hacia un posible error o bug del fma.
Plan de accion.
1) Limpiar logs de fma.
(aun no se han limpiado todos, ya que en el explorer hay logs con fecha del 1 de Junio y anteriores; si estuviera completamente limpio, veriamos solo logs de fma del dia de hoy).
Problem in: fmd:///module/cpumem-diagnosis
Affects: fmd:///module/cpumem-diagnosis
FRU: -
Location: -
== Esta informacion nos direcciona hacia un posible error o bug del fma.
Plan de accion.
1) Limpiar logs de fma.
(aun no se han limpiado todos, ya que en el explorer hay logs con fecha del 1 de Junio y anteriores; si estuviera completamente limpio, veriamos solo logs de fma del dia de hoy).
Favor
de aplicar todos los pasos.
Clearing FMA Faults from the O/S
================================
Please run the following commands from the O/S:
1. Run the fmadm faulty command
# fmadm faulty
When you run the fmadm faulty command you may see the output similar to below, and it is the long hex number that is the UUID
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
degraded dev:////pci@8,700000 d83323bd-f87b-6cc9-f754-c62f479c7706
Clearing FMA Faults from the O/S
================================
Please run the following commands from the O/S:
1. Run the fmadm faulty command
# fmadm faulty
When you run the fmadm faulty command you may see the output similar to below, and it is the long hex number that is the UUID
STATE RESOURCE / UUID
-------- ----------------------------------------------------------------------
degraded dev:////pci@8,700000 d83323bd-f87b-6cc9-f754-c62f479c7706
--------
----------------------------------------------------------------------
**NOTE: if fmadm comes back clean, skip to step 3 and continue
2. Run the fmadm repair command on all the UUIDs.
Since you will probably see the same UUID for each event, you will only need to repair that UUID. If you see different UUIDs, run it on each one.
# fmadm repair d83323bd-f87b-6cc9-f754-c62f479c7706
3. Clear ereports and resource cache
# cd /var/fm/fmd
# rm e* f* c*/eft/* r*/*
4. Reset the fmd serd modules
**NOTE: if fmadm comes back clean, skip to step 3 and continue
2. Run the fmadm repair
Since you will probably see the same UUID for each event, you will only need to repair that UUID. If you see different UUIDs, run it on each one.
# fmadm repair d83323bd-f87b-6cc9-f754-c62f479c7706
3. Clear ereports and resource cache
# cd /var/fm/fmd
# rm e* f* c*/eft/* r*/*
4. Reset the fmd serd modules
#
fmadm reset cpumem-diagnosis
# fmadm reset cpumem-retire
# fmadm reset eft
# fmadm reset io-retire
5. Reboot the system to clear the errors.
En este punto, es necesario monitorear si aparecen nuevos errores de fma despues del reboot.
2) Si llegara a suceder que el problema continuara (que aparecieran nuevos errores de fma), entonces sera necesario aplicar un POST 96 al dominio ,para descartar en su totalidad que haya una falla de hardware en el system board, memoria o en el expander board.
Para correr el POST 96, es necesario dar de baja y apagar el dominio con un setkeyswitch off y encenderlo con el siguiente comando:
# fmadm reset cpumem-retire
# fmadm reset eft
# fmadm reset io-retire
5. Reboot the system to clear the errors.
En este punto, es necesario monitorear si aparecen nuevos errores de fma despues del reboot.
2) Si llegara a suceder que el problema continuara (que aparecieran nuevos errores de fma), entonces sera necesario aplicar un POST 96 al dominio ,para descartar en su totalidad que haya una falla de hardware en el system board, memoria o en el expander board.
Para correr el POST 96, es necesario dar de baja y apagar el dominio con un setkeyswitch off y encenderlo con el siguiente comando:
setkeyswitch
-d B -l 96 on
donde "B" es el identificador del dominio y "l" es el nivel del POST
A esta Altura, el ingeniero de Oracle, recomendo cambiar el EXPANDER BOARD ( ya habiamos reemplazados 2 SB y Memorias )
donde "B" es el identificador del dominio y "l" es el nivel del POST
A esta Altura, el ingeniero de Oracle, recomendo cambiar el EXPANDER BOARD ( ya habiamos reemplazados 2 SB y Memorias )
Al momento, las cosas venian asi :
El
equipo venia presentando record stops desde Diciembre, pero el 13 de
Junio a las 07:51 presento un panic.
Con la ayuda de un ingeniero de campo, reemplazamos la system board y todos los dimms de memoria, pero el problema continuaba. Entonces se remplazo tambien la expander board pero el problema persiste.
Se corrio un post 96 con todo este nuevo hardware y no aparecio ningun error.
Con la ayuda de un ingeniero de campo, reemplazamos la system board y todos los dimms de memoria, pero el problema continuaba. Entonces se remplazo tambien la expander board pero el problema persiste.
Se corrio un post 96 con todo este nuevo hardware y no aparecio ningun error.
El
ingeniero en sitio hizo la prueba de hacer un boot del dominio desde
un dvd de solaris en una version mas reciente a la que esta instalada
en el equipo (utilizo Solaris 10 Release 09/10)y el problema
persistio, se siguieron presentando los record stops en el dominio.
A esta altura es un kilombo, esto seria un resumen
====================
El equipo genera record stops todo el tiempo cuando el sistema operativo esta corriendo. Los record stops indican problemas en los cpus.
En el sistema operativo, se presentan mensajes de fma que indican errores de memoria.
AUN NO HEMOS PODIDO DETERMINAR SI EL PROBLEMA ES DE HARDWARE O DE SOFTWARE.
====================
El equipo genera record stops todo el tiempo cuando el sistema operativo esta corriendo. Los record stops indican problemas en los cpus.
En el sistema operativo, se presentan mensajes de fma que indican errores de memoria.
AUN NO HEMOS PODIDO DETERMINAR SI EL PROBLEMA ES DE HARDWARE O DE SOFTWARE.
De
acuerdo al analisis del nuevo ingeniero que tomo el caso se
desprende:
Del core generado Jun 13 9:03 ,
- El panic fue debido a un "send mondo timeout", lo cual se traduce a un excesivo numero de CE registrados, sumado a que no se tienen los parches para hacer un mejor manejo de los errores de FMA.
- Los parches de FMA estan desactualizados, se deben actualizar para mejorar el manejo de los mensajes de error (rstops)
- La SB actual no presenta falla en ninguno de sus componentes en Post 96 , pero los rstops siguen generandose.
Del core generado Jun 13 9:03 ,
- El panic fue debido a un "send mondo timeout", lo cual se traduce a un excesivo numero de CE registrados, sumado a que no se tienen los parches para hacer un mejor manejo de los errores de FMA.
- Los parches de FMA estan desactualizados, se deben actualizar para mejorar el manejo de los mensajes de error (rstops)
- La SB actual no presenta falla en ninguno de sus componentes en Post 96 , pero los rstops siguen generandose.
$
strings vmcore.0 |
head
SunOS
sol5002
5.10
Generic_127111-09
sun4u
SUNW,Sun-Fire-15000
send mondo timeout (target 0x24) [1470496 NACK 0 BUSY] --* Indica el problema antes mencionado!!
.symtab
.strtab
.shstrtab
Anexo link con informacion al respecto :
SunOS
sol5002
5.10
Generic_127111-09
sun4u
SUNW,Sun-Fire-15000
send mondo timeout (target 0x24) [1470496 NACK 0 BUSY] --* Indica el problema antes mencionado!!
.symtab
.strtab
.shstrtab
Anexo link con informacion al respecto :
https://support.us.oracle.com/oip/faces/secure/km/DocumentDisplay.jspx?id=1019109.1&h=Y
https://support.us.oracle.com/oip/faces/secure/km/DocumentDisplay.jspx?id=1000495.1&h=Y
patch 125369-03 esta obsoleto y reemplazado por 127755-01
patch 137111-01 esta obsoleto y reemplazado por 137137-09
*** Rstops :
------------
Cambian un poco en relacion al Hw instalado pero me da la impresion que la mayor parte de ellos hacen referencia a CE.
por lo que la instalacion de los parches de FMA son necesarios
https://support.us.oracle.com/oip/faces/secure/km/DocumentDisplay.jspx?id=1000495.1&h=Y
patch 125369-03 esta obsoleto y reemplazado por 127755-01
patch 137111-01 esta obsoleto y reemplazado por 137137-09
*** Rstops :
------------
Cambian un poco en relacion al Hw instalado pero me da la impresion que la mayor parte de ellos hacen referencia a CE.
por lo que la instalacion de los parches de FMA son necesarios
-Current
Action
Plan:
--------------------------------------------------------------
1.- Instalar parches faltantes de FMA:
FMA Patch 127755 missing (rps -01, current -01): SunOS 5.10: Fault Manager patch
FMA Patch 127127 missing (rps -11, current -11): SunOS 5.10: kernel patch
FMA Patch 137137 missing (rps -09, current -09): SunOS 5.10: kernel patch
FMA Patch 139555 missing (rps -08, current -08): SunOS 5.10: Kernel Patch
FMA Patch 141444 missing (rps -09, current -09): SunOS 5.10: kernel patch
FMA Patch 142909 missing (rps -17, current -17): SunOS 5.10: kernel patch
FMA Patch 144500 missing (rps -19, current -19): SunOS 5.10: Solaris kernel patch
FMA Patch 147790 missing (current -01): SunOS 5.10: fmd patch
FMA Patch 146582 missing (current -02): SunOS 5.10: fmadm patch
FMA Patch 147705 missing (rps -01, current -02): SunOS 5.10: pciex patch
--------------------------------------------------------------
1.- Instalar parches faltantes de FMA:
FMA Patch 127755 missing (rps -01, current -01): SunOS 5.10: Fault Manager patch
FMA Patch 127127 missing (rps -11, current -11): SunOS 5.10: kernel patch
FMA Patch 137137 missing (rps -09, current -09): SunOS 5.10: kernel patch
FMA Patch 139555 missing (rps -08, current -08): SunOS 5.10: Kernel Patch
FMA Patch 141444 missing (rps -09, current -09): SunOS 5.10: kernel patch
FMA Patch 142909 missing (rps -17, current -17): SunOS 5.10: kernel patch
FMA Patch 144500 missing (rps -19, current -19): SunOS 5.10: Solaris kernel patch
FMA Patch 147790 missing (current -01): SunOS 5.10: fmd patch
FMA Patch 146582 missing (current -02): SunOS 5.10: fmadm patch
FMA Patch 147705 missing (rps -01, current -02): SunOS 5.10: pciex patch
FMA
Patch 147778 missing (current -01): SunOS 5.10: fmd patch
FMA Patch 148629 missing (current -01): SunOS 5.10: xaui patch
2.- Reiniciar equipo y verificar que haya reducido o detenido el numero de rstops
FMA Patch 148629 missing (current -01): SunOS 5.10: xaui patch
2.- Reiniciar equipo y verificar que haya reducido o detenido el numero de rstops
Se
abrieron dos escalaciones técnicas, a ingenieros de Kernel y a Ingenieros de Sparc
De las dos escalaciones se logra concluir:
1)causa del panic reportado por cliente en este SR:
Could be a hardware or OBP, firmware and fma patch issues.
Solucion:
Actulizar patches de OS
Solucion implementada:
Patches recomendados del EIS-March-2012 fueron aplicados anoche por FEs.
De las dos escalaciones se logra concluir:
1)causa del panic reportado por cliente en este SR:
Could be a hardware or OBP, firmware and fma patch issues.
Solucion:
Actulizar patches de OS
Solucion implementada:
Patches recomendados del EIS-March-2012 fueron aplicados anoche por FEs.
2)Respecto
a los Rstops.
Estos vienen ocurriendo desde el 2011, son del tipo CE, "errores corregibles" por lo que no
requieren accion.
Solo si el FMA del dominio los reporta deberan ser reemplazados. No se deben cambiar DIMMS que no
esten reportados en logs del FMA.
Plan de accion
================
1. Actualizar patches de SC-SMS
Estos vienen ocurriendo desde el 2011, son del tipo CE, "errores corregibles" por lo que no
requieren accion.
Solo si el FMA del dominio los reporta deberan ser reemplazados. No se deben cambiar DIMMS que no
esten reportados en logs del FMA.
Plan de accion
================
1. Actualizar patches de SC-SMS
Correr
post en nivel 127 domain B.
El post 127 tarda aprox 70 minutos
El post 127 tarda aprox 70 minutos
_________________________________-
Esto
conteste yo
Se
realizo, el ultimo action plan, que consistia en la instalacion de parches
de SC-SMS + un setkeyswitch -d B -l 127.
Al levantar el dominio luego de pocos minutos el FMA reporta errores nuevamente:
[sol5002] /opt/SUNWexplo/output # fmdump -v
TIME UUID SUNW-MSG-ID
Jun 16 02:54:24.5023 79a1d7cf-9a4a-cd58-b57b-ca35d705af4c SUN4U-8001-32
100% fault.memory.datapath
Problem in: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
Affects: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
FRU: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
Location: -
Al levantar el dominio luego de pocos minutos el FMA reporta errores nuevamente:
[sol5002] /opt/SUNWexplo/output # fmdump -v
TIME UUID SUNW-MSG-ID
Jun 16 02:54:24.5023 79a1d7cf-9a4a-cd58-b57b-ca35d705af4c SUN4U-8001-32
100% fault.memory.datapath
Problem in: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
Affects: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
FRU: hc://:product-id=SUNW,Sun-Fire-15000:server-id=sol5002/component=EX1
Location: -
A
esta altura ( empezamos un miercoles a las 7am y terminamos un
sabado 15 hs ) el ingeniero de campo Ojea Quintana tuvo la solucion
final.
Probamos
de levantar el sistema operativo con las placas de red unplumbed y
levanta sin RecordStop (es decir, sin fallas).
El problema se acoto a lo que es el IO Board, y se reemplazo la IO1 (501-7394 que es el IO board completo).
El problema se acoto a lo que es el IO Board, y se reemplazo la IO1 (501-7394 que es el IO board completo).
El cluster levanto sin errores de ningún tipo.
Suscribirse a:
Entradas (Atom)