Bienvenidos

Todos estos pasos descriptos fueron probados en ambientes productivos

martes, 15 de julio de 2014

Cluster en modo mantenimiento

Para poder realizar determinadas acciones en alguno de los nodos del cluster, y que este no switchee al otro nodo, por ejemplo, poder bajar la base de datos para aplicar algun parametro , debemos poner el cluster en modo mantenimiento o suspendido.

Para poner un recurso del cluster en modo mantenimiento realizar lo siguiente :
clrg suspend cct-rg    ( con esto pongo en mantenimiento todos los recursos de CCT )



Para volver a su estado anterior y que el cluster vuelva a tomar el control, se debe tipear
clrg resume cct-rg

viernes, 4 de octubre de 2013

Dominio de 25k, caido

Dominio de 25k, caido.No responde el ping, ni el ssh , ni con un console -d al dominio
Primero me conecto a la consola, y luego apago y prendo el equipo.
Luego van surgiendo otros problemas que los voy solucionando de a uno.
[e25k-2-sc0] / # su - sms-svc
e25k-2-sc0:sms-svc:3> setkeyswitch -d g standby
Current virtual key switch position is "ON".
Are you sure you want to change to the "STANDBY" position (yes/no)? yes
Domain is up.
Sending domain shutdown request.
Domain has picked up shutdown request.
Waiting for domain to complete shutdown .............
Domain failed to shutdown.
Do you want to force a shutdown (yes/no)? yes
Waiting on exclusive access to EXB(s): 3FFFF.
Resetting and deconfiguring: V3CPU at SB11
Resetting and deconfiguring: HPCI+ at IO11
Resetting and deconfiguring: EXB at EX11
Powering on: CSB at CS0
Powering on: CSB at CS1
e25k-2-sc0:sms-svc:4> showkeyswitch -d g
Virtual key switch position: STANDBY
e25k-2-sc0:sms-svc:5>
e25k-2-sc0:sms-svc:5> setkeyswitch -d g off
Waiting on exclusive access to EXB(s): 3FFFF.
Powering off: V3CPU at SB11
Powering off: HPCI+ at IO11
Powering off: EXB at EX11
e25k-2-sc0:sms-svc:6>
e25k-2-sc0:sms-svc:6> setkeyswitch -d g on
Powering on: CSB at CS0
 Corto la salida porque es muy larga...

POST (level=16, verbose=20) execution time 9:35
e25k-2-sc0:sms-svc:7> showkeyswitch -d g
Virtual key switch position: ON
e25k-2-sc0:sms-svc:8>
e25k-2-sc0:sms-svc:8> console -d g  ( Hay que darle 2 o 3 enter)
Trying to connect...
Connected to Domain Server.
Your console is in exclusive mode now.
{160} ok boot
Boot device: rootdisk  File and args:
\
SunOS Release 5.10 Version Generic_142900-07 64-bit
Copyright 1983-2010 Sun Microsystems, Inc.  All rights reserved.
Use is subject to license terms.
Hostname: sun007
SUNW,eri0 : 100 Mbps half duplex link up
The / file system (/dev/md/rdsk/d10) is being checked.

WARNING - Unable to repair the / filesystem. Run fsck
manually (fsck -F ufs /dev/md/rdsk/d10).

Oct  3 17:44:08 svc.startd[7]: svc:/system/filesystem/usr:default: Method "/lib/svc/method/fs-usr" failed with e
xit status 95.
Oct  3 17:44:08 svc.startd[7]: system/filesystem/usr:default failed fatally: transitioned to maintenance (see 's
vcs -xv' for details)
Requesting System Maintenance Mode
(See /lib/svc/share/README for more information.)
Console login service(s) cannot run

Root password for system maintenance (control-d to bypass):
single-user privilege assigned to /dev/console.
Entering System Maintenance Mode

Oct  3 17:44:50 su: 'su root' succeeded for LOGIN on /dev/console
Sun Microsystems Inc.   SunOS 5.10      Generic January 2005
You have new mail.
Sourcing //.profile-EIS.....

TERM=vt100
[sun2007] / # fsck -F ufs /dev/md/rdsk/d10
** /dev/md/rdsk/d10
** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
UNREF FILE  I=11621  OWNER=root MODE=100644
SIZE=484 MTIME=Nov 23 21:51 2011
RECONNECT? y

LINK COUNT FILE I=11621  OWNER=root MODE=100644
SIZE=484 MTIME=Nov 23 21:51 2011  COUNT 0 SHOULD BE 1
ADJUST? y

** Phase 5 - Check Cylinder Groups

CORRECT BAD CG SUMMARIES FOR CG 278? y
CORRECTED SUPERBLOCK SUMMARIES FOR CG 278
CORRECTED SUPERBLOCK SUMMARIES FOR CG 291
1360604 files, 22794043 used, 2315764 free (157924 frags, 269730 blocks, 0.6% fragmentation)

***** FILE SYSTEM WAS MODIFIED *****
[sun2007] / # ^
[sun2007] / # fsck -y -F ufs /dev/md/rdsk/d10
** /dev/md/rdsk/d10
** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cylinder Groups
1360604 files, 22794043 used, 2315764 free (157924 frags, 269730 blocks, 0.6% fragmentation)
[sun2007] / #
[sun2007] / # fsck -y -F ufs /dev/md/rdsk/d30
** /dev/md/rdsk/d30
** Last Mounted on /var/crash
** Phase 1 - Check Blocks and Sizes
** Phase 2 - Check Pathnames
** Phase 3a - Check Connectivity
** Phase 3b - Verify Shadows/ACLs
** Phase 4 - Check Reference Counts
** Phase 5 - Check Cylinder Groups
5 files, 12 used, 10327120 free (8 frags, 1290889 blocks, 0.0% fragmentation)
[sun2007] / #

Luego un init 6
Pero al levantar me da errores el dcs
Aplique la solucion que puse hace tiempo atras en mi blog http://solaris4ever.blogspot.com.ar/2011/10/error-al-agregar-una-sb-con-dr.html?m=1

estos son los errores
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'name' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'endpoint_type' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'isrpc' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Property 'wait' of instance svc:/platform/sun4u/dcs:default is missing, inconsistent or invalid
Oct  3 18:56:11 dsun2007 inetd[427]: Unspecified inetd_start method for instance svc:/platform/sun4u/dcs:default

[sun2007] /export/zona4/root/var/spool/clientmqueue # svcs dcs
STATE          STIME    FMRI
maintenance    18:30:06 svc:/platform/sun4u/dcs:default
[sun2007] /export/zona4/root/var/spool/clientmqueue # inetadm -l dcs
SCOPE    NAME=VALUE
Error: Required property name is missing.
Error: Required property endpoint_type is missing.
Error: Required property proto is missing.
Error: Required property isrpc is missing.
Error: Required property wait is missing.
Error: Required property exec is missing.
Error: Required property user is missing.
default  bind_addr=""
default  bind_fail_max=-1
default  bind_fail_interval=-1
default  max_con_rate=-1
default  max_copies=-1
default  con_rate_offline=-1
default  failrate_cnt=40
default  failrate_interval=60
default  inherit_env=TRUE
default  tcp_trace=FALSE
default  tcp_wrappers=FALSE
default  connection_backlog=10
[sun2007] / # svcadm disable dcs
[sun2007] / # 
[sun2007] / # svcs dcs
STATE          STIME    FMRI
disabled       18:56:11 svc:/platform/sun4u/dcs:default
[sun2007] /#  svccfg -v delete dcs
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/network is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/cryptosvc is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/filesystem_usr is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/nodename is missing.
svccfg: Expected property external of property group svc:/platform/sun4u/dcs/:properties/sckmd is missing.
[sun2007] /#
[sun2007] / # svcs dcs
svcs: Pattern 'dcs' doesn't match any instances
STATE          STIME    FMRI
[sun2007] / # svccfg -v import /var/svc/manifest/platform/sun4u/dcs.xml
svccfg: Taking "initial" snapshot for svc:/platform/sun4u/dcs:default.
svccfg: Taking "last-import" snapshot for svc:/platform/sun4u/dcs:default.
svccfg: Refreshed svc:/platform/sun4u/dcs:default.
svccfg: Successful import.
[sun2007] / # svcs dcs
STATE          STIME    FMRI
disabled       19:04:43 svc:/platform/sun4u/dcs:default
[sun2007] / #
[sun2007] / # svcadm enable dcs
[sun2007] /# svcs dcs
STATE          STIME    FMRI
online         19:06:24 svc:/platform/sun4u/dcs:default
[sun2007] / #

martes, 7 de mayo de 2013

tar remoto

Rapido y sencillo  tar remoto

Copiar el filesystem /var/mqm/local en el equipo 10.78.33.XX y descomprimirlo en el destino en el filesystem /var/mqm/local

Pararme en el equipo origen, desde el cual extraere los datos

cd /var/mqm
tar cvf - local | ssh -l root 10.78.33.XX  "(cd /var/mqm ; tar xvf - )"


miércoles, 24 de abril de 2013

Diferencia entre la salida del luxadm y fcinfo hba-port


Luego de  conectar 2 cables de fibra a un m5000 y al switch de fibras del storage,
 y ambas con link del lado del equipo y del storage, chequeo como ve el solaris las conecciones estas y noto que :
la salida del luxadm -e port y del comando fcinfo hba-port difieren.
Con el luxadm veo solo 1 fibra conectada y con el fcinfo veo las 2 en online.

# luxadm -e port
/devices/pci@2,600000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
/devices/pci@2,600000/SUNW,qlc@0,1/fp@0,0:devctl                   CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0/fp@0,0:devctl         NOT CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0,1/fp@0,0:devctl       NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0,1/fp@0,0:devctl                   NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
#

 # fcinfo hba-port|grep Stat
        State: offline
        State: online
        State: online
        State: offline
        State: offline
        State: offline
 #


Esto se debe a que el status CONNECTED o NOT CONNECTED no indica una coneccion fisica.
El luxadm -e port CONNECTED indica que establecio comunicacion entre el FC initiatior ( HBA ) y
el FC Target por ejemplo el port del storage.
Si la zona en el storage no esta creada la comunicacion no existe y el status sera NOT_CONNECTED.

Luego que configuren la zona en el storage, recien ahi veo "CONNECTED" las 2 placas


 # luxadm -e port
/devices/pci@2,600000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
/devices/pci@2,600000/SUNW,qlc@0,1/fp@0,0:devctl                   CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0/fp@0,0:devctl         CONNECTED
/devices/pci@0,600000/pci@0/pci@9/SUNW,qlc@0,1/fp@0,0:devctl       NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0,1/fp@0,0:devctl                   NOT CONNECTED
/devices/pci@3,700000/SUNW,qlc@0/fp@0,0:devctl                     NOT CONNECTED
 #

viernes, 19 de abril de 2013

Configurar M5000 con un dominio


Finalidad del documento :
En Base a un m5000 con 2 dominios asignados y con Solaris instalado, tenemos que armar un solo dominio con todos los componentes de hardware que disponemos.
Hardware utilizado :
1 m5000 con 64gb de ram , 4 cpu octacore

Descripcion de los componentes del m5000
XSB, eXtended System Board, estas se pueden configurar en 2 modos, Uni-mod y quad-mode, para poder configurar dominios, cada uno de estos debe tener un  LSB asociada.
PSB, Physical System Board, cada PSB esta compuesta por CPU , Memoria y IO board.
CPUM , Cpu Memory Board
MEMB, Memory Board
LSB, Logical System Board

A continuacion, se muestra como esta la configuracion del hardware, antes del armado final.
Vemos que hay 2 dominios configurados con 2 S.O corriendo

XSCF> showboards -a
XSB  DID(LSB) Assignment  Pwr  Conn Conf Test    Fault  
---- -------- ----------- ---- ---- ---- ------- --------
00-0 00(00)   Assigned    y    y    y    Passed  Normal  
01-0 01(00)   Assigned    y    y    y    Passed  Normal  
XSCF> showdomainstatus -a
DID         Domain Status
00          Running
01          Running
02          -
03          -
XSCF> showdomainstatus -d0
DID         Domain Status
00          Running
XSCF> showdscp

DSCP Configuration:
Network: 192.168.224.0
Netmask: 255.255.255.0

 Location     Address
----------   ---------
XSCF         192.168.224.1
Domain #00   192.168.224.2
Domain #01   192.168.224.3
Domain #02   192.168.224.4
Domain #03   192.168.224.5
XSCF> 

XSCF> showfru -a sb
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
sb      01          Uni             no                  
XSCF> showhardconf 
SPARC Enterprise M5000;
    + Serial:BDF1245599; Operator_Panel_Switch:Locked;
    + Power_Supply_System:Single; SCF-ID:XSCF#0;
    + System_Power:On; System_Phase:Cabinet Power On;
    Domain#0 Domain_Status:Running;
    Domain#1 Domain_Status:Running;

    MBU_B Status:Normal; Ver:4401h; Serial:BD124500AG  ;
        + FRU-Part-Number:CF00541-4360 01   /541-4360-01          ;
        + Memory_Size:64 GB;
        + Type:2;
        CPUM#0-CHIP#0 Status:Normal; Ver:0601h; Serial:PP124200D2  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        CPUM#0-CHIP#1 Status:Normal; Ver:0601h; Serial:PP124200D2  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        CPUM#2-CHIP#0 Status:Normal; Ver:0601h; Serial:PP124101TJ  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        CPUM#2-CHIP#1 Status:Normal; Ver:0601h; Serial:PP124101TJ  ;
            + FRU-Part-Number:CA06761-D205 C3   /371-4932-03          ;
            + Freq:2.660 GHz; Type:48;
            + Core:4; Strand:2;
        MEMB#0 Status:Normal; Ver:0101h; Serial:NN1242F7UL  ;
            + FRU-Part-Number:CF00541-0545 09   /541-0545-09          ;
            MEM#0A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93f;
                + Type:4B; Size:4 GB;
            MEM#0B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f935;
                + Type:4B; Size:4 GB;
            MEM#1A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93e;
                + Type:4B; Size:4 GB;
            MEM#1B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f940;
                + Type:4B; Size:4 GB;
            MEM#2A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f999;
                + Type:4B; Size:4 GB;
            MEM#2B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f92a;
                + Type:4B; Size:4 GB;
            MEM#3A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f937;
                + Type:4B; Size:4 GB;
            MEM#3B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343f93a;
                + Type:4B; Size:4 GB;
        MEMB#4 Status:Normal; Ver:0101h; Serial:NN1242F7V2  ;
            + FRU-Part-Number:CF00541-0545 09   /541-0545-09          ;
            MEM#0A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344045b;
                + Type:4B; Size:4 GB;
            MEM#0B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-234403d6;
                + Type:4B; Size:4 GB;
            MEM#1A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-234403e1;
                + Type:4B; Size:4 GB;
            MEM#1B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2343035a;
                + Type:4B; Size:4 GB;
*           MEM#2A Status:Degraded;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344047f;
                + Type:4B; Size:4 GB;
            MEM#2B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344045d;
                + Type:4B; Size:4 GB;
            MEM#3A Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-23440340;
                + Type:4B; Size:4 GB;
            MEM#3B Status:Normal;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-23440459;
                + Type:4B; Size:4 GB;
        DDC_A#0 Status:Normal;
        DDC_A#1 Status:Normal;
        DDC_A#2 Status:Normal;
        DDC_A#3 Status:Normal;
        DDC_B#0 Status:Normal;
        DDC_B#1 Status:Normal;
    IOU#0 Status:Normal; Ver:0101h; Serial:NN1235ETAK  ;
        + FRU-Part-Number:CF00541-2240 05   /541-2240-05          ;
        + Type:1;
        DDC_A#0 Status:Normal;
        DDCR Status:Normal;
            DDC_B#0 Status:Normal;
        PCI#1 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#2 Name_Property:network; Card_Type:Other;
        PCI#3 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#4 Name_Property:SUNW,qlc; Card_Type:Other;
    IOU#1 Status:Normal; Ver:0101h; Serial:NN1234EGTL  ;
        + FRU-Part-Number:CF00541-2240 05   /541-2240-05          ;
        + Type:1;
        DDC_A#0 Status:Normal;
        DDCR Status:Normal;
            DDC_B#0 Status:Normal;
        PCI#1 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#2 Name_Property:network; Card_Type:Other;
        PCI#3 Name_Property:SUNW,qlc; Card_Type:Other;
        PCI#4 Name_Property:SUNW,qlc; Card_Type:Other;
    XSCFU Status:Normal,Active; Ver:0101h; Serial:NN1239F0NH  ;
        + FRU-Part-Number:CF00541-0481 05   /541-0481-05          ;
    OPNL Status:Normal; Ver:0101h; Serial:NN1235EMT1  ;
        + FRU-Part-Number:CF00541-0850 06   /541-0850-06          ;
    PSU#0 Status:Normal; Serial:476856F+1142AD0055;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    PSU#1 Status:Normal; Serial:476856F+1153AD00M6;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    PSU#2 Status:Normal; Serial:1357FYG-1047AD003J;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    PSU#3 Status:Normal; Serial:476856F+1141AD0019;
        + FRU-Part-Number:CF00300-2311 0101 /300-2311-01-01;
        + Power_Status:On; AC:200 V;
    FANBP_C Status:Normal; Ver:0501h; Serial:NN1235ER95;
        + FRU-Part-Number:CF00541-3099 01   /541-3099-01          ;
        FAN_A#0 Status:Normal;
        FAN_A#1 Status:Normal;
        FAN_A#2 Status:Normal;
        FAN_A#3 Status:Normal;
XSCF> 


Ahora comenzamos con las tareas de reconfiguracion
XSCF> 
XSCF> showfru sb 00
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Running  
      00    00-0           
---------------------------
01                Running  
      00    01-0           
XSCF> showboards -a -v
XSB  R DID(LSB) Assignment  Pwr  Conn Conf Test    Fault    COD 
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0   00(00)   Assigned    y    y    y    Passed  Normal   n   
01-0   01(00)   Assigned    y    y    y    Passed  Normal   n   
XSCF> showfru sb 0
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
XSCF> showfru sb 1
Device  Location    XSB Mode        Memory Mirror Mode  
sb      01          Uni             no                  

Antes de sacar la placa XSB , los dominios tienen que estar apagados, sino sucedera este error :

XSCF> deleteboard -c unassign 00-0
XSB#00-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSB#00-0 is the last LSB for DomainID 0, and this domain is still running. Operation failed.

Ahora si, apagamos los dominios.
XSCF> poweroff -d 0
DomainIDs to power off:00
Continue? [y|n] :y
00 :Powering off

*Note*
 This command only issues the instruction to power-off.
 The result of the instruction can be checked by the "showlogs power".
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Running (Waiting for OS Shutdown)
      00    00-0           
---------------------------
01                Running  
      00    01-0           
XSCF> poweroff -d 1               
DomainIDs to power off:01
Continue? [y|n] :y
01 :Powering off

*Note*
 This command only issues the instruction to power-off.
 The result of the instruction can be checked by the "showlogs power".
XSCF> showdcl -a   
DID   LSB   XSB   Status   
00                Running (Waiting for OS Shutdown)
      00    00-0           
---------------------------
01                Running (Waiting for OS Shutdown)
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Shutdown Started
      00    00-0           
---------------------------
01                Running (Waiting for OS Shutdown)
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
---------------------------
01                Running (Waiting for OS Shutdown)
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
---------------------------
01                Shutdown Started
      00    01-0           
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
---------------------------
01                Powered Off
      00    01-0           

Ahora que estan apagados los 2 dominios, procedemos a quitar la board 0 y 1
XSCF> deleteboard -c unassign 00-0
XSB#00-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSCF> deleteboard -c unassign 00-0
XSCF> setdcl -d 0 -r 00
XSCF> deleteboard -c unassign 01-0
XSB#01-0 will be unassigned from domain immediately. Continue?[y|n] :y
XSCF> 
XSCF> setdcl -d 0 -r 01           
XSCF> showboards -av
XSB  R DID(LSB) Assignment  Pwr  Conn Conf Test    Fault    COD 
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0   SP       Available   n    n    n    Passed  Normal   n   
01-0   SP       Available   n    n    n    Passed  Normal   n   
XSCF>  showdomainstatus -a
DID         Domain Status
00          -
01          -
02          -
03          -

XSCF> setupfru -x 1 sb 0    
XSCF> showfru -a sb 
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
sb      01          Uni             no                  
XSCF> showfru sb 0
Device  Location    XSB Mode        Memory Mirror Mode  
sb      00          Uni             no                  
XSCF> showfru sb 1
Device  Location    XSB Mode        Memory Mirror Mode  
sb      01          Uni             no                  
XSCF> setupfru -x 1 sb 1
XSCF> showfru sb 1
Device  Location    XSB Mode        Memory Mirror Mode  
sb      01          Uni             no                  
XSCF> setdcl -d 0 -a 0=00-0
XSCF> setdcl -d 0 -a 1=00-1
XSCF> setdcl -d 0 -a 0=01-0
LSB#00 is already registered in DCL.
XSCF> setdcl -d 0 -a 2=01-0
XSCF> setdcl -d 0 -a 3=01-1
XSCF> addboard -c assign -d 0 00-0
XSB#00-0 will be assigned to DomainID 0. Continue?[y|n] :y
XSCF> addboard -c assign -d 0 00-1
XSB#00-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#00-1 is not installed.
XSCF> addboard -c assign -d 0 01-0
XSB#01-0 will be assigned to DomainID 0. Continue?[y|n] :y
XSCF> addboard -c assign -d 0 01-1
XSB#01-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#01-1 is not installed.
XSCF> showdcl -v -d 0
DID   LSB   XSB   Status   No-Mem   No-IO    Float    Cfg-policy
00                Powered Off                         FRU      
      00    00-0           False    False    False             
      01    00-1           False    False    False             
      02    01-0           False    False    False             
      03    01-1           False    False    False             
      04    -                                                  
      05    -                                                  
      06    -                                                  
      07    -                                                  
      08    -                                                  
      09    -                                                  
      10    -                                                  
      11    -                                                  
      12    -                                                  
      13    -                                                  
      14    -                                                  
      15    -                                                  
XSCF> showboards -v -a
XSB  R DID(LSB) Assignment  Pwr  Conn Conf Test    Fault    COD 
---- - -------- ----------- ---- ---- ---- ------- -------- ----
00-0 * 00(00)   Assigned    n    n    n    Unknown Normal   n   
01-0 * 00(02)   Assigned    n    n    n    Unknown Normal   n   
XSCF> showdcl -v -a
DID   LSB   XSB   Status   No-Mem   No-IO    Float    Cfg-policy
00                Powered Off                         FRU      
      00    00-0           False    False    False             
      01    00-1           False    False    False             
      02    01-0           False    False    False             
      03    01-1           False    False    False             
      04    -                                                  
      05    -                                                  
      06    -                                                  
      07    -                                                  
      08    -                                                  
      09    -                                                  
      10    -                                                  
      11    -                                                  
      12    -                                                  
      13    -                                                  
      14    -                                                  
      15    -                                                  
---------------------------------------------------------------
01                Powered Off                         FRU      
      00    01-0           False    False    False             
      01    -                                                  
      02    -                                                  
      03    -                                                  
      04    -                                                  
      05    -                                                  
      06    -                                                  
      07    -                                                  
      08    -                                                  
      09    -                                                  
      10    -                                                  
      11    -                                                  
      12    -                                                  
      13    -                                                  
      14    -                                                  
      15    -                                                  
XSCF> showdcl -a
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
      01    00-1           
      02    01-0           
      03    01-1           
---------------------------
01                Powered Off
      00    01-0           
XSCF> setdcl -d 1 -r 00
XSCF> showdcl -a       
DID   LSB   XSB   Status   
00                Powered Off
      00    00-0           
      01    00-1           
      02    01-0           
      03    01-1           
XSCF> addboard -c assign -d 0 00-1
XSB#00-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#00-1 is not installed.
XSCF> addboard -c assign -d 0 01-1
XSB#01-1 will be assigned to DomainID 0. Continue?[y|n] :y
XSB#01-1 is not installed.
XSCF> poweron -d 0
DomainIDs to power on:00
Continue? [y|n] :y
00 :Powering on

*Note*
 This command only issues the instruction to power-on.
 The result of the instruction can be checked by the "showlogs power".
XSCF> console -d 0

Console contents may be logged.
Connect to DomainID 0?[y|n] :y
POST Sequence 01 CPU Check
LSB#02 (XSB#01-0): POST 2.17.0 (2011/11/17 10:29)
POST Sequence 02 Banner
LSB#00 (XSB#00-0): POST 2.17.0 (2011/11/17 10:29)
POST Sequence 03 Fatal Check
POST Sequence 04 CPU Register
POST Sequence 05 STICK
POST Sequence 06 MMU
POST Sequence 07 Memory Initialize
POST Sequence 08 Memory
POST Sequence 09 Raw UE In Cache
POST Sequence 0A Floating Point Unit
POST Sequence 0B SC
POST Sequence 0C Cacheable Instruction
POST Sequence 0D Softint
POST Sequence 0E CPU Cross Call
POST Sequence 0F CMU-CH
POST Sequence 10 PCI-CH
POST Sequence 11 Master Device
POST Sequence 12 DSCP
POST Sequence 13 SC Check Before STICK Diag
POST Sequence 14 STICK Stop
POST Sequence 15 STICK Start
POST Sequence 16 Error CPU Check
POST Sequence 17 System Configuration
POST Sequence 18 System Status Check
POST Sequence 19 System Status Check After Sync
POST Sequence 1A OpenBoot Start...
POST Sequence Complete.

SPARC Enterprise M5000 Server, using Domain console
Copyright (c) 1998, 2012, Oracle and/or its affiliates. All rights reserved.
Copyright (c) 2012, Oracle and/or its affiliates and Fujitsu Limited. All rights reserved.
OpenBoot 4.33.5.d, 65536 MB memory installed, Serial #102844532.
Ethernet address 0:10:e0:21:48:74, Host ID: 86214874.

Aborting auto-boot sequence.
{0} ok 

root@m5kd0 # prtdiag -v
System Configuration:  Oracle Corporation  sun4u SPARC Enterprise M5000 Server
System clock frequency: 1012 MHz
Memory size: 65536 Megabytes

==================================== CPUs ====================================

      CPU                 CPU                         Run    L2$    CPU   CPU 
LSB   Chip                 ID                         MHz     MB    Impl. Mask
---   ----  ----------------------------------------  ----   ---    ----- ----
 00     0      0,   1,   2,   3,   4,   5,   6,   7   2660  11.0        7  193
 00     1      8,   9,  10,  11,  12,  13,  14,  15   2660  11.0        7  193
 02     0     64,  65,  66,  67,  68,  69,  70,  71   2660  11.0        7  193
 02     1     72,  73,  74,  75,  76,  77,  78,  79   2660  11.0        7  193

============================ Memory Configuration ============================

       Memory  Available           Memory     DIMM    # of  Mirror  Interleave
LSB    Group   Size                Status     Size    DIMMs Mode    Factor    
---    ------  ------------------  -------    ------  ----- ------- ----------
 00    A        16384MB            okay       4096MB      4 no       2-way
 00    B        16384MB            okay       4096MB      4 no       2-way
 02    A        16384MB            okay       4096MB      4 no       2-way
 02    B        16384MB            okay       4096MB      4 no       2-way
picl_initialize failed: Daemon not responding

==================== Hardware Revisions ====================

System PROM revisions:
----------------------

OBP 4.33.5.d 2012/07/18 06:55


=================== Environmental Status ===================

Mode switch is in LOCK mode 
picl_initialize failed: Daemon not responding

En la primer salida del showhardconf, vemos que un dimm de memoria esta con status DEGRADED, y con un * asterisco al lado.
*           MEM#2A Status:Degraded;
                + Code:ce0000000000000001M3 93T5160FBA-CE6 4146-2344047f;
                + Type:4B; Size:4 GB;

Eso significa que el dimm de memoria esta en falla.
Desde la XSCF ejecutamos el comando snapshot -L F -t user@milinux:/tmp
esto me genero un archivo .zip en mi linux, que al descomprimirlo es similar al explorer de solaris.
Dentro del archivo @scf@log@monitor.log se ve claramente la posicion del dimm de memoria en falla

Feb 15 06:26:37 m5k Warning: /MBU_B/MEMB#4/MEM#2A:DOMAIN:DIMM permanent correctable error

para poder correr este comando se debe tener coneccion de red, lo que hicimos fue conectar un cable cruzado entre el servidor y mi linux que oficiaba 
de terminal (con minicom) configuramos una ip en el server y otro en mi linux, y enviamos la salida del snapshot al linux mio.

sábado, 2 de marzo de 2013

Resetear password de ALOM

Para resetear la password de un usuario de ALOM, desde el Sistema Operativo, tipear :

cd /usr/platform/`uname -i`/sbin
scadm userpassword username   donde username generalmente es admin

Si quiero verificar previamente que usuarios existen
scadm usershow 

jueves, 21 de febrero de 2013

Replica de Datos


La finalidad del documento es, mostrar  la replica de datos  mediante un storage externo.
Sobre un Sun Cluster 3.2 con Oracle Rac, en 2 servidores m5000 hay conectado un storage externo de ibm llamado ds 2145, y el manejador de volumenes Veritas Volume Manager 5.0
La replica de caja se realiza a dos dominios de una E25k, con Solaris 10 y Veritas Volume Manager 5.0


Replica de Datos




En que consiste la Copia ?
De los equipos en cluster Sunrac1 y Sunrac2 , que  serian los equipo productivos, se debe copiar los datos contenidos en los 3 diskgroups  ( RedoDG, DatosDG y ArchDG ) a 2 servidores  los cuales servirán uno de Reportes (sun5rep )  y otro de Backup ( sun5bkp )
Como funciona la copia ?
La copia se realiza por discos agrupados en disk groups de Veritas.
En el cuadro de abajo, se muestran en que servidor se ejecuta cada script.



SUN5REP
SUNRAC1/SUNRAC2
SUN5BKP
1
oracle_replication.sh stop_grid


2
Desmonto_DG_y_FS.ksh

Desmonto_DG_y_FS.ksh
3

oracle_replication.sh begin_backup

4
Semanal_Copia_de_Caja.ksh


5

oracle_replication.sh end_backup

6
Semanal_Copia_de_Caja_Solo_Archive.ksh


7
Monto_DG_y_FS_Redo_y_Data.ksh

Monto_DG_y_FS_Redo_y_Data.ksh
8
Monto_DG_y_FS_Archive.ksh

Monto_DG_y_FS_Archive.ksh
9
oracle_replication.sh start_grid


10
oracle_replication.sh recover_database



 oracle_replication.sh stop_grid  En este script le doy stop a la base de datos , al ASM y a los diskgroups del Grid.

 Desmonto_DG_y_FS.ksh Realizo un Stop y deport de los DiskGroups y luego umount del filesystem del Archive Log.
oracle_replication.sh begin_backup Setea la Base de datos en modo Begin Backup
Semanal_Copia_de_caja.ksh  Ejecuta la replica del storage, invocandolo desde un ssh al equipo que administra la caja, algo asi user@10.xx.xx.xx "svctask startfcconsistgrp -prep SUN5REP_DB"
oracle_replication.sh end_backup Setea la Base de datos en modo End Backup
Semanal_Copia_de_Caja_Solo_Archive.ksh Ejecuto la replica SOLO de los Archives Logs , ejemplo ssh usuario@10.xx.xx.16 "svctask startfcconsistgrp -prep SUN5REP_ARCH"
Monto_DG_y_FS_Redo_y_Data.ksh Realizo un Import y un Start de los Volumenes
Monto_DG_y_FS_Archive.ksh Realizo un Import y un Start del volume Archive y luego un mount del filesystem /archives
oracle_replication.sh start_grid Levanta los diskgroups, el ASM y la Base de datos en modo MOUNT
oracle_replication.sh recover_database  Recupera la base de datos


Nota:
De requerir los scripts, solicitarlos en el comentario.
Documento realizado con Nicolas Morono ( @nicomorono )


jueves, 24 de enero de 2013

Agregar en caliente Raw Device a Sun cluster 3.3 con Oracle RAC


[sunrac1]  # vxdctl -c mode  ( Chequeo el nodo que tiene el control de los discos )
mode: enabled: cluster active - MASTER
master: sunrac1

Primero le doy un label a cada disco que quiero agregar ( con el comando format )y luego ejecuto en caliente, el siguiente comando ( puede tardar unos minutos en sincronizar los 2 nodos )
[psunrac1]  # cldev populate
Configuring DID devices
did instance 35 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Cd0 created for instance 35.
did instance 36 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Bd0 created for instance 36.
did instance 37 created.
did subpath sunrac1:/dev/rdsk/c6t60050768019901B4000000000000080Ad0 created for instance 37.
Configuring the /dev/global directory (global devices)
obtaining access to all attached disks

[sunrac1]  # vxdctl enable  ( en ambos nodos )

Todos los comandos a continuacion se ejecutan solo en el nodo que tiene el control de los discos.

[sunrac1]  # vxdiskadm , opcion1
Select disk devices to add: [,all,list,q,?] list

DEVICE       DISK         GROUP        STATUS
c0t0d0       rootdg_1     rootdg       online
c0t1d0       -            -            online invalid
c2t0d0       rootmirror   rootdg       online
c2t1d0       -            -            online invalid
san_vc0_0    -            -            online invalid
san_vc0_1    san_vc0_1    Datosdg      online shared
san_vc0_2    san_vc0_2    Datosdg      online shared
san_vc0_3    san_vc0_3    Datosdg      online shared
san_vc0_4    san_vc0_4    Datosdg      online shared
san_vc0_5    san_vc0_5    Datosdg      online shared
san_vc0_6    san_vc0_6    Datosdg      online shared
san_vc0_7    san_vc0_7    Datosdg      online shared
san_vc0_8    san_vc0_8    Datosdg      online shared
san_vc0_9    san_vc0_9    Datosdg      online shared
san_vc0_10   san_vc0_10   Datosdg      online shared
san_vc0_11   san_vc0_11   Datosdg      online shared
san_vc0_12   san_vc0_13   Crsdg        online shared
san_vc0_13   san_vc0_14   Interdg      online
san_vc0_14   san_vc0_15   Interdg      online
san_vc0_15   san_vc0_16   Interdg      online
san_vc0_16   san_vc0_17   Interdg      online
san_vc0_17   localrac1dg01 localrac1dg  online
san_vc0_18   Redodg01     Redodg       online shared
san_vc0_19   san_vc0_20   Interdg      online
san_vc0_20   Archdg01     Archdg       online
san_vc0_21   san_vc0_21   Datosdg      online shared
san_vc0_22   san_vc0_22   Datosdg      online shared
san_vc0_23   -            -            online invalid
san_vc0_24   -            -            online invalid
san_vc0_25   -            -            online invalid

Select disk devices to add: [,all,list,q,?]  san_vc0_23 san_vc0_24 san_vc0_25

 Chequeo el tamaño de los discos que agregue
[sunrac1] # vxassist -g Datosdg maxsize san_vc0_23
Maximum volume size: 276723712 (135119Mb)
[sunrac1]  # vxassist -g Datosdg maxsize san_vc0_24
Maximum volume size: 276723712 (135119Mb)
[sunrac1]  # vxassist -g Datosdg maxsize san_vc0_25
Maximum volume size: 276723712 (135119Mb)
[sunrac1]  #

[sunrac1]  # vxassist -g Datosdg -U gen make datos14 135119M san_vc0_23
[sunrac1]  # vxassist -g Datosdg -U gen make datos15 135119M san_vc0_24
[sunrac1]  # vxassist -g Datosdg -U gen make datos16 135119M san_vc0_25
[sunrac1]  # vxedit -g Datosdg set group=asmadmin user=grid mode=660 datos14
[sunrac1]  # vxedit -g Datosdg set group=asmadmin user=grid mode=660 datos15
[sunrac1]  # vxedit -g Datosdg set group=asmadmin user=grid mode=660 datos16

Chequeo que hayan quedado con los permisos correctos

[psunrac1]  # ls -lt /dev/vx/rdsk/Datosdg/ 
crw-rw----   1 grid     asmadmin 335, 61000 Jan 24 10:29 datos1
crw-rw----   1 grid     asmadmin 335, 61015 Jan 24 10:27 datos16
crw-rw----   1 grid     asmadmin 335, 61014 Jan 24 10:27 datos15
crw-rw----   1 grid     asmadmin 335, 61013 Jan 24 10:27 datos14
crw-rw----   1 grid     asmadmin 335, 61012 Jan 24 10:23 datos13
crw-rw----   1 grid     asmadmin 335, 61007 Jan 24 10:07 datos8
crw-rw----   1 grid     asmadmin 335, 61006 Jan 24 01:41 datos7
crw-rw----   1 grid     asmadmin 335, 61011 Jan 24 00:17 datos12

Errores cometidos y Soluciones aplicadas :

Al intentar agregar los discos con vxdiskadm fallo porque no veia los discos en el otro nodo.
La solucion fue ejecutar el vxdctl enable en el otro nodo y volver a correr el vxdiskadm en el nodo primario.
Otro error fue con el vxdiskadm, cuando agregamos los discos, pusimos los nombres default en lugar del nombre que queriamos poner a los discos.
La solucion fue , una vez agregado los discos, desde la linea de comando, renombramos los discos de la siguiente manera :

[sunrac1]  # vxedit -g Datosdg rename Datosdg01 san_vc0_23
[sunrac1]  # vxedit -g Datosdg rename Datosdg02 san_vc0_24
[sunrac1]  # vxedit -g Datosdg rename Datosdg03 san_vc0_25

Tareas realizadas con mi colega Nicolas Morono

lunes, 1 de octubre de 2012

No funciona el boot net -s


Intento hacer un booteo por red, y el sector de booteo esta corrupto
 Sun Fire E25K, using IOSRAM based Console
 Ethernet address 0:0:be:a9:fb:e9, Host ID: 82a9fbe9.
 {20} ok
 {20} ok boot net -s
 Boot device: /pci@3c,70.0000/network@3,1  File and args: -s
 Requesting Internet Address for 0:0:be:a9:fb:e9
 boot: cannot open kernel/sparcv9/unix
 Enter filename [kernel/sparcv9/unix]:
boot: cannot open kernel/sparcv9/unix
Enter filename [kernel/sparcv9/unix]: ^C^D
 Type  'go' to resume
 {20} ok
Chequeo con devalias , si esta bien seteado la red 
Sep 28 11:39:39 2012 {20} ok devalias
Sep 28 11:40:16 2012 net                      /pci@3c,70.0000/network@3,1
Luego de haber chequeado que los parametros de OBP estan correctos, el problema es que probablemente este corrupto el sector de booteo 
Esto se soluciona asi :
Primero , chequeo en el bootparams, de donde saco el boot que le corresponde a ese dominio, en este caso tomo de ejemplo el dominio B 
root@e25k-1-sc0 # grep e25k-1-b /etc/bootparams
e25k-1-b  root=e25k-1-sc-i1:/export/install/SOL_10_1009_SPARC/Solaris_10/Tools/Boot install=e25k-1-sc-i1:/export/install/SOL_10_1009_SPARC boottype=:in   rootopts=:rsize=8192
root@e25k-1-sc0 #
Me paro en el directorio que tiene los comandos para generar el boot nuevo pra el dominio que yo le indique
cd /export/install/SOL_10_1009_SPARC/Solaris_10/Tools
Ejecuto el comando que hace la magia ( Ojo, que esto me borra el anterior, por si me interesaba guardarlo para algo, sino da igual )
./add_install_client e25k-1-b sun4u
Listo, chequeo como  quedo.
grep e25k-1-b /etc/bootparams
Y luego puedo ejecutar el booteo por red ( seguramente tenga que realizar fsck )
console -d B
 {20} ok boot net -s
 Resetting...
 Rebooting with command: boot net -s
 Boot device: /pci@3c,70.0000/network@3,1  File and args: -s
 Requesting Internet Address for 0:0:be:a9:fb:e9
Booting to milestone "milestone/single-user:default".
 Configuring devices.
 SUNW,eri0 : 100 Mbps half duplex link up
Using RPC Bootparams for network configuration information.
 Attempting to configure interface dman0...
 Configured interface dman0
 Attempting to configure interface ce5...
 Skipped interface ce5
 Attempting to configure interface ce4...
 Skipped interface ce4
 Attempting to configure interface ce3...
 Skipped interface ce3
 Attempting to configure interface ce2...
 Skipped interface ce2
 Attempting to configure interface ce1...
 Skipped interface ce1
 Attempting to configure interface ce0...
 Skipped interface ce0
 Attempting to configure interface eri0...
 Configured interface eri0
 ip_arp_done: init failed
 ifconfig: setifflags: SIOCSLIFFLAGS: eri0: Cannot assign requested address
 Requesting System Maintenance Mode
 SINGLE USER MODE
 # format
Searching for disks...done
 AVAILABLE DISK SELECTIONS:
        0. c0t10d0
           /pci@3c,700000/pci@1/pci@1/scsi@2/sd@a,0
        1. c0t11d0
          /pci@3c,700000/pci@1/pci@1/scsi@2/sd@b,0
# fsck -y /dev/rdsk/c0t10d0s0
 ** /dev/rdsk/c0t10d0s0
 ** Last Mounted on /
 ** Phase 1 - Check Blocks and Sizes
 ** Phase 2 - Check Pathnames
 ** Phase 3a - Check Connectivity
 ** Phase 3b - Verify Shadows/ACLs
 ** Phase 4 - Check Reference Counts
 UNREF FILE  I=617432  OWNER=root MODE=100644
SIZE=28 MTIME=Sep 27 02:39 2012
 RECONNECT?  yes
LINK COUNT FILE I=617432  OWNER=root MODE=100644
 SIZE=28 MTIME=Sep 27 02:39 2012  COUNT 0 SHOULD BE 1
 ADJUST?  yes
 ** Phase 5 - Check Cylinder Groups
***** FILE SYSTEM WAS MODIFIED *****
 #  fsck -y /dev/rdsk/c0t10d0s0
 ** /dev/rdsk/c0t10d0s0
 ** Last Mounted on /
** Phase 1 - Check Blocks and Sizes
 ** Phase 2 - Check Pathnames
 ** Phase 3a - Check Connectivity
 ** Phase 3b - Verify Shadows/ACLs
 ** Phase 4 - Check Reference Counts
 ** Phase 5 - Check Cylinder Groups
 195904 files, 9421235 used, 15688572 free (92068 frags, 1949563 blocks, 0.4% fragmentation)
 #
 #  fsck -y /dev/rdsk/c0t11d0s0
 ** /dev/rdsk/c0t11d0s0
** Last Mounted on /
 ** Phase 1 - Check Blocks and Sizes
 ** Phase 2 - Check Pathnames
 ** Phase 3a - Check Connectivity
 ** Phase 3b - Verify Shadows/ACLs
 ** Phase 4 - Check Reference Counts
 UNREF FILE  I=617432  OWNER=root MODE=100644
 SIZE=28 MTIME=Sep 27 02:39 2012
 RECONNECT?  yes
 LINK COUNT FILE I=617432  OWNER=root MODE=1

Luego init 6