Bienvenidos

Todos estos pasos descriptos fueron probados en ambientes productivos

lunes, 12 de diciembre de 2016

ORA-27125: unable to create shared memory segment



Al intentar crear una instancia de bd Oracle, falla con el siguiente error


ORA-27125: unable to create shared memory segment
SVR4 Error: 22: Invalid argument


 El server en cuestion es un SPARC T5-2  con 8 gb de RAM, con 3 zonas, en la zona 1 estaran las bd, y en la zona 2 y zona3 la aplicacion.

Lo primero que chequeo es en la zona global, si hay errores en el /var/adm/messages, y veo el mensaje que no hay espacio en el SWAP

Dec 12 11:30:02 net1002 genunix: [ID 470503 kern.warning] WARNING: Sorry, no swap space to grow stack for pid 29204 (discusge)

 Como el SO tiene ZFS, chequeo con zfs list el espacio asignado al swap , y luego con un df el espacio actual ocupado de swap
root@net1002 #  zfs list
NAME                         USED  AVAIL  REFER  MOUNTPOINT
rpool                       16.0G  10.3G   106K  /rpool
rpool/ROOT                  6.35G  10.3G    31K  legacy
rpool/ROOT/s10s_u11wos_24a  6.35G  10.3G  6.35G  /
rpool/dump                  1.50G  10.3G  1.50G  -
rpool/export                  73K  10.3G    36K  /export
rpool/export/home             37K  10.3G    37K  /export/home
rpool/swap                  8.16G  10.6G  7.91G  -


root@net1002 # df -h
Filesystem                       size          used     avail capacity  Mounted on
rpool/ROOT/s10s_u11wos_24a
                        26G   6.3G    10G    39%    /
/devices                 0K     0K     0K     0%    /devices
ctfs                     0K     0K     0K     0%    /system/contract
proc                     0K     0K     0K     0%    /proc
mnttab                   0K     0K     0K     0%    /etc/mnttab
swap                   1.5G   448K   1.5G     1%    /etc/svc/volatile
objfs                    0K     0K     0K     0%    /system/object
sharefs                  0K     0K     0K     0%    /etc/dfs/sharetab
/platform/sun4v/lib/libc_psr/libc_psr_hwcap3.so.1
                        17G   6.3G    10G    39%    /platform/sun4v/lib/libc_psr.so.1
/platform/sun4v/lib/sparcv9/libc_psr/libc_psr_hwcap3.so.1
                        17G   6.3G    10G    39%    /platform/sun4v/lib/sparcv9/libc_psr.so.1
fd                       0K     0K     0K     0%    /dev/fd
swap                   1.5G    32K   1.5G     1%    /tmp
swap                   1.5G    88K   1.5G     1%    /var/run
rpool/export            26G    36K    10G     1%    /export
rpool/export/home       26G    37K    10G     1%    /export/home
rpool                   26G   106K    10G     1%    /rpool
/dev/md/dsk/d300        30G    27G   2.7G    91%    /export/zona3
/dev/md/dsk/d200        30G    25G   4.3G    86%    /export/zona2
/dev/md/dsk/d100        30G   5.3G    24G    19%    /export/zona1

Ahora voy a consultar cuanto espacio libre tiene el pool RPOOL , para saber cuanto espacio puedo agregarle al volumen SWAP  ( tiene 11gb libres) 


root@net1002 # zpool get all rpool
NAME   PROPERTY       VALUE                       SOURCE
rpool  size           26.8G                       -
rpool  capacity       58%                         -
rpool  altroot        -                           default
rpool  health         ONLINE                      -
rpool  guid           17834260759408459067        -
rpool  version        32                          default
rpool  bootfs         rpool/ROOT/s10s_u11wos_24a  local
rpool  delegation     on                          default
rpool  autoreplace    off                         default
rpool  cachefile      -                           default
rpool  failmode       continue                    local
rpool  listsnapshots  on                          default
rpool  autoexpand     off                         default
rpool  free           11.0G                       -
rpool  allocated      15.8G                       -
rpool  readonly       off    


 Con este comando veo que tiene asignado 7.91gb para el volumen swap

root@net1002 # zfs get all rpool/swap
NAME        PROPERTY              VALUE                  SOURCE
rpool/swap  type                  volume                 -
rpool/swap  creation              Thu Sep  8 13:47 2016  -
rpool/swap  used                  8.16G                  -
rpool/swap  available             10.6G                  -
rpool/swap  referenced            7.91G                  -
rpool/swap  compressratio         1.00x                  -
rpool/swap  reservation           none                   default
rpool/swap  volsize               7.91G                  local
rpool/swap  volblocksize          1M                     -
rpool/swap  checksum              off                    local
rpool/swap  compression           off                    local
rpool/swap  readonly              off                    default
rpool/swap  shareiscsi            off                    default
rpool/swap  copies                1                      default
rpool/swap  refreservation        8.16G                  local
rpool/swap  primarycache          metadata               local
rpool/swap  secondarycache        all                    default
rpool/swap  usedbysnapshots       0                      -
rpool/swap  usedbydataset         7.91G                  -
rpool/swap  usedbychildren        0                      -
rpool/swap  usedbyrefreservation  255M                   -
rpool/swap  logbias               latency                default
rpool/swap  sync                  standard               default
rpool/swap  rekeydate



Ahora voy a agrandar el tamaño del volumen swap de 8gb que tenia a 16gb

root@net1002 # zfs set volsize=16g rpool/swap


root@net1002 # zfs get all rpool/swap       
NAME        PROPERTY              VALUE                  SOURCE
rpool/swap  type                  volume                 -
rpool/swap  creation              Thu Sep  8 13:47 2016  -
rpool/swap  used                  16.5G                  -
rpool/swap  available             2.48G                  -
rpool/swap  referenced            16.0G                  -
rpool/swap  compressratio         1.00x                  -
rpool/swap  reservation           none                   default
rpool/swap  volsize               16G                    local
rpool/swap  volblocksize          1M                     -
rpool/swap  checksum              off                    local
rpool/swap  compression           off                    local
rpool/swap  readonly              off                    default
rpool/swap  shareiscsi            off                    default
rpool/swap  copies                1                      default
rpool/swap  refreservation        16.5G                  local
rpool/swap  primarycache          metadata               local
rpool/swap  secondarycache        all                    default
rpool/swap  usedbysnapshots       0                      -
rpool/swap  usedbydataset         16.0G                  -
rpool/swap  usedbychildren        0                      -
rpool/swap  usedbyrefreservation  516M                   -
rpool/swap  logbias               latency                default
rpool/swap  sync                  standard               default
rpool/swap  rekeydate 


Con esto ya funciona, pero por las dudas que el dba quiera agregar otra instancia mas, 
 en la zona1 aumento el parametro del shared memory  tambien a 16gb.( esto es opcional, si no lo seteo , y dejo en 8gb que era el tamaño que estaba anteriormente, funciona igual )

root@net1c12 #  projmod -s -K "project.max-shm-memory=(priv,17179869184,deny)" user.oracle

martes, 27 de septiembre de 2016

Como Agregar placa fibra a un sparc t7-1


En este breve instructivo mostramos como insertar una placa de fibra para SAN , valido para cualquier placa pci.
La instalacion en este caso especifico corresponde a 1 Sun Storage Dual 16 Gb Fibre Channel PCIe Universal HBA, Qlogic

Para instalar o remover una placa de fibra o fiber channel, el equipo tiene que estar apagado , sin energia electrica.
Para esto vamos a conectar un cable serial a la SP del T7

Con minicom o putty  nos conectamos a la SP  y ejecutamos un stop -f /System y un show /System para chequear que el power_state este en OFF


Desconectamos los cables de la fuente de energia ( power cords)
Ahora comenzamos con la apertura del server, como vemos a continuacion,



Para poder insertar o remover una placa pci, es necesario abrir el mecanismo de locking que vemos a continuacion

En la vida real seria este :


Ahora insertamos la placa de fibra


Perfecto !!! Ahora a volver a armar las tapas ( top cover ), deslizamos el server hacia atras volviendo a su posicion original en el rack, presionando las trabas verdes de los laterales y conectamos los cables a las fuentes, dando energia al equipo ( power cords)



Encendemos el equipo. Nos conectamos a la SP y hacemos un start /System y un start /HOST/console


Al encenderlo, se toma varios minutos para correr un POST , con un diagnostico extendido.

miércoles, 21 de septiembre de 2016



Problem with LDMD  daemon and the solution (spanish version)

In this article , we describe with my collegue  Nicolas Morono,  a bug with ldmd daemon and how to restore the previous configuration of the Logical Domains  ( LDOMs ) using ldm-db.xml file

When we wanted assign a lun to a LDOM, we find with this trouble :

# ldm list
Failed to connect to logical domain manager: Connection refused

We check and the service ldmd is in maintenance state
svcs -xv
svc:/ldoms/ldmd:default (Logical Domains Manager)
State: maintenance since June 2, 2016 06:36:16 PM ART
Reason: Start method exited with $SMF_EXIT_ERR_FATAL.
See: /var/svc/log/ldoms-ldmd:default.log
Impact: This service is not running.

In the  /var/adm/messages it showed this errors

Jun 2 18:36:16 m5-1-pdom2 svc.startd[33]: [ID 652011 daemon.warning] svc:/ldoms/ldmd:default: Method "/opt/SUNWldm/bin/ldmd_start" failed with exit status 95.
Jun 2 18:36:16 m5-1-pdom2 svc.startd[33]: [ID 748625 daemon.error] ldoms/ldmd:default failed fatally: transitioned to maintenance (see 'svcs -xv' for details)
Jun 2 18:36:16 m5-1-pdom2 fmd: [ID 377184 daemon.error] SUNW-MSG-ID: SMF-8000-YX, TYPE: defect, VER: 1, SEVERITY: major
Jun 2 18:36:16 m5-1-pdom2 EVENT-TIME: Thu Jun 2 18:36:16 ART 2016
Jun 2 18:36:16 m5-1-pdom2 PLATFORM: SPARC-M5-32, CSN: AK00xx8x1, HOSTNAME: m5-1-pdom2
Jun 2 18:36:16 m5-1-pdom2 SOURCE: software-diagnosis, REV: 0.1
Jun 2 18:36:16 m5-1-pdom2 EVENT-ID: 889f64a0-0102-efd6-997f-8e83e7fba09a
Jun 2 18:36:16 m5-1-pdom2 DESC: A service failed - a start, stop or refresh method failed.
Jun 2 18:36:16 m5-1-pdom2 AUTO-RESPONSE: The service has been placed into the maintenance state.
Jun 2 18:36:16 m5-1-pdom2 IMPACT: svc:/ldoms/ldmd:default is unavailable.
Jun 2 18:36:16 m5-1-pdom2 REC-ACTION: Run 'svcs -xv svc:/ldoms/ldmd:default' to determine the generic reason why the service failed, the location of any logfiles, and a list of other services impacted. Please refer to the associated reference document athttp://support.oracle.com/msg/SMF-8000-YX for the latest service procedures and policies regarding this diagnosis.
Jun 2 18:40:28 m5-1-pdom2 cmlb: [ID 107833 1

We check in the svc logs  

cat /var/svc/log/ldoms-ldmd:default.log
Jun 02 18:35:16 timeout waiting for op HVctl_op_get_bulk_res_stat
Jun 02 18:35:16 fatal error: waiting for hv response timeout

[ Jun 2 18:35:16 Stopping because process dumped core. ]
[ Jun 2 18:35:16 Executing stop method (:kill). ]
[ Jun 2 18:35:16 Executing start method ("/opt/SUNWldm/bin/ldmd_start"). ]
Jun 02 18:36:16 timeout waiting for op HVctl_op_hello
Jun 02 18:36:16 fatal error: waiting for hv response timeout

[ Jun 2 18:36:16 Method "start" exited with status 95. ]

We looked at the oracle docs and came to the conclusion that there was a  bug  in firmware versions below  1. 14.2  which matched our environment.
We opened a service request to confirm the analyzed by us and the proposed solution was the same.


The bug is in Hypervisors lower than the version 1.14.2 .

- The short term solution is to perform a power-cycle the system.
- The solution to medium / long term is to update the system firmware to a recent version ( HypV 1.14.2 or Higher )



At this point we find that solutions involve a power cycle that involves all running LDOMS and total reboot of the machine.
We decided to perform the firmware upgrade and make the power-cycle, but we realized that the last saved settings LDOMS is old and we  will lose 6 months changes in LDOMs configurations ( like creation of new LDOMs , disk assignments, allocation of network cards, etc )


The solution applied to solved this situation was as follow :

Prior to reboot the PDOM, we backup the file  ldom-db.xml  located in  /var/opt/SUNWldm , ( this file make the Magic ) this file has all the settings that are active in PDOM regardless of whether or not you saved in the SP .
We copy this file ( ldom-db.xml ) in /usr/scripts , to use after easily without a restore from the backup

Here are the steps used 
From the ilom
We make the power-cycle 
stop Servers/PDomains/PDomain_2/HOST 
y then
start Servers/PDomains/PDomain_2/HOST

Once we Boot the PDOM and with the LDOMs down and  unbind,  we take a backup of the file ldom-db.xml  and disable the ldom service daemon.

root@ # ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    8     16G      0.2%  0.2%  8d 2h 38m
dnet1002         active     -n----  5002    8     8G       0.5%  0.5%  5d 2h 49m
dsunt100         active     -n----  5000    48    40G      0.0%  0.0%  8d 1h 34m
dsunt200         active     -n----  5001    48    40G      0.0%  0.0%  2m
root@#

root@ # ldm stop dsunt200
LDom dsunt200 stopped
root@ # ldm unbind dsunt200

root@ # ldm stop dsunt100
LDom dsunt100 stopped
root@ # ldm unbind dsunt100

root@ # ldm stop dnet1002
LDom dnet1002 stopped
root@ # ldm unbind dnet1002


root@ # ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    8     16G      0.5%  0.5%  8d 2h 40m
dnet1002         inactive     ------      8     8G       
dsunt100         inactive    ------      48    40G      
dsunt200         inactive   ------       48    40G
root@ #


cd /var/opt/SUNWldm
cp -p ldom-db.xml ldom-db.xml.orig
svcadm disable ldmd

##### Here we use the file stored previoulsy in /usr/scripts/,  Now we overwrite the original stored in  /var/opt/SUNWldm
cp -p /usr/scripts/ldom-db.xml /var/opt/SUNWldm/ldom-db.xml        

Enable the ldmd service.
svcadm enable ldmd

### We check the configuration to see if everythings is OK, bind and start of ldoms .
Then, we make an init 6 and after that .. bind and start to all ldoms like we show you next


root@ # ldm bind dsunt200
root@ # ldm start dsunt200
LDom dsunt200 started
root@ # ldm bind dsunt100
root@ # ldm start dsunt100
LDom dsunt100 started
root@ # ldm bind dnet1002
root@ # ldm start dnet1002
LDom dnet1002 started

root@ # ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    8     16G      3.7%  3.7%  8d 2h 55m
dnet1002         active     -n----  5002    8     8G       0.7%  0.7%  3s
dsunt100         active     -n----  5000    48    40G      0.0%  0.0%  2s
dsunt200         active     -n----  5001    48    40G      9.1%  1.0%  2s
root@ #


PS : Please forgive my english  ;-) 

miércoles, 14 de septiembre de 2016

Problema con LDMD y solucion aplicada

( english version)
En este documento , describimos con mi compañero Nicolas Morono,  un problema con el demonio ldmd  y como lo recuperar la configuracion de los LDOMs  desde el archivo ldm-db.xml

Al querer asignarle una lun a un dominio nos dio el siguiente error :

# ldm list
Failed to connect to logical domain manager: Connection refused

chequeo y el servicio ldmd esta caido
# svcs -xv
svc:/ldoms/ldmd:default (Logical Domains Manager)
State: maintenance since June 2, 2016 06:36:16 PM ART
Reason: Start method exited with $SMF_EXIT_ERR_FATAL.
See: /var/svc/log/ldoms-ldmd:default.log
Impact: This service is not running.

en el /var/adm/messages estan estos errores registrados

Jun 2 18:36:16 m5-1-pdom2 svc.startd[33]: [ID 652011 daemon.warning] svc:/ldoms/ldmd:default: Method "/opt/SUNWldm/bin/ldmd_start" failed with exit status 95.
Jun 2 18:36:16 m5-1-pdom2 svc.startd[33]: [ID 748625 daemon.error] ldoms/ldmd:default failed fatally: transitioned to maintenance (see 'svcs -xv' for details)
Jun 2 18:36:16 m5-1-pdom2 fmd: [ID 377184 daemon.error] SUNW-MSG-ID: SMF-8000-YX, TYPE: defect, VER: 1, SEVERITY: major
Jun 2 18:36:16 m5-1-pdom2 EVENT-TIME: Thu Jun 2 18:36:16 ART 2016
Jun 2 18:36:16 m5-1-pdom2 PLATFORM: SPARC-M5-32, CSN: AK00xx8x1, HOSTNAME: m5-1-pdom2
Jun 2 18:36:16 m5-1-pdom2 SOURCE: software-diagnosis, REV: 0.1
Jun 2 18:36:16 m5-1-pdom2 EVENT-ID: 889f64a0-0102-efd6-997f-8e83e7fba09a
Jun 2 18:36:16 m5-1-pdom2 DESC: A service failed - a start, stop or refresh method failed.
Jun 2 18:36:16 m5-1-pdom2 AUTO-RESPONSE: The service has been placed into the maintenance state.
Jun 2 18:36:16 m5-1-pdom2 IMPACT: svc:/ldoms/ldmd:default is unavailable.
Jun 2 18:36:16 m5-1-pdom2 REC-ACTION: Run 'svcs -xv svc:/ldoms/ldmd:default' to determine the generic reason why the service failed, the location of any logfiles, and a list of other services impacted. Please refer to the associated reference document at http://support.oracle.com/msg/SMF-8000-YX for the latest service procedures and policies regarding this diagnosis.
Jun 2 18:40:28 m5-1-pdom2 cmlb: [ID 107833 1

En el log del svc  estan estos errores

# cat /var/svc/log/ldoms-ldmd:default.log
Jun 02 18:35:16 timeout waiting for op HVctl_op_get_bulk_res_stat
Jun 02 18:35:16 fatal error: waiting for hv response timeout

[ Jun 2 18:35:16 Stopping because process dumped core. ]
[ Jun 2 18:35:16 Executing stop method (:kill). ]
[ Jun 2 18:35:16 Executing start method ("/opt/SUNWldm/bin/ldmd_start"). ]
Jun 02 18:36:16 timeout waiting for op HVctl_op_hello
Jun 02 18:36:16 fatal error: waiting for hv response timeout

[ Jun 2 18:36:16 Method "start" exited with status 95. ]

Se busco en los documentos de oracle y llegamos a la conclusion de que habia un bug en versiones de firmware inferiores a 1.14.2 que se correspondia con nuestro entorno.
Se abrio un service request para confirmar lo analizado por nosotros y  la solucion propuesta fue la misma.


En si, el bug es en Hypervisors inferiores a la version 1.14.2.
- La solución a corto plazo es realizar un power-cycle del sistema.
- La solución a mediano/largo plazo es actualizar el Firmware del sistema a una version reciente (HypV 1.14.2 o superior). 


Llegado a este punto nos encontramos que las soluciones implican un power-cycle que implica bajar todos los ldoms corriendo y el reinicio total de la maquina.
Optamos por realizar el upgrade de firmware y al realizar el powercycle nos damos cuenta que la ultima configuracion de ldoms guardada es vieja y vamos a perder 6 meses de
modificaciones en las configuraciones de los ldoms. (creaciones de ldoms nuevos, asignaciones de discos, asignacion de placas de red, etc)

La solucion aplicada para solucionar esto fue la siguiente:

Se busco en /var/opt/SUNWldm el archivo ldom-db.xml previo a bootear el equipo, ese archivo tiene toda lo configuracion que esta activa en el pdom
independientemente de si esta o no guardada en la sp.
Se dejo una copia del archivo en /usr/scripts (asi no era necesario realizar un restore del backup )

Se realiza el power-cycle desde ilom 
stop Servers/PDomains/PDomain_2/HOST 
y luego 
start Servers/PDomains/PDomain_2/HOST

Una vez booteado el equipo y con los ldoms bajos y unbind, tomamos backup del archivo ldom-db.xml y deshabilitamos el demonio de ldoms.

root@ # ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    8     16G      0.2%  0.2%  8d 2h 38m
dnet1002         active     -n----  5002    8     8G       0.5%  0.5%  5d 2h 49m
dsunt100         active     -n----  5000    48    40G      0.0%  0.0%  8d 1h 34m
dsunt200         active     -n----  5001    48    40G      0.0%  0.0%  2m
root@#

root@ # ldm stop dsunt200
LDom dsunt200 stopped
root@ # ldm unbind dsunt200

root@ # ldm stop dsunt100
LDom dsunt100 stopped
root@ # ldm unbind dsunt100

root@ # ldm stop dnet1002
LDom dnet1002 stopped
root@ # ldm unbind dnet1002


root@ # ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    8     16G      0.5%  0.5%  8d 2h 40m
dnet1002         inactive     ------      8     8G       
dsunt100         inactive    ------      48    40G      
dsunt200         inactive   ------       48    40G
root@ #


cd /var/opt/SUNWldm
cp -p ldom-db.xml ldom-db.xml.orig
svcadm disable ldmd

##### aca habia backupeado y dejado en /usr/scripts/ el archivo con la data. Ahora pisamos el original de /var/opt/SUNWldm
cp -p /usr/scripts/ldom-db.xml /var/opt/SUNWldm/ldom-db.xml        

# Volvemos a habilitar el demonio.
svcadm enable ldmd

### chequeo la config , bind y start de los dominios si quedaron ok. Aca luego de chequear la configuracion se le dio un init 6 para que reinicie normalmente

y despues de eso se dio bind y start a los dominios.

root@ # ldm bind dsunt200
root@ # ldm start dsunt200
LDom dsunt200 started
root@ # ldm bind dsunt100
root@ # ldm start dsunt100
LDom dsunt100 started
root@ # ldm bind dnet1002
root@ # ldm start dnet1002
LDom dnet1002 started

root@ # ldm ls
NAME             STATE      FLAGS   CONS    VCPU  MEMORY   UTIL  NORM  UPTIME
primary          active     -n-cv-  UART    8     16G      3.7%  3.7%  8d 2h 55m
dnet1002         active     -n----  5002    8     8G       0.7%  0.7%  3s
dsunt100         active     -n----  5000    48    40G      0.0%  0.0%  2s
dsunt200         active     -n----  5001    48    40G      9.1%  1.0%  2s
root@ #


viernes, 13 de mayo de 2016

Creacion de un LDOM paso a paso



Paso a paso de la creacion de un Ldom
Se utilizo un t5-2 . Documento realizado por Nicolas Morono


### Seteamos los parametros de la primary (memoria y cpu)
ldm set-vcpu 16 primary
ldm set-memory 16g primary
### Agregamos vcc vsw vds y los isos de instalacion
## Creamos el virtual console conentrator.
ldm add-vcc port-range=5000-5100 primary-vcc0 primary
## Creamos el virtual network switch
ldm add-vsw net-dev=net4 vsw4 primary
ldm add-vsw net-dev=net5 vsw5 primary
ldm add-vsw net-dev=net1 vsw1 primary
## Creamos el virtual disk server y le agregamos dos isos.
ldm add-vds primary-vds0 primary



#### Creando los zpool
zpool create psunt100_so c0t600014400000001070211E0F481E625Ed0
zpool create psunt200_so c0t600014400000001070211E0F481E625Fd0

### Creando zvols
 zfs set mountpoint=none psunt100_so 
 zfs create -V 75g psunt100_so/vol1
 zfs create -V 200m psunt100_so/volreplicas  (esto es porque dentro del Ldom uso SVM )

 zfs set mountpoint=none psunt200_so 
 zfs create -V 75g psunt200_so/vol1
 zfs create -V 200m psunt200_so/volreplicas


 ### Creando los ldoms
 ldm add-domain psunt100
 ldm add-domain psunt200
 ldm add-vcpu 64 psunt100
 ldm add-vcpu 32 psunt200
 ldm add-memory 64g psunt100
 ldm add-memory 32g psunt200
 ldm add-vnet vnet1 vsw4 psunt100
 ldm add-vnet vnet2 vsw1 psunt100
 ldm add-vnet vnet1 vsw5 psunt200
 ldm add-vnet vnet2 vsw1 psunt200

 ### Me parece muy poca la memoria en los ldoms y mucha en el primary asi que reconfiguro
 ldm start-reconf primary
 ldm set-vcpu 8 primary
 ldm set-memory 16G primary 
 ### Reinicio

 ### Creando el virtual disk server de cada ldom
 ldm  add-vds psunt100-vds0 primary 
 ldm  add-vds psunt200-vds0 primary 

 ### Asignando vdsdevs
 ldm add-vdsdev /dev/zvol/dsk/psunt100_so/vol1 vol1@psunt100-vds0       
 ldm add-vdsdev /dev/zvol/dsk/psunt100_so/volreplicas volreplicas@psunt100-vds0

 ldm add-vdsdev /dev/zvol/dsk/psunt200_so/vol1 vol1@psunt200-vds0               
 ldm add-vdsdev /dev/zvol/dsk/psunt200_so/volreplicas volreplicas@psunt200-vds0 

 ### Asignado vdisk a los ldoms
 ldm add-vdisk vdiskrep volreplicas@psunt100-vds0 psunt100
 ldm add-vdisk vdisk1 vol1@psunt100-vds0 psunt100           

 ldm add-vdisk vdiskrep volreplicas@psunt200-vds0 psunt200 
 ldm add-vdisk vdisk1 vol1@psunt200-vds0 psunt200          

 ### Creando y montando los dvd para instalar y parchear (los dos de una sola vez)
 ldm add-vdsdev options=ro /sun/sol-10-u11-ga-sparc-dvd.iso sol10u11@primary-vds0 
 ldm add-vdsdev options=ro,slice /sun/EIS-DVD-ONE-20APR16.iso eis20160420@primary-vds0

 ldm add-vdsdev options=ro /sun/sol-10-u11-ga-sparc-dvd.iso sol10u11_2@primary-vds0 
 ldm add-vdsdev options=ro,slice /sun/EIS-DVD-ONE-20APR16.iso eis20160420_2@primary-vds0

 ldm add-vdisk sol10u11 sol10u11@primary-vds0 psunt100 
 ldm add-vdisk eis20160420 eis20160420@primary-vds0 psunt100 

 ldm add-vdisk sol10u11 sol10u11_2@primary-vds0 psunt200 
 ldm add-vdisk eis20160420 eis20160420_2@primary-vds0 psunt200 

 ### Seteo variable
 ldm add-variable auto-boot?=false psunt100
 ldm add-variable auto-boot?=false psunt200

 ### Bindeo los ldoms y empiezo a instalar
 ldm bind psunt100
 ldm bind psunt200

 ### Esto para que funcione la consola de las ldom
 svcadm enable svc:/ldoms/vntsd:default

 ### Starteo 
 ldm start psunt100
 ldm start psunt200

### Me conecto y busco el dispositivo del cdrom y le agrego :f al final para que bootee del slice que corresponde
telnet 0 5000
OBP> show-disks
OBP> boot /virtual-devices@100/channel-devices@200/disk@2:f


### Despues de instalar monto el EIS.
mkdir /cdrom
mount -F hsfs -o=ro /dev/dsk/c0d3s0 /cdrom 
cd /cdrom/sun/patch
patch-EIS /var/tmp
cd /var/tmp/10; ./install_all_patches

jueves, 21 de abril de 2016

Backstage de la Review de Solaris

La semana pasada, se contacto conmigo, por email, Javed Mohammed, quien se desempeña como Community Manager para el sector Systems ( persona muy amable por cierto), para ofrecerme una entrevista , y dar mi opinion como Oracle ACE de Solaris,  en la prestigiosa  IT Central Station, esta web es muy utilizada por los CIO, como consulta habitual de opiniones, algo asi como el Tripadvisor para los viajeros, pero enfocado en sistemas.
La entrevista se desarrollo, mediante envio de emails, y un cuestionario en ingles, donde la cuestion a desarrollar era la experiencia sobre Oracle Solaris.

Una vez, finalizada, la devolucion fue en un mail por parte del Community Director de IT, Ariel Lindenfeld el cual me avisaba que ya se encuentra on line la "Review"

Para el que guste leer , les dejo el link de la entrevista






Salgo por un rato del lado tecnico, y agradezco a :
Mi esposa Liliana, que me ayudo a traducir al ingles, lo que deberia haber escrito yo, si le hubiese hecho caso a mis padres cuando me insistian que estudie ingles.
A Rick Ramsey, ex Community Manager de Oracle ( EEUU ), el cual siempre me ayudo y confio en mi cuando escribia y le enviaba articulos tecnicos a Sun Microsystems .
A  Carlos Lazarte, y Diego Torres Dho, que ante cualquier duda especifica que no estan en manuales o en la web, sino mas bien de la experiencia de campo no dudan en darme una mano.
 A mi compañero Nicolas Morono, con el cual a diario desde la trinchera, damos soporte, e investigamos estas tecnologias.
A mis hijas Meli y Cande

lunes, 28 de marzo de 2016

Zfs consume mucha memoria


En los monitoreos , con herramientas externas al S.O. detectaron que el equipo esta consumiendo un total de 96% de la memoria del equipo.
Los administradores de las aplicaciones, no encuentran con los comandos habituales, que haya un consumo excesivo de memoria y mucho menos que aplicacion es la que la esta utilizando.
El vmstat , prstat  no muestran valores significativos ni preocupantes.
Aca es donde hay que mirar un poco mas a fondo.
Para eso utilizo el comando mdb donde observo que el ZFS esta tomando el 67 % de la memoria del equipo
# mdb -kw
Loading modules: [ unix genunix dtrace specfs zfs ldc ip hook neti sockfs dls sctp arp usba fctl nca lofs md cpc random crypto fcip logindmux ptm ufs sppp nfs ipc ]
> ::memstat
Page Summary                Pages                MB  %Tot
------------     ----------------  ----------------  ----
Kernel                     821817              6420   10%
ZFS File Data             5611890             43842   67%
Anon                      1633674             12763   19%
Exec and libs                9035                70    0%
Page cache                   2320                18    0%
Free (cachelist)             3400                26    0%
Free (freelist)            306472              2394    4%
Total                    8388608             65536

root #

Aca, la explicacion :

ZFS cache data o ZFS File Data ( como vemos en la salida del mdb) es donde ZFS almacena ( cachea ) todos los storage pools activos. Zfs crece y consume memoria al inicio del equipo.
Cuando una nueva aplicacion se inicia, necesita memoria, ZFS devuelve de la que tomo.
Hasta el momento, no se ve cual es el problema. Pero ....algunas aplicaciones que cuando inician chequean la freemem, como por ejemplo java,  van a ver que hay poca memoria en la freelist y no van a iniciar.

Aca, la solucion :

Existe un parametro a modificar en el /etc/system , que se le indica al zfs que tome
un maximo X de memoria al inicio, este parametro es zfs:zfs_arc_max .
El valor a asignarle varia dependiendo la cantidad de pooles de zfs que tengamos y la cantidad de memoria.
En mi caso, que tengo solo dos pooles, y 65 gb de ram, opte por limitar a 12b de ram
set zfs:zfs_arc_max=12884901888

Luego del reboot.
chequeo con echo ::memstat | mdb -k
Page Summary                Pages                MB  %Tot
------------     ----------------  ----------------  ----
Kernel                     473869              3702    6%
ZFS File Data             1567085             12242   19%
Anon                      1090066              8516   13%
Exec and libs               10325                80    0%
Page cache                   3339                26    0%
Free (cachelist)             9461                73    0%
Free (freelist)           5234463             40894   62%
Total                    8388608             65536


Nota: Este tunning fue realizado en un solaris 10 1/13 s10s_u11wos_24a SPARC Generic_150400-28
En un T5-2 , con 65 gb de ram

Los parametros y explicaciones estan detallados con nivel de excelencia en la web solarisinternals.com

@diego_qac