Error de sondeo KGXGN (15)

Al intentar iniciar la segunda instancia en un clúster RAC de dos nodos, la segunda instancia no se iniciará. Si la instancia del nodo 1 se está ejecutando, la instancia del nodo 2 no se iniciará. Si la instancia del nodo 2 se está ejecutando, la instancia del nodo 1 no se iniciará. El registro de alertas muestra lo siguiente:

Error: KGXGN polling error (15) Errors in file /u01/app/oracle/diag/rdbms/bsp/bsp1/trace/bsp1_lmon_9151.trc: ORA-29702: error occurred in Cluster Group Service operation LMON (ospid: 9151): terminating the instance due to error 29702

Desafortunadamente, el archivo de seguimiento LMON solo muestra los mismos mensajes de error, por lo que no hay nada que hacer.

Este error se produce debido a una mala configuración de la interconexión del clúster. Si mira el OCR para ver la interconexión del clúster, puede ver que el dispositivo NIC es eth4.1338:

[oracle@myhost bin]$ oifcfg getif -global eth2 192.168.33.0 global public eth4.1338 10.0.0.0 global cluster_interconnect

En un nodo, el dispositivo eth4 es correcto. Sin embargo, en el segundo nodo, el dispositivo es eth5.1338 y el OCR se comparte entre los nodos. El OCR espera que el dispositivo sea eth4.1338. Ambos servidores necesitan que la interconexión del clúster esté en el mismo dispositivo de red. Se cambió la configuración de red del servidor para que ambos nodos se configuraran en el dispositivo eth5.1338. Una vez que los servidores se configuraron de manera idéntica, redefinimos la configuración de OCR:

[oracle@myhost bin]$ ./oifcfg setif -global eth5.1338/10.0.0.0:cluster_interconnect

Mirando la configuración, podemos ver que tanto eth4 como eth5 todavía están en OCR:

[oracle@myhost bin]$ ./oifcfg getif -global eth2 192.168.33.0 global public eth4.1338 10.0.0.0 global cluster_interconnect eth5.1338 10.0.0.0 global cluster_interconnect

Entonces eliminamos el dispositivo eth4:

[oracle@myhost bin]$ ./oifcfg delif -global eth4.1338/10.0.0.0

Ahora tenemos el OCR reconfigurado. ¡Reiniciamos CRS y ambas instancias aparecieron en ambos nodos!

Este fue uno de esos errores en los que los mensajes de error realmente no señalaron la causa raíz del problema. En su lugar, tuve que hurgar en las áreas que sentí que eran las culpables más probables cuando descubrí ciegamente las diferencias de configuración.