Pues sí, que hay trabajos y trabajos y que el que me tocó en la tómbola de la vida no es vida. Y es que la informática mal, pero los sistemas informáticos, peor, pero si además das servicio a 5000 empresas en Internet, ni te cuento…

Llevamos dos semanas en un sinvivir. Y todo por nuestra culpa: se nos ocurre montar los servicios de correo (unas 50.000 cuentas) en un cluster para tener “máxima disponibilidad”, “mayor eficacia” y, en fin, todo para bien. Lo hacemos conscientes de que a los usuarios debe ser transparente y solo mejorar. Pues la cagamos, bueno, no nosotros, los sistemas, pero es que estamos detrás, que le vamos a hacer.

El sistema pensado era chulo, de esos que te enorgullecen ya que no conoces a nadie que los tenga para montarlo y encima aúna todo para que funcione fenomenal. Ponemos tres pedazo-de-equipos accediendo a una cabina de discos en forma activo-activo, es decir, los tres acceden al mismo filesystem en lectura-escritura y unos balanceadores de carga previos reparten las tareas para que no se cansen. Todo demasaiao…

Pues eso, que todo funciona bien desde que empezamos la migración (hace más de tres meses) hasta finales de agosto. Todo se había trasferido, solo faltaban un par de cosillas que tocar para que se accediera al sistema configurado de forma balanceada. Lo hacemos el 27 de agosto y parece que, si bien presenta más carga de la esperada para esas fechas, funciona.

Pero es que faltaba septiembre con los usuarios ansiosos de leer todo su correo acumulado. El lunes 3 empieza a fallar, no está claro en qué pero seguro que no va bien. Vemos que hay una sobrecarga en los servidores que los hace casi inoperativos pero los servicios están correctos. A final de día observamos que el acceso a la cabina no es fluido y que al demorarse el acceso a los ficheros, los servicios se acumulan y la sobrecarga está servida.

A partir de allí empieza el sinvivir comentado y el cúmulo de desgracias de dos semanas. Montamos equipos nuevos para descargar de tareas (y ficheros accedidos) al cluster. Parece que mejora pero de vez en cuando todavía se cae lo que queda en los equipos del cluster. Trasferimos más dominios y cuentas a los dos nuevos montados: mejora pero, como las desgracias no van solas, uno de los servidores nuevos cae sin más explicaciones…

A todo esto, los usuarios, con toda razón, están que trinan. Y es que un día o dos con problemas de correo se llevan, pero casi diez, es imposible. A veces creo que los usuarios tenemos más paciencia que Job…

Dejamos la semana pasada con un sistema semiestable. El lunes comienzan los problemas que arrastramos hasta hoy. Hoy el acceso a la cabina de discos se ha hecho imposible aun sin servicios activos. Solo a las 18 horas hemos conseguido el acceso para recuperar lo que queda. Mientras tanto hemos montado dos nuevos servidores y puesto operativo el correo, aun perdiendo momentáneamente lo archivado (eso lo hacemos mañana). Ahora estamos copiando una buena cantidad de GB.

Así que esta es la vida. Ha habido días de dormir 3 o 4 horas y encima sin tener la certeza de que todo funcione bien…

Bueno, en el axioma de que ningún mal viene solo, se me rompe un disco duro de mi equipo (solo 200 GB de información, la mayoría inutil, claro) y a mi compañera Isabel el portátil. A recuperar y empezar…

No es mi mejor momento, en otra oportunidad estaré más en forma…

Antonio

PS: No se os ocurra montar un sistema de cluster en Linux contra cabina IBM DS4300 con sistema OCFS. Aunque tampoco tengo claro que todo eso sea lo que ha fallado. En fin…

Etiquetas: ,