18 transmisores de temperatura fuera de línea: análisis de la causa raíz de una falla en un multiplexor de temperatura y cierre de planta

Antecedentes del Incidente: Cuando 36 Etiquetas de Temperatura Marcan Cero
La falla del multiplexor de temperatura es uno de los escenarios de fallo más disruptivos en plantas de proceso. Cuando 18 etiquetas de transmisores de temperatura cayeron simultáneamente a 0°C en la pantalla del PLC, el equipo de operaciones inicialmente lo trató como una falla localizada de instrumentación. Sin embargo, el mismo patrón de falla había sido intermitente durante dos días antes de volverse permanente. Este artículo reconstruye el evento, analiza la cadena de fallos e identifica las acciones correctivas que evitaron un incidente de seguridad más grave.
La planta utilizaba módulos multiplexores de temperatura Phoenix Contact para agregar señales RTD y termopares de múltiples instrumentos de campo antes de transmitir los datos al PLC. Cada unidad MUX manejaba 18 etiquetas de temperatura. La plataforma de control — un Controlador de Seguridad Honeywell Safety Manager SC S300 SIL3 — procesaba estas entradas para monitoreo de procesos y lógica de paro protector.
Primero, entienda la arquitectura: el multiplexor de temperatura no es un simple bloque terminal. Condiciona señales analógicas, realiza conversiones y se comunica con el PLC a través de un bus de campo digital. Una falla en cualquier parte del MUX interrumpe los 18 canales simultáneamente.
Fase 1: Fallas Intermitentes Señalan un Problema en Desarrollo
Dos días antes del paro, los operadores notaron que 18 etiquetas de temperatura mostraban intermitentemente 0°C por unos segundos antes de volver a la normalidad. El equipo de operaciones registró los eventos pero continuó con las operaciones normales mientras esperaba que el equipo de instrumentación investigara. Esta demora fue el primer punto crítico de decisión.
Las fallas intermitentes en una unidad MUX indican degradación interna del hardware — típicamente una fuente de alimentación fallando, un conector flojo en el backplane o inestabilidad en el firmware en desarrollo. Cada evento intermitente es un precursor de falla total, no un fallo benigno.
Además, 18 de esos mismos espacios de etiquetas ya estaban leyendo 0°C debido a un problema preexistente separado. Cuando el MUX del área 1 entró en modo de falla continua, el conteo total de etiquetas con lectura cero saltó a 36. Este volumen de lecturas fallidas sobrepasó la capacidad del operador para distinguir alarmas genuinas del proceso del ruido de instrumentación.
Fase 2: Investigación en Campo y Diagnóstico del LED Rojo
El ingeniero de instrumentación obtuvo un permiso de trabajo y se dirigió al multiplexor de temperatura del área 1. El MUX estaba encendido, pero el LED rojo de falla estaba iluminado. Un reinicio de energía no eliminó la falla — el LED rojo volvió inmediatamente después del reinicio. Un LED de falla persistente que sobrevive a un ciclo de energía indica una falla interna de hardware en lugar de un tiempo de espera de comunicación.
- Paso 1: Verificar el voltaje de la fuente de alimentación DC en los terminales de entrada del MUX. Un voltaje bajo causa operación inestable y banderas de falla persistentes.
- Paso 2: Inspeccionar el montaje del módulo. La vibración que afloja los conectores del backplane es una causa frecuente de pérdida intermitente de señal en módulos multicanal.
- Paso 3: Leer los LEDs de diagnóstico del MUX contra la tabla de códigos de falla del fabricante. Los módulos Phoenix Contact usan patrones de LED para codificar categorías específicas de falla, incluyendo fallas de energía y errores internos del procesador.
- Paso 4: Intentar un reinicio a nivel de firmware usando el botón de reinicio del módulo antes de declarar el módulo como defectuoso.
En este caso, el MUX falló en las cuatro pruebas. El equipo lo declaró correctamente defectuoso y recuperó una unidad de repuesto preconfigurada de almacén.
Fase 3: La Cascada — Falla del MUX del Área 2 Durante el Reemplazo
Mientras el ingeniero reemplazaba el MUX del área 1, el multiplexor de temperatura del área 2 también bajó las 18 etiquetas a 0°C. El ingeniero se apresuró al área 2. Todos los indicadores de diagnóstico del MUX del área 2 aparecían normales. Apagar y encender la unidad hizo que las etiquetas del área 2 se recuperaran inmediatamente.
Esta es la observación más crítica del incidente. El MUX del área 2 se restauró tras un simple reinicio mientras que el área 1 requirió reemplazo de hardware. La falla casi simultánea de ambas unidades apunta a una causa común aguas arriba — muy probablemente una fuente de alimentación común o un evento en la red que afectó a ambas unidades al mismo tiempo.
Por lo tanto, la investigación debe rastrear la fuente de alimentación común que alimenta ambos gabinetes MUX y verificar la estabilidad del voltaje bajo carga completa. Una fuente de alimentación con regulación marginal puede entregar voltaje adecuado con carga ligera pero caer bajo carga completa, provocando condiciones de falla en múltiples módulos simultáneamente.
El Módulo Controlador de Seguridad Honeywell S300 FC-SCNT01 procesó las 36 lecturas simultáneas en cero como condiciones genuinas de baja temperatura. Esto activó la lógica protectora e inició la secuencia de paro de la planta. El sistema de seguridad funcionó correctamente — respondió a los datos que recibió. La falla estuvo en la capa de instrumentación, no en el sistema de seguridad.
Medidas Preventivas y Actualizaciones de Protocolo
- Paso 1: Tratar las fallas intermitentes del MUX como eventos de degradación de hardware. Programar el reemplazo durante la próxima ventana de mantenimiento disponible, no después de que ocurra la falla total.
- Paso 2: Mantener unidades MUX de repuesto preconfiguradas para cada tipo de módulo en servicio. El tiempo de configuración durante una emergencia aumenta el tiempo de inactividad y el riesgo de errores de configuración.
- Paso 3: Añadir salidas de diagnóstico del MUX al sistema de monitoreo del PLC. La mayoría de los multiplexores Phoenix Contact modernos proporcionan una señal de estado de salud que el PLC puede monitorear y alarmar antes de que ocurra la falla total.
- Paso 4: Auditar la calidad de la fuente de alimentación de los gabinetes MUX anualmente. Medir el voltaje bajo carga completa y verificar los niveles de rizado contra la especificación de entrada del fabricante.
- Paso 5: Configurar la validación de entradas del PLC para detectar transiciones masivas repentinas a cero en un solo MUX. Este patrón indica falla de instrumentación y debe activar una clase de alarma diferente a las alarmas genuinas de baja temperatura del proceso, dando a los operadores un contexto claro antes de actuar.
Finalmente, validar el inventario de unidades de repuesto contra la base instalada actual después de cada ciclo de mantenimiento. Las revisiones de hardware del módulo pueden requerir actualizaciones de firmware antes de que una unidad de repuesto pueda reemplazar una unidad instalada de generación actual sin causar errores de comunicación.
Conclusión y Recomendaciones de Acción
Las fallas en multiplexores de temperatura se propagan rápidamente hacia paros de planta cuando muchas entradas de sensores se concentran en módulos de hardware únicos. Este incidente muestra que las fallas intermitentes son advertencias confiables de una falla inminente de hardware. Los equipos de instrumentación deben responder al primer evento intermitente con reemplazo de hardware, no con observación continua. Unidades de repuesto preconfiguradas, monitoreo de salud del MUX a nivel PLC y auditorías periódicas de la fuente de alimentación son las tres medidas preventivas más efectivas contra este tipo de falla. Revisar la arquitectura de distribución de energía compartida entre múltiples unidades MUX es esencial tras cualquier evento de falla simultánea de múltiples unidades.
Autor: Liu Weicheng es un ingeniero de automatización industrial con más de 10 años de experiencia en PLC, DCS y sistemas de control.
