18 Temperaturtransmitter fallen aus: Ursachenanalyse eines Ausfalls eines Temperatur-Multiplexers und Anlagenstillstands

18 Temperature Transmitters Go Offline: Root Cause Analysis of a Temperature Multiplexer Failure and Plant Shutdown

Hintergrund des Vorfalls: Wenn 36 Temperatur-Tags Null anzeigen

Der Ausfall eines Temperatur-Multiplexers ist eines der störendsten Fehler-Szenarien in Prozessanlagen. Als 18 Temperaturtransmitter-Tags gleichzeitig auf 0 °C auf dem SPS-Display fielen, behandelte das Betriebsteam dies zunächst als einen lokalisierten Instrumentierungsfehler. Allerdings trat dasselbe Ausfallmuster bereits zwei Tage intermittierend auf, bevor es dauerhaft wurde. Dieser Artikel rekonstruiert das Ereignis, analysiert die Fehlerkette und identifiziert die Korrekturmaßnahmen, die einen schwerwiegenderen Sicherheitsvorfall verhinderten.

Die Anlage verwendete Phoenix Contact Temperatur-Multiplexer-Module, um RTD- und Thermoelementsignale von mehreren Feldgeräten zu bündeln, bevor die Daten an die SPS übertragen wurden. Jede MUX-Einheit bearbeitete 18 Temperatur-Tags. Die Steuerungsplattform — ein Honeywell Safety Manager SC S300 SIL3 Safety Controller — verarbeitete diese Eingänge zur Prozessüberwachung und für Schutzabschaltlogik.

Zunächst zur Architektur: Der Temperatur-MUX ist kein einfacher Klemmenblock. Er konditioniert analoge Signale, führt Umwandlungen durch und kommuniziert über einen digitalen Feldbus mit der SPS. Ein Fehler irgendwo im MUX unterbricht alle 18 Kanäle gleichzeitig.

Phase 1: Intermittierende Fehler signalisieren ein sich entwickelndes Problem

Zwei Tage vor der Abschaltung bemerkten die Bediener, dass 18 Temperatur-Tags zeitweise für einige Sekunden 0 °C anzeigten, bevor sie wieder normal waren. Das Betriebsteam protokollierte die Ereignisse, setzte den Betrieb jedoch normal fort, während das Instrumentierungsteam die Untersuchung vorbereitete. Diese Verzögerung war der erste kritische Entscheidungspunkt.

Intermittierende Fehler an einem MUX deuten auf eine interne Hardwareverschlechterung hin – typischerweise ein ausfallendes Netzteil, ein loser Backplane-Stecker oder eine sich entwickelnde Firmware-Instabilität. Jedes intermittierende Ereignis ist ein Vorbote eines Totalausfalls, kein harmloser Fehler.

Außerdem zeigten 18 der gleichen Tag-Slots bereits aufgrund eines separaten, vorbestehenden Problems 0 °C an. Als der MUX in Bereich 1 in den Dauerfehler-Modus ging, stieg die Gesamtzahl der Null-Anzeigen auf 36. Dieses Volumen an fehlerhaften Messwerten überforderte die Fähigkeit des Bedieners, echte Prozessalarme von Instrumentierungsrauschen zu unterscheiden.

Phase 2: Felduntersuchung und die Diagnose der roten LED

Der Instrumentierungsingenieur erhielt eine Arbeitserlaubnis und begab sich zum Temperatur-MUX in Bereich 1. Der MUX war eingeschaltet, aber die rote Fehler-LED leuchtete. Ein Neustart der Stromversorgung beseitigte den Fehler nicht – die rote LED erschien sofort nach dem Neustart wieder. Eine dauerhaft leuchtende Fehler-LED, die einen Stromzyklus übersteht, weist auf einen internen Hardwarefehler und nicht auf einen Kommunikationszeitüberschreitung hin.

  • Schritt 1: Überprüfen Sie die Gleichstromversorgungsspannung an den MUX-Eingangsklemmen. Niedrige Spannung verursacht instabilen Betrieb und dauerhafte Fehleranzeigen.
  • Schritt 2: Inspizieren Sie die Modulbefestigung. Durch Vibrationen verursachte Lockerungen an Backplane-Steckverbindern sind eine häufige Ursache für intermittierenden Signalverlust bei Mehrkanalmodulen.
  • Schritt 3: Lesen Sie die MUX-Diagnose-LEDs anhand der Fehlercode-Tabelle des Herstellers ab. Phoenix Contact-Module verwenden LED-Muster zur Kodierung spezifischer Fehlerkategorien, einschließlich Stromausfall und interner Prozessorfehler.
  • Schritt 4: Versuchen Sie einen Firmware-Reset über die Hardware-Reset-Taste des Moduls, bevor Sie das Modul als defekt deklarieren.

In diesem Fall fiel der MUX bei allen vier Prüfungen durch. Das Team erklärte ihn korrekt als defekt und holte eine vorkonfigurierte Ersatz-Einheit aus dem Lager.

Phase 3: Die Kaskade – Ausfall des MUX in Bereich 2 während des Austauschs

Während der Ingenieur den MUX in Bereich 1 austauschte, fiel auch der Temperatur-MUX in Bereich 2 mit allen 18 Tags auf 0 °C. Der Ingenieur eilte zu Bereich 2. Alle Diagnoseanzeigen am MUX in Bereich 2 erschienen normal. Ein Aus- und Wiedereinschalten ließ die Tags in Bereich 2 sofort wiederherstellen.

Dies ist die kritischste Beobachtung im Vorfall. Der MUX in Bereich 2 stellte sich nach einem einfachen Neustart selbst wieder her, während Bereich 1 einen Hardwareaustausch erforderte. Der nahezu gleichzeitige Ausfall beider Einheiten deutet auf eine gemeinsame übergeordnete Ursache hin – höchstwahrscheinlich ein gemeinsames Netzteil oder ein Netzwerkevent, das beide Einheiten gleichzeitig belastete.

Daher muss die Untersuchung die gemeinsame Stromversorgung beider MUX-Schränke zurückverfolgen und die Spannungsstabilität unter Volllast überprüfen. Ein Netzteil mit marginaler Regelung kann bei geringer Last ausreichende Spannung liefern, aber unter Volllast absinken, was gleichzeitig Fehlerbedingungen an mehreren Modulen auslöst.

Der Honeywell S300 FC-SCNT01 Safety Controller Module verarbeitete alle 36 gleichzeitigen Nullwerte als echte Niedertemperaturbedingungen. Dies löste die Schutzlogik aus und initiierte die Anlagenabschaltung. Das Sicherheitssystem funktionierte korrekt – es reagierte auf die empfangenen Daten. Der Fehler lag in der Instrumentierungsschicht, nicht im Sicherheitssystem.

Vorbeugende Maßnahmen und Protokollaktualisierungen

  • Schritt 1: Behandeln Sie intermittierende MUX-Fehler als Hardwareverschlechterung. Planen Sie den Austausch im nächsten verfügbaren Wartungsfenster, nicht erst nach Totalausfall.
  • Schritt 2: Halten Sie vorkonfigurierte Ersatz-MUX-Einheiten für jeden Modultyp vor. Die Konfigurationszeit im Notfall erhöht Ausfallzeiten und das Risiko von Fehlkonfigurationen.
  • Schritt 3: Fügen Sie MUX-Diagnoseausgänge in das SPS-Überwachungssystem ein. Die meisten modernen Phoenix Contact Multiplexer bieten einen Gesundheitsstatus-Signal, das die SPS überwachen und vor Totalausfall alarmieren kann.
  • Schritt 4: Prüfen Sie jährlich die Qualität der Stromversorgung der MUX-Schränke. Messen Sie die Spannung unter Volllast und überprüfen Sie die Ripple-Werte gemäß den Herstellerspezifikationen.
  • Schritt 5: Konfigurieren Sie die SPS-Eingangsvalidierung so, dass plötzliche Massenübergänge auf Null über einen einzelnen MUX erkannt werden. Dieses Muster weist auf einen Instrumentierungsfehler hin und sollte eine andere Alarmklasse als echte Prozess-Niedertemperaturalarmierungen auslösen, um den Bedienern vor der Reaktion klaren Kontext zu geben.

Validieren Sie abschließend den Ersatzgerätebestand nach jedem Wartungszyklus gegen die aktuell installierte Basis. Hardware-Revisionen der Module können Firmware-Updates erfordern, bevor eine Ersatz-Einheit eine aktuelle Generation ohne Kommunikationsfehler ersetzen kann.

Fazit und Handlungsempfehlungen

Ausfälle von Temperatur-Multiplexern führen schnell zu Anlagenabschaltungen, wenn viele Sensoreingänge auf einzelne Hardwaremodule konzentriert sind. Dieser Vorfall zeigt, dass intermittierende Fehler verlässliche Warnungen vor bevorstehenden Hardwareausfällen sind. Instrumentierungsteams müssen beim ersten intermittierenden Ereignis mit einem Hardwareaustausch reagieren, nicht mit weiterer Beobachtung. Vorkonfigurierte Ersatzgeräte, SPS-basierte MUX-Gesundheitsüberwachung und regelmäßige Stromversorgungsprüfungen sind die drei effektivsten vorbeugenden Maßnahmen gegen diese Fehlerart. Die Überprüfung der gemeinsamen Stromverteilungsarchitektur mehrerer MUX-Einheiten ist nach jedem gleichzeitigen Mehrfachausfall unerlässlich.

Autor: Liu Weicheng ist ein Industrieautomatisierungsingenieur mit über 10 Jahren Erfahrung in SPS-, DCS- und Steuerungssystemen.

Zeige alles
Blogbeiträge
Zeige alles
Batch Sequence Control Using DCS Sequential Function Charts: Emerson DeltaV SFC Configuration and Woodward EasyGen 3200 Synchronization Interlock

Chargenfolgensteuerung mit DCS-Sequenzfunktionstabellen: Emerson DeltaV SFC-Konfiguration und Woodward EasyGen 3200 Synchronisationsverriegelung

Die Stapelprozesssteuerung mit formalen IEC 61131-3 Sequential Function Chart-Strukturen in Emerson DeltaV verhindert Deadlocks in Zustandsautomaten und vereinfacht die Einhaltung der ISA-88-Auditvorgaben. Dieser Leitfaden behandelt die Designprinzipien der DeltaV Phase Logic SFC, die Modbus-TCP-Registerzuordnung des Woodward EasyGen 3200 für die Generator-Synchronisationsverriegelung, das Design von Hold- und Abort-Pfaden sowie die Diagnose der vier häufigsten SFC-Stapel-Ausfallmuster.
Foundation Fieldbus H1: Segment Design and Commissioning

Foundation Fieldbus H1: Segmentgestaltung und Inbetriebnahme

Foundation Fieldbus H1 führt Steuerfunktionsblöcke innerhalb von Feldgeräten aus und gewährleistet die Steuerung auch bei Ausfall der Host-Kommunikation – ein entscheidender Vorteil für SIL-2- und SIL-3-Schleifen. Dieser Leitfaden behandelt die Berechnung des FF H1-Leistungsbudgets, die Analyse des Spannungsabfalls, den Soft-Start-Anlaufstromschutz, das 5-Schritte-Inbetriebnahmeverfahren, die Planung der Funktionsblöcke sowie die systematische Fehlerdiagnose bei Segmentausfällen, intermittierendem Geräteausfall und Fehlern im Abschlusswiderstand.
PROFINET IO Communication Fault Diagnosis: ABB AC500 CM575-PNIO and Phoenix Contact AXL F DI16 Field Troubleshooting

PROFINET IO Kommunikationsfehlerdiagnose: ABB AC500 CM575-PNIO und Phoenix Contact AXL F DI16 Feldfehlerbehebung

PROFINET IO-Kommunikationsfehler zwischen ABB AC500 CM575-PNIO und Phoenix Contact Axioline F verteilten I/O-Systemen sind eine häufige Ursache für ungeplante Ausfallzeiten. Dieser Leitfaden behandelt die Überprüfung der physikalischen Schichtkabel, die Verifikation der GSDML-Version, die Behebung von Gerätenamen-Konflikten, die Anpassung des AR-Watchdogs sowie ein sechsstufiges Fehlerisolationsverfahren unter Verwendung der DIAG_STATUS-Registerbitzuordnung und der Kanal-Diagnosealarme.