18 Bộ truyền nhiệt độ ngừng hoạt động: Phân tích nguyên nhân gốc rễ của sự cố bộ đa kênh nhiệt độ và việc đóng cửa nhà máy

Bối cảnh sự cố: Khi 36 thẻ nhiệt độ hiển thị bằng không
Hỏng bộ đa kênh nhiệt độ là một trong những tình huống lỗi gây gián đoạn nghiêm trọng nhất trong các nhà máy quy trình. Khi 18 thẻ cảm biến nhiệt độ đồng loạt giảm xuống 0°C trên màn hình PLC, đội vận hành ban đầu coi đó là lỗi thiết bị đo cục bộ. Tuy nhiên, mẫu lỗi tương tự đã xuất hiện gián đoạn trong hai ngày trước khi trở thành lỗi cố định. Bài viết này tái hiện sự kiện, phân tích chuỗi lỗi và xác định các biện pháp khắc phục đã ngăn chặn một sự cố an toàn nghiêm trọng hơn.
Nhà máy sử dụng các mô-đun bộ đa kênh nhiệt độ Phoenix Contact để tổng hợp tín hiệu RTD và nhiệt điện từ nhiều thiết bị hiện trường trước khi truyền dữ liệu đến PLC. Mỗi bộ MUX xử lý 18 thẻ nhiệt độ. Nền tảng điều khiển — Honeywell Safety Manager SC S300 SIL3 Safety Controller — xử lý các đầu vào này để giám sát quy trình và logic ngắt bảo vệ.
Trước tiên, hãy hiểu kiến trúc: bộ đa kênh nhiệt độ không phải là một khối đầu cuối đơn giản. Nó điều chỉnh tín hiệu analog, thực hiện chuyển đổi và giao tiếp với PLC qua fieldbus kỹ thuật số. Lỗi ở bất kỳ vị trí nào trong MUX sẽ làm gián đoạn đồng thời tất cả 18 kênh.
Giai đoạn 1: Lỗi gián đoạn báo hiệu vấn đề đang phát triển
Hai ngày trước khi ngừng hoạt động, các nhân viên vận hành nhận thấy 18 thẻ nhiệt độ thỉnh thoảng hiển thị 0°C trong vài giây rồi trở lại bình thường. Đội vận hành ghi nhận các sự kiện nhưng tiếp tục vận hành bình thường trong khi chờ đội thiết bị đo kiểm tra. Sự chậm trễ này là điểm quyết định quan trọng đầu tiên.
Lỗi gián đoạn trên một bộ MUX cho thấy phần cứng bên trong đang suy giảm — thường là nguồn điện hỏng, đầu nối backplane lỏng lẻo hoặc firmware phát triển không ổn định. Mỗi sự kiện gián đoạn là dấu hiệu báo trước cho lỗi hoàn toàn, không phải là sự cố nhỏ không đáng kể.
Hơn nữa, 18 khe thẻ đó đã hiển thị 0°C do một sự cố tồn tại trước đó. Khi bộ MUX khu vực 1 chuyển sang chế độ lỗi liên tục, tổng số thẻ đọc bằng không tăng lên 36. Số lượng lớn các giá trị đọc lỗi này làm cho người vận hành khó phân biệt giữa cảnh báo quy trình thực sự và nhiễu thiết bị đo.
Giai đoạn 2: Điều tra hiện trường và chẩn đoán đèn LED đỏ
Kỹ sư thiết bị đo đã xin phép làm việc và tiến đến bộ MUX nhiệt độ khu vực 1. Bộ MUX được cấp nguồn nhưng đèn LED lỗi màu đỏ sáng. Khởi động lại nguồn không xóa được lỗi — đèn LED đỏ bật lại ngay sau khi khởi động. Đèn LED lỗi liên tục tồn tại sau khi khởi động lại nguồn cho thấy lỗi phần cứng bên trong chứ không phải do timeout giao tiếp.
- Bước 1: Kiểm tra điện áp nguồn DC tại các đầu vào của bộ MUX. Điện áp thấp gây hoạt động không ổn định và báo lỗi liên tục.
- Bước 2: Kiểm tra vị trí lắp mô-đun. Rung động làm lỏng đầu nối backplane là nguyên nhân phổ biến gây mất tín hiệu gián đoạn trên các mô-đun đa kênh.
- Bước 3: Đọc đèn LED chẩn đoán của bộ MUX theo bảng mã lỗi của nhà sản xuất. Các mô-đun Phoenix Contact sử dụng các mẫu đèn LED để mã hóa các loại lỗi cụ thể bao gồm mất nguồn và lỗi bộ xử lý nội bộ.
- Bước 4: Thử đặt lại firmware bằng nút reset phần cứng của mô-đun trước khi xác định mô-đun bị lỗi.
Trong trường hợp này, bộ MUX không vượt qua cả bốn bước kiểm tra. Đội ngũ đã xác định đúng là mô-đun bị lỗi và lấy một bộ dự phòng đã cấu hình sẵn từ kho.
Giai đoạn 3: Hiện tượng lan truyền — Lỗi bộ MUX khu vực 2 trong quá trình thay thế
Khi kỹ sư đang thay bộ MUX khu vực 1, bộ MUX nhiệt độ khu vực 2 cũng giảm tất cả 18 thẻ xuống 0°C. Kỹ sư vội đến khu vực 2. Tất cả chỉ báo chẩn đoán trên bộ MUX khu vực 2 đều bình thường. Tắt và bật lại nguồn khiến các thẻ khu vực 2 phục hồi ngay lập tức.
Đây là quan sát quan trọng nhất trong sự cố. Bộ MUX khu vực 2 tự phục hồi sau khởi động lại đơn giản trong khi khu vực 1 cần thay phần cứng. Lỗi gần như đồng thời của cả hai bộ cho thấy nguyên nhân chung từ nguồn cấp hoặc sự kiện mạng gây áp lực lên cả hai cùng lúc.
Do đó, cuộc điều tra phải truy tìm nguồn cấp chung cho cả hai tủ MUX và kiểm tra độ ổn định điện áp khi tải đầy đủ. Nguồn điện có điều chỉnh kém có thể cung cấp điện áp đủ khi tải nhẹ nhưng sụt áp khi tải đầy đủ, gây lỗi đồng thời trên nhiều mô-đun.
Mô-đun Bộ điều khiển An toàn Honeywell S300 FC-SCNT01 xử lý tất cả 36 giá trị đọc bằng không đồng thời như điều kiện nhiệt độ thấp thực sự. Điều này kích hoạt logic bảo vệ và khởi động chuỗi ngừng hoạt động nhà máy. Hệ thống an toàn hoạt động chính xác — nó phản hồi dữ liệu nhận được. Lỗi nằm ở lớp thiết bị đo, không phải hệ thống an toàn.
Biện pháp phòng ngừa và cập nhật quy trình
- Bước 1: Xử lý lỗi gián đoạn của bộ MUX như dấu hiệu suy giảm phần cứng. Lên kế hoạch thay thế trong đợt bảo trì tiếp theo, không chờ đến khi lỗi hoàn toàn xảy ra.
- Bước 2: Duy trì các bộ MUX dự phòng đã cấu hình sẵn cho mỗi loại mô-đun đang sử dụng. Thời gian cấu hình trong tình huống khẩn cấp làm tăng thời gian ngừng hoạt động và nguy cơ lỗi cấu hình.
- Bước 3: Thêm đầu ra chẩn đoán MUX vào hệ thống giám sát PLC. Hầu hết bộ đa kênh Phoenix Contact hiện đại cung cấp tín hiệu trạng thái sức khỏe mà PLC có thể giám sát và cảnh báo trước khi lỗi hoàn toàn xảy ra.
- Bước 4: Kiểm tra chất lượng nguồn cấp cho tủ MUX hàng năm. Đo điện áp khi tải đầy đủ và kiểm tra mức gợn sóng so với thông số kỹ thuật đầu vào của nhà sản xuất.
- Bước 5: Cấu hình xác thực đầu vào PLC để phát hiện chuyển đổi hàng loạt đột ngột về 0 trên một bộ MUX. Mẫu này cho thấy lỗi thiết bị đo và nên kích hoạt loại cảnh báo khác với cảnh báo nhiệt độ thấp thực sự, giúp người vận hành có bối cảnh rõ ràng trước khi hành động.
Cuối cùng, kiểm tra tồn kho bộ dự phòng so với cơ sở lắp đặt hiện tại sau mỗi chu kỳ bảo trì. Phiên bản phần cứng mô-đun có thể yêu cầu cập nhật firmware trước khi bộ dự phòng có thể thay thế mô-đun thế hệ hiện tại mà không gây lỗi giao tiếp.
Kết luận và lời khuyên hành động
Lỗi bộ đa kênh nhiệt độ lan truyền nhanh chóng dẫn đến ngừng hoạt động nhà máy khi nhiều đầu vào cảm biến tập trung vào các mô-đun phần cứng đơn lẻ. Sự cố này cho thấy lỗi gián đoạn là cảnh báo đáng tin cậy về sự cố phần cứng sắp xảy ra. Đội thiết bị đo phải phản ứng với sự kiện gián đoạn đầu tiên bằng việc thay thế phần cứng, không phải quan sát tiếp. Bộ dự phòng cấu hình sẵn, giám sát sức khỏe MUX ở cấp PLC và kiểm tra nguồn điện định kỳ là ba biện pháp phòng ngừa hiệu quả nhất chống lại loại lỗi này. Xem xét kiến trúc phân phối điện chung giữa nhiều bộ MUX là cần thiết sau bất kỳ sự kiện lỗi đồng thời đa bộ nào.
Tác giả: Liu Weicheng là kỹ sư tự động hóa công nghiệp với hơn 10 năm kinh nghiệm về PLC, DCS và hệ thống điều khiển.
