Sự Sụp Đổ Hiệu Suất SCADA Khi Đổi Ca: Chẩn Đoán Tăng Tải Đồng Thời Trên GE HMI và Honeywell Experion

Triệu chứng: SCADA Bị Đơ Chỉ Trong Thời Gian Chuyển Ca
Nhân viên vận hành báo cáo rằng hệ thống SCADA trở nên không phản hồi trong quá trình chuyển ca. Các trang đồ họa tải chậm. Việc xác nhận báo động mất từ 5–10 giây. Giá trị tag tạm thời bị đóng băng trên các màn hình xu hướng. PLC vẫn hoạt động bình thường. Các thiết bị hiện trường hiển thị giá trị chính xác. Tình trạng đơ tự hết sau 15–20 phút.
Mô hình này cho thấy có sự tăng tải phía máy chủ, không phải vấn đề giao tiếp hiện trường. Hệ thống GE HMI Proficy iFIX và Honeywell Experion PKS đều gặp phải sự cố này khi nhiều sự kiện xảy ra đồng thời tại ranh giới ca làm việc. Hiểu rõ từng sự kiện giúp xác định nguyên nhân chính.
Nguyên nhân gốc 1: Khởi động lại trạm làm việc đồng thời và đăng ký lại tag
Khi chuyển ca, nhân viên ca trước đóng ứng dụng SCADA. Nhân viên ca sau khởi động lại ứng dụng mới. Trên GE HMI Proficy iFIX, mỗi lần khởi động lại trạm làm việc sẽ kích hoạt tải xuống toàn bộ đăng ký tag từ máy chủ SCADA. Nếu 8 trạm làm việc khởi động lại trong vòng 2 phút, máy chủ sẽ xử lý 8 yêu cầu đăng ký đồng thời.
Mỗi đăng ký bao gồm truy vấn cơ sở dữ liệu, tra cứu tag và thiết lập định tuyến dữ liệu thời gian thực. Dịch vụ GE Proficy Cim-Manager xử lý các yêu cầu này. Khi tải nặng, độ sâu hàng đợi vượt quá giới hạn bộ đệm. Các yêu cầu đăng ký mới phải chờ trong hàng đợi. Sự chậm trễ này biểu hiện dưới dạng tải đồ họa chậm trên phía khách hàng.
Giải pháp: Cấu hình các trạm làm việc sử dụng tính năng tiếp tục ứng dụng thay vì khởi động lại hoàn toàn. Trong Proficy iFIX, bật tùy chọn Auto-Resume trong thuộc tính workspace iFIX. Điều này tái sử dụng các đăng ký tag hiện có thay vì xây dựng lại từ đầu. Thời gian khởi động giảm từ 45 giây xuống dưới 10 giây.
Nguyên nhân gốc 2: Đợt xác nhận báo động và cơn bão ghi cơ sở dữ liệu
Trong quá trình chuyển ca, nhân viên ca trước xác nhận các báo động tích lũy. Một ca làm việc điển hình tạo ra 200–400 sự kiện báo động. Nếu còn 80% chưa được xác nhận, nhân viên ca sau sẽ xác nhận hàng loạt. Mỗi xác nhận tạo ra một giao dịch ghi cơ sở dữ liệu ghi lại tên nhân viên, thời gian, ID báo động và bình luận.
Trong Honeywell Experion PKS, các sự kiện báo động ghi vào Cơ sở dữ liệu Báo động (ADB). Mỗi lần ghi yêu cầu cập nhật chỉ mục. Khi tải đột biến, hàng đợi cập nhật chỉ mục tăng nhanh hơn khả năng xử lý I/O đĩa. Máy chủ Báo động Experion phản hồi với độ trễ tăng lên. Các cửa sổ báo động xuất hiện chậm 3–5 giây. Các mô-đun điều khiển Honeywell và thành phần hệ thống C300 của chúng tôi được thiết kế để duy trì sự ổn định dưới các điều kiện tải này.
Trên GE Proficy iFIX, việc xác nhận báo động ghi vào cơ sở dữ liệu lịch sử qua SCU (System Configuration Utility). Nếu historian nằm trên cùng máy chủ, cạnh tranh I/O đĩa càng trầm trọng hơn. Proficy Process Historian có thể mất dữ liệu trong khoảng thời gian này.
Giải pháp: Bật tính năng lưu trữ báo động cho các báo động ưu tiên thấp trước khi kết thúc ca. Trong Experion PKS, cấu hình tính năng lưu trữ báo động trong tab Cấu hình Báo động. Lưu trữ tối đa 50% báo động ưu tiên thấp chưa được xác nhận. Điều này giảm đợt xác nhận bằng cách loại bỏ các sự kiện không quan trọng.
Nguyên nhân gốc 3: Tự động tạo báo cáo ca và quá tải truy vấn
Cả hai nền tảng SCADA GE và Honeywell đều hỗ trợ tạo báo cáo tự động vào các thời điểm đã lên lịch. Các báo cáo ca phổ biến bao gồm tổng sản lượng, tóm tắt thời gian ngừng máy, thống kê báo động và tiêu thụ năng lượng. Các báo cáo này truy vấn cơ sở dữ liệu lịch sử với hàng ngàn điểm dữ liệu.
Nếu bộ máy tạo báo cáo chạy trên máy chủ SCADA, nó cạnh tranh tài nguyên CPU và đĩa với các hoạt động thời gian thực. Một truy vấn báo cáo ca điển hình trên GE Proficy Process Historian mất 8–12 giây để thực thi. Trong khoảng thời gian đó, máy chủ SCADA giảm khả năng cập nhật tag và xử lý báo động.
Trong Honeywell Experion PKS, trạm làm báo cáo tạo báo cáo qua Máy chủ Báo cáo Experion. Nếu trạm làm báo cáo chia sẻ cùng máy chủ với Máy chủ Ứng dụng Experion, tải truy vấn làm giảm hiệu năng thời gian thực. Bộ Giám sát Sức khỏe Máy chủ cho thấy CPU tăng lên 85–95% trong quá trình tạo báo cáo.
Giải pháp: Lên lịch tạo báo cáo ca chạy sau 10 phút kể từ khi chuyển ca, không phải ngay thời điểm chuyển giao. Điều này tách biệt truy vấn báo cáo khỏi đợt xác nhận báo động. Kiểm tra lịch trình trong Experion Report Designer hoặc bộ lập lịch báo cáo Proficy Process Historian.
Quy trình chẩn đoán từng bước
Khi xảy ra hiện tượng đơ, thu thập dữ liệu chẩn đoán ngay lập tức. Không chờ đến ca làm việc tiếp theo.
- Bước 1: Mở Trình quản lý tác vụ Windows trên máy chủ SCADA. Ghi lại mức sử dụng CPU, bộ nhớ và độ dài hàng đợi đĩa. Xác định nút thắt cổ chai là CPU, RAM hay I/O đĩa.
- Bước 2: Kiểm tra Trình xem sự kiện Windows để tìm lỗi ghi cơ sở dữ liệu hoặc hết thời gian dịch vụ. Tìm Event ID 833 (độ trễ cơ sở dữ liệu vượt mức) trong nhật ký Experion hoặc Event ID 4096 trong nhật ký Proficy iFIX.
- Bước 3: Xem xét số lượng đăng ký tag SCADA. Trong Experion PKS, dùng Station Manager để hiển thị thống kê đăng ký đang hoạt động. Trong GE Proficy iFIX, dùng màn hình Chẩn đoán Hệ thống để kiểm tra độ sâu hàng đợi Cim-Manager.
- Bước 4: Kiểm tra nhật ký báo động để tìm mẫu đợt bùng phát. Đếm số lần xác nhận báo động trong cửa sổ 5 phút quanh thời điểm chuyển ca. Nếu số lượng vượt quá 50 lần mỗi phút, cơn bão ghi cơ sở dữ liệu là nguyên nhân chính.
- Bước 5: Kiểm tra lịch trình tạo báo cáo. Tìm các báo cáo được cấu hình bắt đầu ngay thời điểm chuyển ca. Dời thời gian bắt đầu 10–15 phút để giảm trùng lặp.
Kết luận và lời khuyên hành động
Sự sụt giảm hiệu năng SCADA khi chuyển ca xuất phát từ ba sự kiện đồng thời. Thứ nhất, các trạm làm việc khởi động lại và đăng ký lại tất cả các tag cùng lúc. Thứ hai, nhân viên xác nhận hàng loạt các báo động tích lũy, tạo ra cơn bão ghi cơ sở dữ liệu. Thứ ba, các báo cáo ca tự động truy vấn cơ sở dữ liệu lịch sử vào thời điểm tải cao.
Trên GE HMI Proficy iFIX, bật Auto-Resume để loại bỏ việc xây dựng lại đăng ký hoàn toàn. Trên Honeywell Experion PKS, bật lưu trữ báo động và lên lịch lại báo cáo sau 10 phút kể từ khi chuyển ca. Cả hai nền tảng đều được lợi khi di chuyển cơ sở dữ liệu lịch sử sang máy chủ riêng biệt. Điều này tách biệt xử lý tag thời gian thực khỏi khối lượng truy vấn báo cáo. Các mô-đun I/O Honeywell đáng tin cậy đảm bảo dữ liệu hiện trường được giữ nguyên ngay cả khi có sự tăng tải phía máy chủ.
Ghi lại các kết quả chẩn đoán trong CMMS của nhà máy. Tạo quy trình hiệu năng chuyển ca phân bổ ba sự kiện tải này trong khoảng 30 phút. Theo dõi kết quả trong hai tuần. Nếu mức sử dụng CPU vẫn vượt 80% trong chuyển ca, cân nhắc nâng cấp máy chủ SCADA hoặc thêm máy chủ thứ hai để phân phối tải.
