Project

General

Profile

Feature #2823

南昌三号线QTISCSv304主服务器em_nsv异常退出,调度客户端界面死数不更新,屏1切图卡在初始加载底图-屏2点击切图无效果(20230208-8点07:23-07:33故障-08:25人工重启服务器)

Added by yufeng wu over 1 year ago. Updated over 1 year ago.

Status:
In Progress
Priority:
Normal
Assignee:
-
Start date:
02/09/2023
Due date:
04/10/2023
% Done:

0%

Estimated time:
(Total: 0.00 h)

Description

1)解决em_nsv异常退出问题
2)解决调度客户机切图卡住和切图无效问题(ehmi发出新订阅消息后--没收到dsv返回的订阅数据前,页面切图卡住-切图无效问题)
20230208 9:13 接到南昌三号线 电科姜峰报 调度+维保8:00抢修令 OCC调度所有席位+大屏页面数据,不更新数据图,切图卡住-无效不跳转页面
据维保人员描述,20230208 8点多左右,维保通号现场分别在历史1、历史2上查看ehmon,均显示主域控、主采集、主处理、主授权都在历史1节点上
环调1工作站,和电调工作站,操作屏1切图,页面卡在初始加载不出,点击屏2尝试切换页面,界面无任何反映
08:25开始人工退出历史2,08:27:24先后重启历史2:ip10.31/32.40.14+历史1:ip.13台服务器的em_sys守护后,故障修复
南昌三QTISCS 当前 采用2台历史服务器互为冗余的部署运行方式(每台兼有5个服务=历史、auth、域控、dac、daq服务器)
QTISCS版本v3.0.4 (未更sp1,未更sp2)
历史记录显示:20230723--0733网络节点开始报离线停机,em_nsv.exe 进程三次异常退出-再启动(7:24:34-4秒后守护启动,7:26:19-1秒后守护启动,7:32:11-1秒后守护启动)
2023-02-08 07:24:33.099 事项 未恢复 主机 历史服务器1 成为 主授权服务器
2023-02-08 07:24:33.099 事项 未恢复 历史服务器1 主机状态 停机 -> 主服务器
2023-02-08 07:24:33.099 事项 未恢复 主机 历史服务器1 成为 主数据采集服务器
2023-02-08 07:24:33.099 事项 未恢复 主机 历史服务器1 成为 主数据处理服务器
2023-02-08 07:24:34.114 事项 未恢复 主机 历史服务器1 上的进程 网络服务进程 正常退出
2023-02-08 07:24:34.509 事项 未恢复 主机 历史服务器2 成为 主授权服务器
2023-02-08 07:24:34.509 事项 未恢复 历史服务器2 主机状态 运行 -> 主服务器
2023-02-08 07:24:34.509 事项 未恢复 主机 历史服务器2 成为 主数据采集服务器
2023-02-08 07:24:34.509 事项 未恢复 主机 历史服务器2 成为 主数据处理服务器
2023-02-08 07:24:38.021 事项 未恢复 主机 历史服务器1 上的进程 网络服务进程 启动
2023-02-08 07:26:18.101 事项 未恢复 主机 历史服务器1 成为 主授权服务器
2023-02-08 07:26:18.101 事项 未恢复 历史服务器1 主机状态 停机 -> 主服务器
2023-02-08 07:26:18.101 事项 未恢复 主机 历史服务器1 成为 主数据采集服务器
2023-02-08 07:26:18.101 事项 未恢复 主机 历史服务器1 成为 主数据处理服务器
2023-02-08 07:26:19.101 事项 未恢复 主机 历史服务器1 上的进程 网络服务进程 正常退出
2023-02-08 07:26:19.512 事项 未恢复 主机 历史服务器2 成为 主授权服务器
2023-02-08 07:26:19.512 事项 未恢复 主机 历史服务器2 成为 主数据采集服务器
2023-02-08 07:26:19.512 事项 未恢复 主机 历史服务器2 成为 主数据处理服务器
2023-02-08 07:26:20.180 事项 未恢复 主机 历史服务器1 上的进程 网络服务进程 启动
2023-02-08 07:26:20.239 事项 未恢复 电调工作站1 主机状态 运行 -> 主服务器******
2023-02-08 07:26:20.272 事项 未恢复 实时服务器1 主机状态 运行 -> 主服务器******
2023-02-08 07:32:11.229 事项 未恢复 主机 历史服务器1 上的进程 网络服务进程 正常退出
2023-02-08 07:32:11.498 事项 未恢复 主机 历史服务器2 成为 主授权服务器
2023-02-08 07:32:11.498 事项 未恢复 主机 历史服务器2 成为 主数据采集服务器
2023-02-08 07:32:11.498 事项 未恢复 主机 历史服务器2 成为 主数据处理服务器
2023-02-08 07:32:12.166 事项 未恢复 主机 历史服务器1 上的进程 网络服务进程 启动
此时以后至8:25,除了环调1工作站还是反复异常外,其他节点未报异常
人工重启历史2守护
2023-02-08 08:25:59.338 事项 未恢复 历史服务器2 主机状态 运行 -> 停机
2023-02-08 08:25:59.338 事项 未恢复 历史服务器2 A网 正常 -> 异常
2023-02-08 08:25:59.338 事项 未恢复 历史服务器2 B网 正常 -> 异常
2023-02-08 08:27:27.328 事项 未恢复 历史服务器2 主机状态 停机 -> 运行
2023-02-08 08:27:27.328 事项 未恢复 历史服务器2 A网 异常 -> 正常
2023-02-08 08:27:27.328 事项 未恢复 历史服务器2 B网 异常 -> 正常
人工重启历史1守护
2023-02-08 08:33:34.872 事项 未恢复 历史服务器1 主机状态 运行 -> 停机
2023-02-08 08:33:34.872 事项 未恢复 历史服务器1 A网 正常 -> 异常
2023-02-08 08:33:34.872 事项 未恢复 历史服务器1 B网 正常 -> 异常
2023-02-08 08:34:37.876 事项 未恢复 历史服务器1 主机状态 停机 -> 运行
2023-02-08 08:34:37.876 事项 未恢复 历史服务器1 A网 异常 -> 正常
2023-02-08 08:34:37.876 事项 未恢复 历史服务器1 B网 异常 -> 正常
人工切换,将历史1切为主域控(主网络服务器)
2023-02-08 08:44:38.984 事项 未恢复 历史服务器1 主机状态 运行 -> 主服务器
2023-02-08 08:44:38.984 事项 未恢复 主机:历史服务器2 请求切换历史服务器1为 主网络服务器
2023-02-08 08:44:38.984 事项 未恢复 历史服务器2 主机状态 主服务器 -> 运行

20230209凌晨施工点,a)更新部署扩容的logset.ini,重启平台守护,启动em_loger,使新记录日志参数生效运行;
b)升级wireshark到4.0版本,增加对loopback回环网卡的抓包,部署100m单个循环抓包脚本后台运行
发现环调1、环调2、电调1的防火墙处于开启状态,这应该是nsv异常退出的主要原因。
要求自查,em_nsv.exe服务是否存在异常崩退的bug,若有,需要打补丁


Subtasks

Bug #2824: QTISCS通病=ehmi切图卡住和切图无效问题(ehmi发出新订阅消息后--没收到dsv返回的订阅数据前,页面切图卡住-切图无效问题)Resolved

Actions
Feature #2848: QTISCSv3.0.4sp3针对南昌三号线故障优化调整nsv解决主域控仅能在服务器间切换和ehmi解决脚本导致切图卡慢问题New

Actions

History

#1

Updated by yufeng wu over 1 year ago

  • Status changed from New to In Progress

20230212 12:00公司内部紧急会议讨论
对外:
已回复:环调1、环调2、电调1防火墙开启,但20230211接到业主给电科的回复,不接受这样的原因分析,要求下周派研发人员去下现场跟业主分析、解释原因和故障发生的软件技术过程
a)证据,1条就可以。
b)如何产生故障,过程中是如何影响的?
给出问题原因证据和分析,解决方案,解决时间节点
已跟业主约好2月15日到达南昌现场,下午会议详细分析讨论问题,晚上申请了施工点,争取打304sp最新补丁。

对内找到真正的原因:
要求:必须有证据支撑
1)抓包显示:以上3个节点至主服务器ip13的5350端口nsv通讯正常,防火墙开启状态下,通讯畅通
需要进一步查找真实原因
2)抓包显示:抽查环调1至主服务器ip13的抓包,发现20230208 7:24:29开始,客户机ehmi向dsv的粘包大数据订阅请求数据包
2.1)是否这是导致网络堵塞,继而导致nsv异常
2.2)源头上消除这个bug
2.3)这是导致切图卡死,切图点击无效的原因,要求订阅数据回答异常,不影响正常切图

3)是否还有其他原因,故障分析进展如何?要求出故障分析报告

4)em_loger.exe静默记录日志系统文件在运行时,为什么整个log目录拷贝会发生漏拷贝文件的情况,希望解决,
为以后出现故障后,力求能正常拿到完整的日志记录。

Also available in: Atom PDF