数字储能网讯:
最新白皮书:《电池储能系统火灾爆炸故障树分析》
作者:约翰·穆诺(John Munno)
亚瑟·加拉格尔公司能源风险工程总监
电池储能系统(BESS)在电网中日益普及,但规模扩大伴随风险攀升。集装箱式系统的火灾爆炸事故仍时有发生,多数根本原因可追溯至可预防的故障:探测失效、隔离缺陷、通风不足或固件问题。
为助力工程师、核保人与风险管理者评估管控此类风险,现发布深度技术指南:
本白皮书详解:
热失控、集装箱火灾及爆燃现象的故障树构建方法
电芯级、电池簇级、集装箱级及共因触发的基础事件库
BESS建模中PFDavg(平均要求失效概率)、失效率与条件概率的应用
顶层事件频率与最小割集计算的完整案例
点火控制、暖通系统可靠性及保护层建模的洞见
无论您正在设计新设施、评估第三方系统,还是向承保方解释MFL(最大可预见损失)情景——本方法论将提升风险评估的透明度、一致性与决策质量。
构建电池储能系统故障、火灾和爆炸的故障树
摘要
本文提出了一种构建和量化电池储能系统(BESS)故障、火灾和爆炸故障树分析(FTA)的实用方法。它定义了精确的顶层事件——热失控传播、集装箱火灾和集装箱爆燃——以及边界、运行阶段和可重用的基本事件分类法。应用了标准逻辑门模式(或/与/k取n、优先与门(PAND)、禁止门),并使用 平均要求时失效概率(PFDavg) 和共因因子对保护层(BMS跳闸、隔离、暖通空调/通风、灭火)进行建模。一个示例计算了集装箱爆燃的数量级频率,并演示了最小割集和重要性度量,以优先安排工程控制措施。重点强调了通风可靠性、点火控制、隔离完整性以及调试/维护状态。本文提供了数据收集、质量保证以及与事件树、保护层分析(LOPA)和后果模型集成的指导,以支持设计决策、运行与维护(O&M)验证测试和保险评估。
构建电池储能系统故障、火灾和爆炸的故障树
作者:John Munno – 能源风险工程师
(面向工程师的技术指南)
1) 目的与范围
本文提供了一种结构化方法来开发、量化和维护电池储能系统(BESS)危害的故障树分析(FTA)模型。我们关注三个顶层事件:
TE-1: 电芯/模组热失控传播超出初始电芯
TE-2: 集装箱火灾(伴有外部火焰冲击)
TE-3: 集装箱爆燃或爆炸(超压导致结构损坏)
该方法适用于各种化学体系(LFP, NMC)、架构(交流耦合和直流耦合)和布局(室内房间、室外集装箱/机柜)。
2) 一个优秀的BESS故障树必须包含的内容
BESS是信息物理系统。一个可信的FTA必须体现硬件、软件/固件、电力和暖通空调(HVAC)、规程以及现场条件。
分层结构: 电芯 → 模组 → 电池簇/串 → 集装箱 → 场站 → 电网接口
运行阶段: 调试、正常运行、维护、电网异常条件、孤岛/黑启动
保护层: BMS功能、接触器、熔断器、PCS保护、气体检测、暖通空调(HVAC)、通风/排气、探测/灭火、紧急停止(E-stop)、隔离规程
依赖性/共因: 交流电源丢失、固件缺陷、通信丢失、极端环境、共享的暖通空调/风道
人为因素: 维护引起的故障、验证测试失效
3) 顶层事件与明确边界
在绘制逻辑门之前,需明确定义顶层事件的含义以及范围之外的内容。
TE-1:热失控传播 (TRP)
“至少一个电芯发生热失控,并传播超出引发电芯至同一模组内的相邻电芯。”
TE-2:集装箱火灾
“集装箱内持续燃烧,其热释放率(HRR)足以导致外部火焰喷出或外部热辐射 ≥ X kW/m² 持续 ≥ Y 分钟。”
TE-3:集装箱爆燃
“集装箱内积聚了可燃气体/空气混合物并被点燃,产生的超压 > Z kPa,存在结构损坏或面板位移的风险。”
系统边界
包括电芯、模组、电池簇电子设备、直流母线、PCS(功率转换系统)、辅助设备、暖通空调/通风、探测/灭火、集装箱结构、线缆贯穿件、门/面板以及软件/通信。本文排除下游变压器/开关设备(如有需要,在转移故障树中建模)。
4) 初始事件分类法(事件库)
对基本事件(BEs)使用一致的分类法。建议如下:
电芯/模组层级
BE-C1: 制造缺陷/污染导致的内部短路
BE-C2: 锂析出/铜溶解导致内部短路
BE-C3: 因BMS或PCS控制失效导致的电芯过充
BE-C4: 外部加热(附近火灾、热浪中HVAC失效)导致热失控
BE-C5: 机械损坏(运输、安装、地震、维护)
电池簇/集装箱层级
BE-R1: 直流电弧故障(连接器松动、电缆损坏、压接不良)
BE-R2: 接触器熔焊闭合/指令下无法断开
BE-R3: 过流保护未能清除(熔断器/继电器不匹配)
BE-R4: 气体检测失效至危险状态(卡滞在低位、被禁用)
BE-R5: 暖通空调(HVAC)失效(交流电源丢失、风扇故障、过滤器堵塞)
BE-R6: 强制通风失效(风门关闭、执行器故障、卡滞关闭)
BE-R7: 灭火系统按需失效(灭火剂释放不足或未释放)
BE-R8: 点火源存在且有效(火花/电弧/高温表面)
共因 / 依赖性
BE-CC1: 多个集装箱交流辅助电源丢失
BE-CC2: 固件缺陷在全场站范围内推送
BE-CC3: 网络定时/服务器故障导致跨电池簇的保护逻辑失效
BE-CC4: 门/面板关闭 + 未启动吹扫(维护/操作疏忽)
5) 逻辑门选择与建模模式
或门 (OR): 多个不同的引发因素导致一个失效(例如,热失控可由C1 或 C3 或 C4引发)。
与门 (AND): 危险状态需要同时满足多个条件(例如,对于TE-3,需要同时存在可燃混合物 和 有效点火 和 足够密闭)。
k取n门 (k-out-of-n): 跨电芯/模组的传播(例如,≥2个相邻电芯失效达到模组级热失控)。
禁止门 (Inhibit): 事件仅在特定条件下相关(例如,灭火系统按需失效)。
优先与门 (PAND): 事件顺序重要(例如,爆燃需要气体积累发生在点火之前)。
转移门 (Transfer): 跨集装箱或阶段重用子树。
内部事件 (House events): 用于特定阶段逻辑的TRUE/FALSE开关(例如,调试 = TRUE)。
TE-3 片段 ASCII 图示:

6) 构建故障树:分步工作流程
定义顶层事件和边界。
按阶段划分;创建阶段内部事件(调试/正常/维护)。
收集设计信息:单线图、直流系统图、网络架构、I/O列表、安全仪表功能(SIF)、暖通空调/通风路径、通风面积、灭火细节、设定值、验证测试间隔。
创建初始事件库;将每个事件映射到硬件/软件来源。
将保护层建模为按需失效,并明确测试间隔和诊断覆盖率。
插入依赖性:交流辅助电源丢失、固件共模、网络/时间同步共因失效(CCF)。
选择合适的逻辑门并自底向上绘制子树。
用失效率或概率参数化基本事件。
计算最小割集(MCS)、顶层事件频率和重要性度量。
通过运行、维护、供应商和测试证据进行验证。
对关键假设进行应力/敏感性测试;记录模型局限性。
使用现场数据、测试结果以及固件或规程变更进行更新。
7) 量化所需数据
混合使用失效率和按需概率:
恒定失效率 (λ): 用于连续运行的部件(风扇、接触器、电源)。
平均要求时失效概率 (PFDavg): 用于处于休眠状态直到有需求才动作的保护措施(灭火、隔离、某些BMS跳闸)。
共因因子: 用于跨电池簇/集装箱的相同保护措施的β因子或多元希腊字母模型(MGL)。
阶段修正因子: 调试和高倍率运行时的占空比乘数。
条件概率: (例如,P[存在可燃混合物 | 通风状态])。
对于一个验证测试间隔为TI、具有恒定危险未检测失效率 λDU 的功能(1oo1),PFDavg=λDU×TI/2。
典型数据来源: 供应商可靠性数据、现场失效数据库、测试计划、现场维护记录以及带保守界限的工程判断。
8) 示例计算(说明性数字)
目标: 估算TE-3(单个包含10个电池簇的室外集装箱发生爆燃)的数量级频率。
每个电池簇每年的热失控(TR)引发频率:内部缺陷 2×10^−5,过充 1×10^−6,外部加热 5×10^−6 → 总和 2.6×10^−5 / 电池簇-年
10电池簇集装箱中任一电池簇发生热失控:10×2.6×10^−5=2.6×10^−4 / 年
P(存在可燃混合物 | TR) = 0.10; P(有效点火 | 存在混合物) = 0.30; P(密闭充分) = 0.10。
结果: 2.6×10^−4×0.10×0.30×0.10=7.8×10^−7 / 年 (= 每 130 万个集装箱-年发生一次)
用例: 用于筛选以优先安排控制措施;如果通风不可用性是主导因素,那么像故障安全开启风门和独立的气体触发吹扫等设计变更可能带来最佳的风险降低效果。
9) 最小割集与重要性度量
最小割集 (MCS): 导致顶层事件发生的最小基本事件组合。
Fussell–Vesely (FV) 重要性: 每个基本事件对顶层事件概率的贡献比例。
Birnbaum 重要性: 顶层事件对基本事件概率变化的敏感性。
临界重要性: 结合了概率和Birnbaum重要性。
示例 (TE-3 片段):
MCS-1: {任一电池簇发生TR} & {通风失效} & {存在有效点火} & {门关闭}
MCS-2: {无TR下的溶剂蒸发} & {通风失效} & {存在有效点火} & {门关闭}
MCS-3: {任一电池簇发生TR} & {通风路径堵塞} & {存在有效点火}
10) 正确建模保护层
BMS跳闸: 建模检测和动作;包括接触器熔焊失效。
灭火系统: 视为按需PFD,条件是基于及时检测和灭火剂有效性。
暖通空调/通风: 区分风扇失效、风门失效、控制电源丢失和命令逻辑失效;包括故障安全位置。
通信/时间同步: 如果保护措施需要相同的网络服务,则添加共模逻辑门。
交流辅助电源丢失: 建模为馈入多个禁止门的内部事件;捕捉其对点火和通风的相反影响。
11) 基于阶段的修正因子(调试、维护)
调试: 风险较高,源于临时旁路、固件更新、打开的面板、非典型充电曲线。
维护: 打开的门可能减少密闭性但增加点火可能性(热作业)。
使用互斥状态或与事件树耦合来表示后果路径。
12) 将FTA与其他分析集成
事件树分析 (ETA): 分支表示初始事件后的结果(气体积累 vs 消散;点火 vs 未点火;灭火成功 vs 失败)。
蝶形图 (Bow-Tie): 左侧是故障树(原因),右侧是事件树(后果/屏障)。
保护层分析/安全完整性等级 (LOPA/SIL): 转化为仪表功能(SIF)的PFDavg目标和验证测试策略。
热/流体建模: 将FTA频率输出与后果模型耦合,以评估对相邻资产的风险和间距充足性。
13) 质量保证与验证
顶层事件和边界定义精确且可验证。
每个引发因素和屏障都映射到设计中的带标签部件/功能。
明确建模了共因机制(电源、固件、通信、环境)。
验证测试间隔和诊断反映了实际操作。
敏感性分析覆盖了主要贡献因素和所有CCF参数。
针对固件、规程或硬件修订建立了模型变更控制。
14) 实用工程控制措施(由重要性结果驱动)
通风/排气
电源丢失时风门故障安全开启;独立的气体触发吹扫。
风门位置反馈;卡滞/失效报警。
保持吹扫/通风路径畅通;定义检查点。
点火控制
尽量减少气体积聚区域内的带电电子设备;隔离或封装。
在直流馈线上设置电弧故障检测;消除导体松动并改进应力消除。
对表面进行温度分级;对部件更换实施工程变更控制。
隔离与控制
冗余隔离路径(例如,上游直流熔断器 + 接触器)。
接触器的证开测试;熔焊监测。
BMS跳闸多样性(独立于CPU路径的比较器)。
人员绩效
调试检查表需明确移除旁路;红标签控制。
固件回滚计划;分阶段部署;全场站推送前在少量电池簇(预警电池簇)测试。
维护后验证测试记录并趋势分析。
15) 文档工件(交付物清单)
带数值标准(HRR, kW/m², kPa)的顶层事件声明。
模型范围/边界和阶段逻辑。
具有唯一ID、定义和数据来源的事件库。
假设列表(占空比、验证测试间隔、诊断覆盖率)。
包含FV/Birnbaum结果的最小割集列表。
敏感性运行和龙卷风图。
模型变更历史和版本控制。
与主要贡献因素相关联的行动清单及建议的设计/O&M变更。
16) 可复用的小型模板
事件库(摘录):
顶层事件 TE-3 片段(伪逻辑):

17) 需避免的常见陷阱
将“BMS跳闸存在”视为保证——应分别建模需求、检测、动作和隔离。
忽略阶段逻辑;调试风险通常占主导。
遗漏共因失效(CCF);共享电源或固件会破坏独立性假设。
使用未根据占空比或环境调整的通用失效数据。
未使用维护记录验证验证测试间隔和“实际发现”的结果。
18) 如何与利益相关方使用该模型
设计工程师: 比较替代控制方案,并排序应优先强化的屏障。
运行人员: 在影响最大的地方(最高的Birnbaum重要性)设置验证测试间隔。
项目经理/业主: 用量化的风险降低来论证特定设计特性的成本。
保险公司/承保人: 与后果模型结合,将频率降低转化为预期年度损失(EAL)。
19) 结论
BESS故障树的可信度取决于其边界定义、数据质量和依赖性建模。一个实用的、具备阶段意识的故障树,若能捕捉通风可靠性、点火控制和隔离完整性,将能持续识别出降低火灾和爆炸频率的最佳杠杆点。
附录 A — 快速入门检查表
用数值标准定义TE-1/TE-2/TE-3。
建立阶段内部事件。
构建事件库并映射到标签/部件。
为交流辅助电源、固件和通信添加CCF。
将保护措施的检测/决策/动作/隔离分开建模。
量化休眠功能的PFDavg;基于实际设定验证测试间隔(TI)。
计算MCS和重要性;对前五大贡献因素进行敏感性分析。
发布与重要性结果相关联的设计/O&M建议。
设定模型控制和修订流程。
附录 B — 向供应商/现场索取数据 (RFD)
BMS架构(冗余、诊断、跳闸逻辑、动作路径)。
接触器/熔断器规格和熔焊检测特性。
暖通空调/通风系统P&ID图、风门故障位置、执行器类型。
气体检测技术、设定值、覆盖率、验证测试规程/结果。
灭火类型、喷嘴布局、设计依据、释放测试、维护记录。
固件变更管理、回滚和全场站部署规程。
交流辅助电源来源、备用安排、切换可靠性。
竣工的外壳泄漏率/通风面积和泄压装置。


