关注

基于熵权法实现变压器动态权重的计算

基于熵权法实现变压器动态权重的计算

1. 熵权法是什么

要理解熵权法,需分两步:先理解信息熵,再理解如何用熵来赋权。


1.1 第一步:什么是“信息熵”

信息熵理论(Information Entropy Theory)是信息论(Information Theory)的核心概念之一,由美国数学家克劳德·香农(Claude Shannon)在1948年提出,用于量化信息的不确定性或混乱程度。它最初用于通信领域,如今已广泛应用于统计学、机器学习、物理学、经济学、生态学等多个学科,是现代数据科学中量化信息、构建模型、赋予权重的重要理论依据。

信息熵是衡量“不确定性”或“信息含量”的数学工具——越随机,熵越大;越确定,熵越小。

📌1.1.1 什么是“信息熵”
  • 熵越高 →结果难以预测 → 系统越“混乱”或“不确定” → 提供的有效信息越少

  • 熵越低 → 结果容易预测 → 系统越“有序” → 提供的有效信息越多

🌰 举例:

  • 抛一枚均匀硬币(正反各50%):结果最难猜 → 熵最大
  • 抛一枚两面都是正面的硬币:结果总是正面 → 完全确定 → 熵为0
📌1.1.2 数学定义(离散情形)

设某指标在 n 个样本中有概率分布 p1,p2,…,pn(∑pi=1),则其信息熵为:

在这里插入图片描述

为便于比较,常将熵归一化到 [0, 1] 区间

在这里插入图片描述

  • 当所有 pi=1/n(完全均匀)→ e=1e=1(最大不确定性)
  • 当某个 pi=1,其余为0(完全确定)→ e=0

1.2 第二步:什么是熵权法?

熵权法(Entropy Weight Method, EWM)是一种**基于信息熵的客观赋权方法,用于多指标综合评价。

📌1.2.1 核心思想

一个指标在不同样本中的取值越分散(差异越大),说明它提供的信息越多,区分能力越强,因此应赋予更高的权重;反之,若取值几乎相同,则信息量少,权重应降低。

信息熵正好能量化这种“分散程度”

指标表现分布情况信息量权重
数据差异大(能分好坏)不均匀
数据差不多(分不出)均匀

​ 因此,权重与熵成反比熵不是衡量“数据乱不乱”,而是衡量“这个指标有没有用”。越“有用”(能区分),熵越小,权重越高。

🌰 举例:评选员工

假设你要评选“最值得奖励的员工”,看两个指标:

  • 加班时长:A加了2小时,B加了50小时,C加了3小时 → 差别很大
  • 打卡准时率:A、B、C 都是99% → 几乎一样

👉 你会更看重哪个指标?
当然是加班时长!因为它能帮你区分谁更努力

📌1.2.2 权重计算公式
  • 对每个指标 j,计算其归一化信息熵 ej∈[0,1]

  • 定义其“信息效用值”为 dj=1−ej

  • 最终权重为:

    在这里插入图片描述

  • 结果:wj≥0,且 ∑wj=1

  • 完全由数据驱动,无需专家打分


🌰举例(变压器测评)
变压器乙炔含量(ppm)油温(℃)
A0.165
B1.566
C0.264
  • 乙炔:0.1 → 1.5 → 0.2(差异大)→ 熵小 → 权重高
  • 油温:64~66(几乎不变)→ 熵接近1 → 权重低

熵权法会自动让“乙炔”在综合评分中起主导作用,因为它更能反映设备状态的差异。

2. 熵权法的原则和本质

2.1 数据驱动原则
  • 权重由原始数据的离散程度决定
  • 不依赖专家打分,避免主观偏差
2.2 动态权重的本质
  • 权重随数据变化而自动调整
  • 每次输入新数据 → 重新计算权重 → 实现“动态更新”
  • 适用于实时监控、滚动评估等场景

3. 熵权法计算动态权重的步骤

🧪 场景设定:某变电站 5 台变压器的状态评估

​ 📊 评估背景

  • 指标数量:m=4
  • 样本数量:n=5台变压器(T1–T5)
指标含义类型说明
x1乙炔含量(ppm)负向(越小越好,>5 ppm 可能故障)
x2顶层油温(℃)负向(越小越好)
x3介质损耗因数(%)负向(越小越好)
x4负载率(%)负向(过高有风险,视为越小越好)

📌 统一处理策略:将所有指标视为“风险值”——值越大,设备状态越差


✅ 步骤 1:原始数据矩阵 X
变压器乙炔 (ppm)油温 (℃)介损 (%)负载率 (%)
T10.1620.370
T20.2640.472
T33.5630.3571
T40.15650.569
T50.1610.2568

🔍 关键观察:T3 的乙炔含量显著异常(3.5 ppm),其余指标波动较小。


✅ 步骤 2:数据标准化(Min-Max,统一为风险值)

对所有负向指标,采用:

在这里插入图片描述

结果解释:标准化后值 ∈ [0,1],越大表示风险越高、状态越差

逐列计算:

指标minmax分母
乙炔0.13.53.4
油温61654
介损0.250.50.25
负载率68724

标准化结果 X′

变压器乙炔油温介损负载率
T10.0000.250.200.50
T20.0290.750.601.00
T31.0000.500.400.75
T40.0151.001.000.25
T50.0000.000.000.00

T3 在乙炔上风险值为 1.0,显著高于其他样本(≈0),差异极大。


✅ 步骤 3:构建概率矩阵在这里插入图片描述

对每列 j,计算比重:

在这里插入图片描述

① 乙炔列:总和 = 0 + 0.029 + 1.0 + 0.015 + 0 = 1.044

  • T3 占比 = 1.0 / 1.044 ≈ 0.958
  • 其余均 < 0.03 → 极度不均匀

② 油温列:总和 = 2.5 → 最大占比 T4=0.40
③ 介损列:总和 = 2.2 → T4=0.45
④ 负载率列:总和 = 2.5 → T2=0.40

🔍 乙炔的比重分布最集中,区分能力最强


✅ 步骤 4:计算信息熵 ej

公式:

在这里插入图片描述

(约定:0 ln ⁡0=0)

① 乙炔:

  • 非零概率:0.0278, 0.9577, 0.0141

  • 熵计算:

    H=−(0.0278ln0.0278+0.9577ln0.9577+0.0141ln0.0141)≈0.2019
    e1=0.2019/1.60944≈0.1255

② 油温:

  • 概率:[0.1, 0.3, 0.2, 0.4, 0]
  • H=−(0.1ln⁡0.1+0.3ln⁡0.3+0.2ln⁡0.2+0.4ln⁡0.4)≈1.2799
  • e2=1.2799/1.60944≈0.7952e2=1.2799/1.60944≈0.7952

③ 介损:

  • 概率:[0.0909, 0.2727, 0.1818, 0.4545, 0]
  • H≈1.2400H≈1.2400
  • e3=1.2400/1.60944≈0.7709

④ 负载率:

  • 概率:[0.2, 0.4, 0.3, 0.1, 0](对称分布)
  • H=1.2799H=1.2799(同油温)
  • e4=0.7952

✅ 修正后的信息熵表:

指标熵 ej说明
乙炔0.1255很低(分布高度集中)
油温0.7952中等(T4 占 40%)
介损0.7709略低于油温(T4 占 45%)
负载率0.7952中等(T2 占 40%)

🔍 乙炔熵显著低于其他指标,说明其信息量最大,但其他指标也有显著区分度(尤其介损)


✅ 步骤 5:计算动态权重 wj

在这里插入图片描述

差异系数 dj=1−ej

  • 乙炔:d1=1−0.1255=0.8745
  • 油温:d2=1−0.7952=0.2048
  • 介损:d3=1−0.7709=0.2291
  • 负载率:d4=1−0.7952=0.2048

总和:

∑dj=0.8745+0.2048+0.2291+0.2048=1.5132

权重:

  • 乙炔:0.8745/1.5132≈0.577957.8%
  • 油温:0.2048/1.5132≈0.135313.5%
  • 介损:0.2291/1.5132≈0.151415.1%
  • 负载率:0.2048/1.5132≈0.135313.5%

权重:

指标权重 wj解读
乙炔0.5779(57.8%)主导指标,但非绝对主导
介损0.1514(15.1%)T4 介损最高(1.0),贡献显著
油温0.1353(13.5%)T4 油温最高,有一定风险
负载率0.1353(13.5%)T2 负载率最高,差异明显

✅ 步骤 6:后处理与合理性检查
  • 无全零列 → 无需强制置零
  • 权重和 = 1 → 合理
  • 若某指标所有值相同(如乙炔全为 0.1),则标准化后全为 0 → 比重无法计算 → 强制权重为 0

🎯 最终结论与工程意义
指标动态权重实际含义
乙炔0.5779(57.8%)本月最关键指标——因 T3 出现明显异常,系统自动赋予极高权重,突出其预警价值
介损0.1514(15.1%)有一定区分度(T4 偏高)
负载率0.1353(13.5%)差异中等
油温0.1353(13.5%)各变压器温差小,区分能力弱

🔁 动态性体现

  • 若下月所有变压器乙炔均正常(如 ≤0.2),则乙炔权重将自动下降
  • 若夏季油温普遍升高且差异拉大(如 60℃ ~ 85℃),油温权重将显著上升

这种数据驱动的自适应权重分配,正是熵权法在智能运维中的核心优势。


💡 建议(工程实践)
  • 气体含量等稀疏且含异常值的指标,可考虑使用对数变换(如 log⁡(1+x))后再标准化,避免 Min-Max 对极端值过度敏感。
  • 若指标方向混合(有正向有负向),需先统一转换为同向(如全部转为“风险值”或“健康得分”)。

4. 熵权法的优势

优势说明
✅ 客观性强权重完全由数据驱动,无需专家打分,避免主观偏差
✅ 动态自适应数据变化时权重自动更新,适合时间序列或实时评估场景
✅ 突出关键指标自动识别差异大、区分度高的指标,赋予更高权重
✅ 计算简便仅需标准化、比重计算和对数运算,易于编程实现
✅ 适合大数据样本越多,结果越稳定,适用于批量设备或高频监测

5. 熵权法的局限性

局限说明
❗ 忽略业务常识仅看数据差异,可能低估“本应稳定但关键”的指标
❗ 对异常值敏感极端值易扭曲标准化结果,影响权重合理性
❗ 无法处理同值列若某指标所有样本相同,权重为0,即使该指标很重要
❗ 不适合小样本样本量过小时,比重分布不稳定,熵值不可靠

💡 改进方法:结合AHP(主客观融合)、对数变换预处理、设置权重下限、使用改进标准化方法等。

转载自CSDN-专业IT技术社区

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/suleng55220/article/details/152124622

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--