Energy Distance：度量两个多元分布差异的统计方法

张开发

• 2026/5/31 8:48:33 • 15 分钟阅读

分享文章

来源DeepHub IMBA 本文约1500字建议阅读5分钟训练集和测试集如果来自不同的分布会怎样类似的问题不是没遇到过只是语境不同比如说模型上次构建以来是否发生了数据漂移销售分析中产品 A 和产品 B 的分布是否存在差异归结下来问的都是同一件事如何量化两个分布之间的差异。单变量分析是最直接的入手点逐个变量比较训练集与测试集的分布形状。但光看单变量可能不够。变量之间的联合关系如果存在差异呢怎么量化这种差异Energy Distance 可以解决这个问题Energy Distance 是一种用来度量两个概率分布差异程度的统计指标。两个分布完全相同时取值为零分布差距越大数值越高。形式化的定义给定概率分布 F 和 G从中分别抽取随机向量 X 和 YEnergy Distance D(F,G) 的定义如下D(F,G) 2E||X, Y|| — E||X, X|| — E||Y, Y||定义包含两类距离。E||X, Y|| 是跨分布数据点对之间的期望欧几里得距离一个来自 X一个来自 Y称为交叉距离E||X, X|| 和 E||Y, Y|| 则是同一分布内部数据点对之间的期望欧几里得距离称为组内距离。Energy Distance 的原理可以把 Energy Distance 类比为一个带电粒子系统的净相互作用能。设想两团点云一团带正电一团带负电。交叉距离对应异号粒子之间的相互作用能组内距离对应同一团点云内部的自相互作用能。当交叉作用恰好被自作用抵消即两个分布完全一致——净能量为零否则为正值。用一句话概括Energy Distance 度量的是两个分布之间的分离程度超出各自内部自然分离程度的幅度。下面用两个二元分布的可视化来展示这一思路同样的原理可以推广到更高维。两个分布完全相同时Energy Distance 为零。随着两个分布彼此远离交叉作用占据主导Energy Distance 上升。当每个分布内部的数据点变得更分散时自作用开始抵消交叉作用Energy Distance 趋向于零。Energy Distance 解读单独看 Energy Distance 的数值意义不大通常需要配合置换检验来判断观测到的数值即从原始样本计算得到的 Energy Distance是否反映了两个分布之间具有统计意义的差异。置换检验的零假设是 X 和 Y 来自同一分布FG。操作上将两组样本合并后随机重新分配组标签保持原始样本量不变反复计算 Energy Distance由此构建零假设下的经验分布。p 值等于置换统计量超过观测统计量的比例。置换检验的结果未检测到训练集与测试集之间存在整体性的分布偏移无证据表明发生了全局协变量偏移。但这不等于排除了局部外推的可能特征空间中稀疏及尾部区域仍需额外检查。总结Energy Distance 是一种基于度量的统计工具适用于衡量两个多元分布的差异程度。数据漂移检测、A/B 测试中的样本一致性验证、不同群体间的分布比较——只要涉及两组多元数据是否来自同一分布的判断它都能派上用场。相比逐变量的单维度检验Energy Distance 的优势在于能够捕捉变量间联合关系的变化而不仅仅是边缘分布的偏移。配合置换检验可以得到具有统计意义的推断结论而非停留在视觉直觉上。不过也需要注意它的边界。Energy Distance 检测的是全局性的分布差异对于局部区域——特别是特征空间中样本稀疏的尾部——敏感度有限。高维场景下欧几里得距离本身的区分能力会随维度增加而衰减这一点同样会影响 Energy Distance 的表现。在实际使用中结合局部密度估计或分区域检验等方法做补充验证是更稳妥的做法。编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

更多文章

前端开发 2026/5/29 2:23:52

Quartus 18.1在Ubuntu 16.04安装避坑实录：从破解文件替换到Device安装的每一步验证

Quartus 18.1在Ubuntu 16.04安装避坑指南：从环境准备到驱动验证的完整解决方案当你在Ubuntu 16.04上安装Quartus 18.1时，可能会遇到各种意想不到的问题。这篇文章不是简单的安装步骤罗列，而是聚焦于那些容易导致安装失败的"坑点"&…

AI赋能Linux运维：让快马平台智能生成系统诊断与优化脚本最近接手了几台Linux服务器，总感觉系统响应变慢，SSH连接时不时卡顿。作为运维人员，这种问题排查起来往往需要检查多个指标，手动执行各种命令，效率实…

张开发

前端开发 2026/5/30 6:42:02

Diablo Edit2完整指南：掌握暗黑破坏神II角色存档编辑的终极工具

Diablo Edit2完整指南：掌握暗黑破坏神II角色存档编辑的终极工具【免费下载链接】diablo_edit Diablo II Character editor. 项目地址: https://gitcode.com/gh_mirrors/di/diablo_edit Diablo Edit2是一款功能强大的暗黑破坏神II角色存档编辑器，…

张开发

Energy Distance：度量两个多元分布差异的统计方法

最新文章

NVIDIA DGX SuperPOD：AI超级工厂的算力革命

STC8H8K64U单片机内存布局保姆级图解：从code区到EEPROM，新手避坑指南

TVA技术在能源行业的应用综述

python jwt

保姆级教程：在粤嵌GEC6818上搞定GY-39传感器数据采集（附完整源码）

Android音频启动流程避坑指南：AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解

推荐文章

相关文章

分享文章

更多文章

Quartus 18.1在Ubuntu 16.04安装避坑实录：从破解文件替换到Device安装的每一步验证

别再只用VideoPlayer.Play()了！解锁Unity视频播放的进阶控制：事件驱动、性能优化与跨平台适配指南

暗黑破坏神2存档编辑：从复杂二进制到可视化操作的蜕变之路

5分钟掌握阿里云盘Refresh Token扫码获取终极实战指南

3步构建抖音内容自动化采集流水线

Win11Debloat：系统减负的全流程优化指南

C++的std--ranges适配器视图元素类型系统与代理迭代器在泛型中的处理

新手福音，在快马平台用自然语言对话完成openclaw从零安装到验证

Tesseract OCR 实战宝典：7大挑战与高效解决方案

别再手动导入了！用Pinia + bpmn-js 实现Flowable流程设计的草稿自动恢复与状态管理

ai赋能linux运维：让快马平台智能生成系统诊断与优化脚本

Diablo Edit2完整指南：掌握暗黑破坏神II角色存档编辑的终极工具