Clear Sky Science · zh

用于健康研究中连续寿命系统的创新生成信息函数

2026-03-17 · 返回目录

这对真实系统为何重要

现代社会依赖于即便部分构件失效仍能继续运行的系统：医院监护线路、输油管道、数据电缆或电力联接。工程师常将许多此类系统设计为“连续系统”，即一旦出现一段相邻构件连续失效，整个网络即被视为失效。本文发展了用于衡量此类系统不确定性或脆弱性的新的数学工具，并展示了如何将这些工具转化为实用的统计检验方法，包括一个来自沙特阿拉伯医院的恶性肿瘤数据的真实示例。

用信息如何度量不确定性

这项工作的核心是熵的概念，来自信息论，用以量化不确定性。经典的香农熵衡量单个量的不可预测性。在此基础上，研究者引入了生成信息函数（generating-information functions），它构成了一族由调节参数控制的灵活度量。对于某些参数取值，这一族可恢复为已知量：香农熵的负值以及一种类似能量的度量称为反熵（extropy）。论文研究了这一丰富族在不只是单个构件而是多个协同工作的工程系统寿命上的表现。

从单个构件到相互关联的构件链

许多实际设计可描述为“连续的 l 中的 m”系统：设想有一排 m 个相同构件，只要不存在连续 l 个失效构件，系统就能继续工作。这一结构包括完全串联和完全并联等经典极端情况，并出现在真空系统、输油管道、微波中继与停车控制等多种技术中。论文推导出新的公式，将整体系统寿命的信息含量直接用其构件行为来表达。一个关键见解是，通过巧妙地将构件寿命变换为表现得像来自简单均匀分布的样本的等价数据，复杂的系统级度量可以被写成在单位区间上的一个更易处理的积分。

比较设计与界定风险

当构件数量众多或其寿命遵循复杂分布时，系统级信息度量的精确公式往往变得难以处理。为应对这一问题，作者构建了可将真实值“夹在中间”的上界和下界。这些界限依赖于构件行为的简单汇总量，例如概率密度最高处（众数）或寿命的离散程度。论文还提出了随机比较的规则：在较宽的条件下，如果一种构件设计比另一种更具变异性或更易失效，那么对应的连续系统将具有更大的信息度量，表明更高的整体不确定性。这些结果使工程师和统计学家在无需求解所有数学细节的情况下比较替代设计成为可能。

洞察机制并刻画分布

连续系统的信息度量被证明足够强大，能够“刻画”潜在的寿命分布。简单来说，如果两种不同的构件模型在每一种允许的连续系统配置下产生相同的信息行为，那么它们事实上必须是相同分布的变体，仅在位置或尺度上有所不同。论文证明了若干这样的刻画定理，其中包括对均匀分布的一个显著结论：信息在某些连续系统中累积的方式可以唯一地识别数据是否真正为均匀分布。这为新的拟合优度检验奠定了理论基础。

将理论转化为估计量和检验

为使这些思想可在真实数据上使用，作者提出了两种用于系统级信息度量的非参数估计量。这些估计量直接使用有序样本值，通过滑动窗口中相邻数据点的差分来近似底层分布。大量计算实验表明，两种估计量随着样本量增大而变得更精确，但第二种——略微改进的版本——总体上偏差和误差更小。在此基础上，论文提出了一种用于检验数据是否为均匀分布的新检验，这一问题在模拟、质量控制和社会科学建模中经常出现。与经典检验如 Kolmogorov–Smirnov、Anderson–Darling 和 Cramér–von Mises 相比，新检验在许多备择情形下表现出具有竞争力或更强的检验力，尤其是在真实分布比均匀分布更分散时。

真实健康数据与实际影响

该方法应用于来自沙特阿拉伯的恶性肿瘤数据，先验证指数模型作为合理拟合。利用所提估计量，作者评估了基于该模型构建的假想连续系统的信息结构，并随后将新的均匀性检验应用于来自不同地区和患者群体的经变换肿瘤数据。结果支持理论断言：改进的估计量更加稳定，且检验表现符合预期。对非专业读者来说，主要信息是我们现在拥有了一个更细致的“基于信息”的视角来判断相互关联构件系统的稳健性，并且有一种在数据分析中使用该视角的实用方法。这些工具可指导从工程基础设施到健康研究等领域中更好的设计和更可靠的统计决策。

引用: Mohamed, M.S. Innovative generating-information function for consecutive lifetime systems in health research. Sci Rep 16, 9097 (2026). https://doi.org/10.1038/s41598-026-41369-7

关键词: 系统可靠性, 信息论, 熵, 均匀性检验, 健康数据分析