辛普森悖论

林一二2025年05月09日 11:06

分组频率与总体频率出现相反结论。男性、女性分组中,服药后不发病概率高于未服药;但总人群中,未服药不发病概率高 。性别是混杂因子,因服用药物人数在不同性别分布不同。

解决办法:

Do算子做法:用已服药组观察到的概率,应用于未服药组,假设概率通用,利用未服药组本会作废的数据。

  • P(Y=1do(X=1))=0.93×(87+270)700+0.73×(263+80)700=0.832P(Y = 1|do(X = 1))=\frac{0.93×(87 + 270)}{700}+\frac{0.73×(263 + 80)}{700}=0.832
  • P(Y=1do(X=0))=0.87×(87+270)700+0.69×(263+80)700=0.781P(Y = 1|do(X = 0))=\frac{0.87×(87 + 270)}{700}+\frac{0.69×(263 + 80)}{700}=0.781