为什么密度函数的积分是期望呢？

本文最后更新于13 天前，其中的信息可能已经过时，如有错误请发送邮件到184874483@qq.com

严格说，不是“密度函数的积分是期望”，而是：

密度函数 f(x) 的积分 = 概率
随机变量 X 乘以密度函数 f(x) 后再积分 = 期望

也就是说：

∫ f(x) dx = 1
∫ x f(x) dx = E(X)

如果是随机变量的函数 g(X)，则有：

E[g(X)] = ∫ g(x) f(x) dx

所以真正要理解的是：为什么期望要写成“取值 × 这个取值附近的概率密度”再积分。

一、先从离散型随机变量看期望

离散型随机变量最容易理解。假设随机变量 X 的可能取值为：

x₁, x₂, x₃, ...

对应概率为：

P(X = x₁), P(X = x₂), P(X = x₃), ...

那么数学期望定义为：

E(X) = x₁P(X = x₁) + x₂P(X = x₂) + x₃P(X = x₃) + ...

也就是：

E(X) = Σ xᵢ P(X = xᵢ)

这个公式的含义是：

期望 = 每个取值 × 这个取值出现的概率，然后全部加起来

例如：

X = 1 的概率是 0.2
X = 2 的概率是 0.3
X = 3 的概率是 0.5

那么：

E(X) = 1 × 0.2 + 2 × 0.3 + 3 × 0.5
     = 2.3

这个 2.3 不是说 X 一定能取到 2.3，而是长期平均结果趋近于 2.3。

二、连续型随机变量不能直接写 P(X = x)

连续型随机变量的问题在于：

P(X = 某一个具体值) = 0

例如 X 服从某个连续分布，问：

P(X = 1)

通常等于 0。

所以连续型随机变量不能像离散型那样写：

E(X) = Σ x P(X = x)

因为每一个点的概率都是 0。

但连续型随机变量可以讨论区间概率，比如：

P(a < X < b)

这个概率由密度函数积分得到：

P(a < X < b) = ∫[a,b] f(x) dx

所以密度函数 f(x) 不是概率本身，而是描述概率在数轴上如何分布的“密度”。

三、连续型期望为什么是 ∫ x f(x) dx？

可以把连续区间切成很多很小的小段。

例如把区间分成：

[x₁, x₁ + Δx]
[x₂, x₂ + Δx]

[x₃, x₃ + Δx] …

当 Δx 很小时，在 xᵢ 附近的一小段概率大约是：

P(xᵢ < X < xᵢ + Δx) ≈ f(xᵢ)Δx

这就是密度函数的含义。

于是这个小区间对期望的贡献大约是：

取值 × 该小区间概率
≈ xᵢ × f(xᵢ)Δx

把所有小区间贡献加起来：

E(X) ≈ Σ xᵢ f(xᵢ)Δx

当 Δx → 0 时，求和就变成积分：

E(X) = ∫ x f(x) dx

所以连续型期望公式本质上就是离散型公式的连续版本：

离散型：E(X) = Σ xᵢ P(X = xᵢ)

连续型：E(X) = ∫ x f(x) dx

可以这样记：

离散：概率是 P(X = xᵢ)
连续：小区间概率约为 f(x)dx

所以：
Σ x × 概率  →  ∫ x × f(x) dx

四、密度函数的积分本身不是期望，而是总概率

密度函数满足：

∫(-∞,+∞) f(x) dx = 1

这是因为随机变量一定会落在整个实数范围内，所以总概率为 1。

如果只对某个区间积分：

∫[a,b] f(x) dx

得到的是：

P(a ≤ X ≤ b)

而不是期望。

要得到期望，必须乘上取值 x：

E(X) = ∫(-∞,+∞) x f(x) dx

为什么要乘 x？因为期望不是单纯算概率，而是算“加权平均值”。

密度函数 f(x) 负责提供权重，x 是对应的取值。

五、一个简单例子：均匀分布

假设：

X ~ U(0,1)

它的密度函数是：

f(x) = 1, 0 < x < 1

总概率是：

∫[0,1] f(x) dx = ∫[0,1] 1 dx = 1

这说明 X 落在 [0,1] 内的概率为 1。

期望是：

E(X) = ∫[0,1] x f(x) dx
     = ∫[0,1] x dx
     = 1/2

这里 1/2 表示，在 [0,1] 上均匀取数，长期平均值是 0.5。

所以：

∫ f(x) dx 算的是概率面积
∫ x f(x) dx 算的是加权平均

六、如果是二维密度函数怎么办？

如果 (X,Y) 有联合密度函数 f(x,y)，那么总概率为：

∫∫ f(x,y) dxdy = 1

而期望分别为：

E(X) = ∫∫ x f(x,y) dxdy

E(Y) = ∫∫ y f(x,y) dxdy

如果求 E[g(X,Y)]，则：

E[g(X,Y)] = ∫∫ g(x,y) f(x,y) dxdy

这在考研概率论中非常常见，例如：

E(XY) = ∫∫ xy f(x,y) dxdy

这里 xy 是函数值，f(x,y) 是概率密度权重。

七、考研里最容易混淆的地方

最常见的错误是把下面几个式子混在一起：

∫ f(x) dx = 1
∫[a,b] f(x) dx = P(a ≤ X ≤ b)
∫ x f(x) dx = E(X)
∫ g(x) f(x) dx = E[g(X)]

它们的区别在于：

表达式	含义
`∫ f(x) dx`	总概率
`∫[a,b] f(x) dx`	区间概率
`∫ x f(x) dx`	`X` 的期望
`∫ x² f(x) dx`	`E(X²)`
`∫ g(x) f(x) dx`	`E[g(X)]`

尤其要注意：

E(X²) ≠ [E(X)]²

其中：

E(X²) = ∫ x² f(x) dx

而不是：

(∫ x f(x) dx)²

八、一句话总结

密度函数的积分本身不是期望，而是概率；期望是“取值的加权平均”。连续型随机变量中，某一点没有概率，只有小区间概率，而小区间概率近似为 f(x)dx，所以连续型期望就从离散型的

Σ xᵢP(X = xᵢ)

变成了

∫ x f(x) dx

因此可以记成：

概率 = 对密度积分
期望 = 对“取值 × 密度”积分
函数的期望 = 对“函数值 × 密度”积分

这题的答案是：

n 至少为 8000

本题用的不是中心极限定理，而是切比雪夫不等式。严格说，它属于“用切比雪夫不等式估计概率”的题，和切比雪夫大数定律的思想相通。

题目只告诉了寿命 X 的数学期望为 μ，方差为 σ² = 400，没有告诉寿命服从什么分布。因此不能直接按正态分布算精确概率，也不能默认用中心极限定理去近似。考研数学里，只给期望和方差、要求保证某个概率不小于多少，最常见就是用切比雪夫不等式。

先设随机抽取的 n 个器件寿命为：

X₁, X₂, ... , Xₙ

它们相互独立，且来自同一种器件，所以一般默认同分布。因此：

E(Xₖ) = μ
D(Xₖ) = σ² = 400

样本均值为：

X̄ = (1/n)(X₁ + X₂ + ... + Xₙ)

先求 X̄ 的数学期望：

E(X̄)
= E[(1/n)(X₁ + X₂ + ... + Xₙ)]
= (1/n)[E(X₁) + E(X₂) + ... + E(Xₙ)]
= (1/n)(nμ)
= μ

所以 X̄ 是 μ 的无偏估计。

再求 X̄ 的方差。因为 X₁, X₂, ... , Xₙ 相互独立，所以和的方差等于方差之和：

D(X̄)
= D[(1/n)(X₁ + X₂ + ... + Xₙ)]
= (1/n²)D(X₁ + X₂ + ... + Xₙ)
= (1/n²)[D(X₁) + D(X₂) + ... + D(Xₙ)]
= (1/n²)(nσ²)
= σ²/n
= 400/n

这里最关键的一步是：

D(aX) = a²D(X)

所以 (1/n) 提出来后变成了 (1/n²)。

切比雪夫不等式是：

P{|X - E(X)| < ε} ≥ 1 - D(X)/ε²

现在把 X 换成样本均值 X̄，因为：

E(X̄) = μ
D(X̄) = 400/n

所以：

P{|X̄ - μ| < ε} ≥ 1 - D(X̄)/ε²

题目要求的是：

P{|X̄ - μ| < 1} ≥ 0.95

也就是取 ε = 1，代入切比雪夫不等式：

P{|X̄ - μ| < 1}
≥ 1 - D(X̄)/1²
= 1 - 400/n

为了保证题目要求成立，只要让右边不小于 0.95：

1 - 400/n ≥ 0.95

解这个不等式：

400/n ≤ 0.05
n ≥ 400/0.05
n ≥ 8000

所以：

n 至少为 8000

这题的公式转换主线可以压缩成：

D(X̄) = σ²/n = 400/n

P{|X̄ - μ| < 1}
≥ 1 - D(X̄)/1²
= 1 - 400/n

1 - 400/n ≥ 0.95

n ≥ 8000

关于“做题时如何判断该用哪个极限定理”，可以按题干信号来判断。

如果题目只给了数学期望和方差，并且要求类似：

P{|X̄ - μ| < ε} ≥ 某个数

或者要求“为了使样本均值与总体均值的偏差小于某值的概率至少为多少”，这通常用切比雪夫不等式。因为切比雪夫不等式不要求知道总体分布，只要求方差存在。

如果题目问的是：

当 n → ∞ 时，X̄ 是否依概率收敛于 μ

或者问：

证明 X̄ → μ

这类题一般用大数定律。它关心的是样本均值是否稳定趋近总体均值，不是让你算具体的 n。

如果题目出现大量独立同分布随机变量的和，并且问近似概率，例如：

P{a < X₁ + X₂ + ... + Xₙ < b}

或者：

P{a < X̄ < b}

并且 n 较大，常常用中心极限定理，把和或均值标准化后近似为标准正态分布：

(X₁ + ... + Xₙ - nμ)/(σ√n) 近似服从 N(0,1)

或者：

(X̄ - μ)/(σ/√n) 近似服从 N(0,1)

这题如果强行用中心极限定理，会得到近似：

P{|X̄ - μ| < 1}
≈ P{|Z| < √n/20}

要求约等于：

2Φ(√n/20) - 1 ≥ 0.95

于是：

√n/20 ≥ 1.96
n ≥ 1536.64

即 n ≈ 1537。但是这个结果只是正态近似结果，不是严格保证。题目没有说寿命服从正态分布，也没有说用中心极限定理近似，所以不能把 1537 当作本题标准答案。

本题标准做法用切比雪夫不等式，结果是 8000。它比较保守，但它不依赖总体分布，所以能保证：

P{|X̄ - μ| < 1} ≥ 0.95

考研里可以这样快速识别：

只给 E(X)、D(X)，要求概率下界 → 切比雪夫不等式

问样本均值是否趋于总体均值 → 大数定律

问大量独立随机变量和的近似分布或近似概率 → 中心极限定理

明确给出正态分布 → 直接用正态分布标准化

这题最核心的识别点就是：只给均值和方差，没有给分布，却要求概率至少为 0.95。因此应该用切比雪夫不等式，而不是中心极限定理。