严格说,不是“密度函数的积分是期望”,而是:
密度函数 f(x) 的积分 = 概率
随机变量 X 乘以密度函数 f(x) 后再积分 = 期望
也就是说:
∫ f(x) dx = 1
∫ x f(x) dx = E(X)
如果是随机变量的函数 g(X),则有:
E[g(X)] = ∫ g(x) f(x) dx
所以真正要理解的是:为什么期望要写成“取值 × 这个取值附近的概率密度”再积分。
一、先从离散型随机变量看期望
离散型随机变量最容易理解。假设随机变量 X 的可能取值为:
x₁, x₂, x₃, ...
对应概率为:
P(X = x₁), P(X = x₂), P(X = x₃), ...
那么数学期望定义为:
E(X) = x₁P(X = x₁) + x₂P(X = x₂) + x₃P(X = x₃) + ...
也就是:
E(X) = Σ xᵢ P(X = xᵢ)
这个公式的含义是:
期望 = 每个取值 × 这个取值出现的概率,然后全部加起来
例如:
X = 1 的概率是 0.2
X = 2 的概率是 0.3
X = 3 的概率是 0.5
那么:
E(X) = 1 × 0.2 + 2 × 0.3 + 3 × 0.5
= 2.3
这个 2.3 不是说 X 一定能取到 2.3,而是长期平均结果趋近于 2.3。
二、连续型随机变量不能直接写 P(X = x)
连续型随机变量的问题在于:
P(X = 某一个具体值) = 0
例如 X 服从某个连续分布,问:
P(X = 1)
通常等于 0。
所以连续型随机变量不能像离散型那样写:
E(X) = Σ x P(X = x)
因为每一个点的概率都是 0。
但连续型随机变量可以讨论区间概率,比如:
P(a < X < b)
这个概率由密度函数积分得到:
P(a < X < b) = ∫[a,b] f(x) dx
所以密度函数 f(x) 不是概率本身,而是描述概率在数轴上如何分布的“密度”。
三、连续型期望为什么是 ∫ x f(x) dx?
可以把连续区间切成很多很小的小段。
例如把区间分成:
[x₁, x₁ + Δx]
[x₂, x₂ + Δx]
[x₃, x₃ + Δx] …
当 Δx 很小时,在 xᵢ 附近的一小段概率大约是:
P(xᵢ < X < xᵢ + Δx) ≈ f(xᵢ)Δx
这就是密度函数的含义。
于是这个小区间对期望的贡献大约是:
取值 × 该小区间概率
≈ xᵢ × f(xᵢ)Δx
把所有小区间贡献加起来:
E(X) ≈ Σ xᵢ f(xᵢ)Δx
当 Δx → 0 时,求和就变成积分:
E(X) = ∫ x f(x) dx
所以连续型期望公式本质上就是离散型公式的连续版本:
离散型:E(X) = Σ xᵢ P(X = xᵢ)
连续型:E(X) = ∫ x f(x) dx
可以这样记:
离散:概率是 P(X = xᵢ)
连续:小区间概率约为 f(x)dx
所以:
Σ x × 概率 → ∫ x × f(x) dx
四、密度函数的积分本身不是期望,而是总概率
密度函数满足:
∫(-∞,+∞) f(x) dx = 1
这是因为随机变量一定会落在整个实数范围内,所以总概率为 1。
如果只对某个区间积分:
∫[a,b] f(x) dx
得到的是:
P(a ≤ X ≤ b)
而不是期望。
要得到期望,必须乘上取值 x:
E(X) = ∫(-∞,+∞) x f(x) dx
为什么要乘 x?因为期望不是单纯算概率,而是算“加权平均值”。
密度函数 f(x) 负责提供权重,x 是对应的取值。
五、一个简单例子:均匀分布
假设:
X ~ U(0,1)
它的密度函数是:
f(x) = 1, 0 < x < 1
总概率是:
∫[0,1] f(x) dx = ∫[0,1] 1 dx = 1
这说明 X 落在 [0,1] 内的概率为 1。
期望是:
E(X) = ∫[0,1] x f(x) dx
= ∫[0,1] x dx
= 1/2
这里 1/2 表示,在 [0,1] 上均匀取数,长期平均值是 0.5。
所以:
∫ f(x) dx 算的是概率面积
∫ x f(x) dx 算的是加权平均
六、如果是二维密度函数怎么办?
如果 (X,Y) 有联合密度函数 f(x,y),那么总概率为:
∫∫ f(x,y) dxdy = 1
而期望分别为:
E(X) = ∫∫ x f(x,y) dxdy
E(Y) = ∫∫ y f(x,y) dxdy
如果求 E[g(X,Y)],则:
E[g(X,Y)] = ∫∫ g(x,y) f(x,y) dxdy
这在考研概率论中非常常见,例如:
E(XY) = ∫∫ xy f(x,y) dxdy
这里 xy 是函数值,f(x,y) 是概率密度权重。
七、考研里最容易混淆的地方
最常见的错误是把下面几个式子混在一起:
∫ f(x) dx = 1
∫[a,b] f(x) dx = P(a ≤ X ≤ b)
∫ x f(x) dx = E(X)
∫ g(x) f(x) dx = E[g(X)]
它们的区别在于:
| 表达式 | 含义 |
|---|---|
∫ f(x) dx | 总概率 |
∫[a,b] f(x) dx | 区间概率 |
∫ x f(x) dx | X 的期望 |
∫ x² f(x) dx | E(X²) |
∫ g(x) f(x) dx | E[g(X)] |
尤其要注意:
E(X²) ≠ [E(X)]²
其中:
E(X²) = ∫ x² f(x) dx
而不是:
(∫ x f(x) dx)²
八、一句话总结
密度函数的积分本身不是期望,而是概率;期望是“取值的加权平均”。连续型随机变量中,某一点没有概率,只有小区间概率,而小区间概率近似为 f(x)dx,所以连续型期望就从离散型的
Σ xᵢP(X = xᵢ)
变成了
∫ x f(x) dx
因此可以记成:
概率 = 对密度积分
期望 = 对“取值 × 密度”积分
函数的期望 = 对“函数值 × 密度”积分

这题的答案是:
n 至少为 8000
本题用的不是中心极限定理,而是切比雪夫不等式。严格说,它属于“用切比雪夫不等式估计概率”的题,和切比雪夫大数定律的思想相通。
题目只告诉了寿命 X 的数学期望为 μ,方差为 σ² = 400,没有告诉寿命服从什么分布。因此不能直接按正态分布算精确概率,也不能默认用中心极限定理去近似。考研数学里,只给期望和方差、要求保证某个概率不小于多少,最常见就是用切比雪夫不等式。
先设随机抽取的 n 个器件寿命为:
X₁, X₂, ... , Xₙ
它们相互独立,且来自同一种器件,所以一般默认同分布。因此:
E(Xₖ) = μ
D(Xₖ) = σ² = 400
样本均值为:
X̄ = (1/n)(X₁ + X₂ + ... + Xₙ)
先求 X̄ 的数学期望:
E(X̄)
= E[(1/n)(X₁ + X₂ + ... + Xₙ)]
= (1/n)[E(X₁) + E(X₂) + ... + E(Xₙ)]
= (1/n)(nμ)
= μ
所以 X̄ 是 μ 的无偏估计。
再求 X̄ 的方差。因为 X₁, X₂, ... , Xₙ 相互独立,所以和的方差等于方差之和:
D(X̄)
= D[(1/n)(X₁ + X₂ + ... + Xₙ)]
= (1/n²)D(X₁ + X₂ + ... + Xₙ)
= (1/n²)[D(X₁) + D(X₂) + ... + D(Xₙ)]
= (1/n²)(nσ²)
= σ²/n
= 400/n
这里最关键的一步是:
D(aX) = a²D(X)
所以 (1/n) 提出来后变成了 (1/n²)。
切比雪夫不等式是:
P{|X - E(X)| < ε} ≥ 1 - D(X)/ε²
现在把 X 换成样本均值 X̄,因为:
E(X̄) = μ
D(X̄) = 400/n
所以:
P{|X̄ - μ| < ε} ≥ 1 - D(X̄)/ε²
题目要求的是:
P{|X̄ - μ| < 1} ≥ 0.95
也就是取 ε = 1,代入切比雪夫不等式:
P{|X̄ - μ| < 1}
≥ 1 - D(X̄)/1²
= 1 - 400/n
为了保证题目要求成立,只要让右边不小于 0.95:
1 - 400/n ≥ 0.95
解这个不等式:
400/n ≤ 0.05
n ≥ 400/0.05
n ≥ 8000
所以:
n 至少为 8000
这题的公式转换主线可以压缩成:
D(X̄) = σ²/n = 400/n
P{|X̄ - μ| < 1}
≥ 1 - D(X̄)/1²
= 1 - 400/n
1 - 400/n ≥ 0.95
n ≥ 8000
关于“做题时如何判断该用哪个极限定理”,可以按题干信号来判断。
如果题目只给了数学期望和方差,并且要求类似:
P{|X̄ - μ| < ε} ≥ 某个数
或者要求“为了使样本均值与总体均值的偏差小于某值的概率至少为多少”,这通常用切比雪夫不等式。因为切比雪夫不等式不要求知道总体分布,只要求方差存在。
如果题目问的是:
当 n → ∞ 时,X̄ 是否依概率收敛于 μ
或者问:
证明 X̄ → μ
这类题一般用大数定律。它关心的是样本均值是否稳定趋近总体均值,不是让你算具体的 n。
如果题目出现大量独立同分布随机变量的和,并且问近似概率,例如:
P{a < X₁ + X₂ + ... + Xₙ < b}
或者:
P{a < X̄ < b}
并且 n 较大,常常用中心极限定理,把和或均值标准化后近似为标准正态分布:
(X₁ + ... + Xₙ - nμ)/(σ√n) 近似服从 N(0,1)
或者:
(X̄ - μ)/(σ/√n) 近似服从 N(0,1)
这题如果强行用中心极限定理,会得到近似:
P{|X̄ - μ| < 1}
≈ P{|Z| < √n/20}
要求约等于:
2Φ(√n/20) - 1 ≥ 0.95
于是:
√n/20 ≥ 1.96
n ≥ 1536.64
即 n ≈ 1537。但是这个结果只是正态近似结果,不是严格保证。题目没有说寿命服从正态分布,也没有说用中心极限定理近似,所以不能把 1537 当作本题标准答案。
本题标准做法用切比雪夫不等式,结果是 8000。它比较保守,但它不依赖总体分布,所以能保证:
P{|X̄ - μ| < 1} ≥ 0.95
考研里可以这样快速识别:
只给 E(X)、D(X),要求概率下界 → 切比雪夫不等式
问样本均值是否趋于总体均值 → 大数定律
问大量独立随机变量和的近似分布或近似概率 → 中心极限定理
明确给出正态分布 → 直接用正态分布标准化
这题最核心的识别点就是:只给均值和方差,没有给分布,却要求概率至少为 0.95。因此应该用切比雪夫不等式,而不是中心极限定理。



