为什么密度函数的积分是期望呢?
本文最后更新于13 天前,其中的信息可能已经过时,如有错误请发送邮件到184874483@qq.com

严格说,不是“密度函数的积分是期望”,而是:

密度函数 f(x) 的积分 = 概率
随机变量 X 乘以密度函数 f(x) 后再积分 = 期望

也就是说:

∫ f(x) dx = 1
∫ x f(x) dx = E(X)

如果是随机变量的函数 g(X),则有:

E[g(X)] = ∫ g(x) f(x) dx

所以真正要理解的是:为什么期望要写成“取值 × 这个取值附近的概率密度”再积分。


一、先从离散型随机变量看期望

离散型随机变量最容易理解。假设随机变量 X 的可能取值为:

x₁, x₂, x₃, ...

对应概率为:

P(X = x₁), P(X = x₂), P(X = x₃), ...

那么数学期望定义为:

E(X) = x₁P(X = x₁) + x₂P(X = x₂) + x₃P(X = x₃) + ...

也就是:

E(X) = Σ xᵢ P(X = xᵢ)

这个公式的含义是:

期望 = 每个取值 × 这个取值出现的概率,然后全部加起来

例如:

X = 1 的概率是 0.2
X = 2 的概率是 0.3
X = 3 的概率是 0.5

那么:

E(X) = 1 × 0.2 + 2 × 0.3 + 3 × 0.5
     = 2.3

这个 2.3 不是说 X 一定能取到 2.3,而是长期平均结果趋近于 2.3。


二、连续型随机变量不能直接写 P(X = x)

连续型随机变量的问题在于:

P(X = 某一个具体值) = 0

例如 X 服从某个连续分布,问:

P(X = 1)

通常等于 0。

所以连续型随机变量不能像离散型那样写:

E(X) = Σ x P(X = x)

因为每一个点的概率都是 0。

但连续型随机变量可以讨论区间概率,比如:

P(a < X < b)

这个概率由密度函数积分得到:

P(a < X < b) = ∫[a,b] f(x) dx

所以密度函数 f(x) 不是概率本身,而是描述概率在数轴上如何分布的“密度”。


三、连续型期望为什么是 ∫ x f(x) dx?

可以把连续区间切成很多很小的小段。

例如把区间分成:

[x₁, x₁ + Δx]
[x₂, x₂ + Δx]

[x₃, x₃ + Δx] …

Δx 很小时,在 xᵢ 附近的一小段概率大约是:

P(xᵢ < X < xᵢ + Δx) ≈ f(xᵢ)Δx

这就是密度函数的含义。

于是这个小区间对期望的贡献大约是:

取值 × 该小区间概率
≈ xᵢ × f(xᵢ)Δx

把所有小区间贡献加起来:

E(X) ≈ Σ xᵢ f(xᵢ)Δx

Δx → 0 时,求和就变成积分:

E(X) = ∫ x f(x) dx

所以连续型期望公式本质上就是离散型公式的连续版本:

离散型:E(X) = Σ xᵢ P(X = xᵢ)

连续型:E(X) = ∫ x f(x) dx

可以这样记:

离散:概率是 P(X = xᵢ)
连续:小区间概率约为 f(x)dx

所以:
Σ x × 概率  →  ∫ x × f(x) dx

四、密度函数的积分本身不是期望,而是总概率

密度函数满足:

∫(-∞,+∞) f(x) dx = 1

这是因为随机变量一定会落在整个实数范围内,所以总概率为 1。

如果只对某个区间积分:

∫[a,b] f(x) dx

得到的是:

P(a ≤ X ≤ b)

而不是期望。

要得到期望,必须乘上取值 x

E(X) = ∫(-∞,+∞) x f(x) dx

为什么要乘 x?因为期望不是单纯算概率,而是算“加权平均值”。

密度函数 f(x) 负责提供权重,x 是对应的取值。


五、一个简单例子:均匀分布

假设:

X ~ U(0,1)

它的密度函数是:

f(x) = 1, 0 < x < 1

总概率是:

∫[0,1] f(x) dx = ∫[0,1] 1 dx = 1

这说明 X 落在 [0,1] 内的概率为 1。

期望是:

E(X) = ∫[0,1] x f(x) dx
     = ∫[0,1] x dx
     = 1/2

这里 1/2 表示,在 [0,1] 上均匀取数,长期平均值是 0.5。

所以:

∫ f(x) dx 算的是概率面积
∫ x f(x) dx 算的是加权平均

六、如果是二维密度函数怎么办?

如果 (X,Y) 有联合密度函数 f(x,y),那么总概率为:

∫∫ f(x,y) dxdy = 1

而期望分别为:

E(X) = ∫∫ x f(x,y) dxdy

E(Y) = ∫∫ y f(x,y) dxdy

如果求 E[g(X,Y)],则:

E[g(X,Y)] = ∫∫ g(x,y) f(x,y) dxdy

这在考研概率论中非常常见,例如:

E(XY) = ∫∫ xy f(x,y) dxdy

这里 xy 是函数值,f(x,y) 是概率密度权重。


七、考研里最容易混淆的地方

最常见的错误是把下面几个式子混在一起:

∫ f(x) dx = 1
∫[a,b] f(x) dx = P(a ≤ X ≤ b)
∫ x f(x) dx = E(X)
∫ g(x) f(x) dx = E[g(X)]

它们的区别在于:

表达式含义
∫ f(x) dx总概率
∫[a,b] f(x) dx区间概率
∫ x f(x) dxX 的期望
∫ x² f(x) dxE(X²)
∫ g(x) f(x) dxE[g(X)]

尤其要注意:

E(X²) ≠ [E(X)]²

其中:

E(X²) = ∫ x² f(x) dx

而不是:

(∫ x f(x) dx)²

八、一句话总结

密度函数的积分本身不是期望,而是概率;期望是“取值的加权平均”。连续型随机变量中,某一点没有概率,只有小区间概率,而小区间概率近似为 f(x)dx,所以连续型期望就从离散型的

Σ xᵢP(X = xᵢ)

变成了

∫ x f(x) dx

因此可以记成:

概率 = 对密度积分
期望 = 对“取值 × 密度”积分
函数的期望 = 对“函数值 × 密度”积分

这题的答案是:

n 至少为 8000

本题用的不是中心极限定理,而是切比雪夫不等式。严格说,它属于“用切比雪夫不等式估计概率”的题,和切比雪夫大数定律的思想相通。

题目只告诉了寿命 X 的数学期望为 μ,方差为 σ² = 400,没有告诉寿命服从什么分布。因此不能直接按正态分布算精确概率,也不能默认用中心极限定理去近似。考研数学里,只给期望和方差、要求保证某个概率不小于多少,最常见就是用切比雪夫不等式。


先设随机抽取的 n 个器件寿命为:

X₁, X₂, ... , Xₙ

它们相互独立,且来自同一种器件,所以一般默认同分布。因此:

E(Xₖ) = μ
D(Xₖ) = σ² = 400

样本均值为:

X̄ = (1/n)(X₁ + X₂ + ... + Xₙ)

先求 的数学期望:

E(X̄)
= E[(1/n)(X₁ + X₂ + ... + Xₙ)]
= (1/n)[E(X₁) + E(X₂) + ... + E(Xₙ)]
= (1/n)(nμ)
= μ

所以 μ 的无偏估计。

再求 的方差。因为 X₁, X₂, ... , Xₙ 相互独立,所以和的方差等于方差之和:

D(X̄)
= D[(1/n)(X₁ + X₂ + ... + Xₙ)]
= (1/n²)D(X₁ + X₂ + ... + Xₙ)
= (1/n²)[D(X₁) + D(X₂) + ... + D(Xₙ)]
= (1/n²)(nσ²)
= σ²/n
= 400/n

这里最关键的一步是:

D(aX) = a²D(X)

所以 (1/n) 提出来后变成了 (1/n²)


切比雪夫不等式是:

P{|X - E(X)| < ε} ≥ 1 - D(X)/ε²

现在把 X 换成样本均值 ,因为:

E(X̄) = μ
D(X̄) = 400/n

所以:

P{|X̄ - μ| < ε} ≥ 1 - D(X̄)/ε²

题目要求的是:

P{|X̄ - μ| < 1} ≥ 0.95

也就是取 ε = 1,代入切比雪夫不等式:

P{|X̄ - μ| < 1}
≥ 1 - D(X̄)/1²
= 1 - 400/n

为了保证题目要求成立,只要让右边不小于 0.95

1 - 400/n ≥ 0.95

解这个不等式:

400/n ≤ 0.05
n ≥ 400/0.05
n ≥ 8000

所以:

n 至少为 8000

这题的公式转换主线可以压缩成:

D(X̄) = σ²/n = 400/n

P{|X̄ - μ| < 1}
≥ 1 - D(X̄)/1²
= 1 - 400/n

1 - 400/n ≥ 0.95

n ≥ 8000

关于“做题时如何判断该用哪个极限定理”,可以按题干信号来判断。

如果题目只给了数学期望和方差,并且要求类似:

P{|X̄ - μ| < ε} ≥ 某个数

或者要求“为了使样本均值与总体均值的偏差小于某值的概率至少为多少”,这通常用切比雪夫不等式。因为切比雪夫不等式不要求知道总体分布,只要求方差存在。

如果题目问的是:

当 n → ∞ 时,X̄ 是否依概率收敛于 μ

或者问:

证明 X̄ → μ

这类题一般用大数定律。它关心的是样本均值是否稳定趋近总体均值,不是让你算具体的 n

如果题目出现大量独立同分布随机变量的和,并且问近似概率,例如:

P{a < X₁ + X₂ + ... + Xₙ < b}

或者:

P{a < X̄ < b}

并且 n 较大,常常用中心极限定理,把和或均值标准化后近似为标准正态分布:

(X₁ + ... + Xₙ - nμ)/(σ√n) 近似服从 N(0,1)

或者:

(X̄ - μ)/(σ/√n) 近似服从 N(0,1)

这题如果强行用中心极限定理,会得到近似:

P{|X̄ - μ| < 1}
≈ P{|Z| < √n/20}

要求约等于:

2Φ(√n/20) - 1 ≥ 0.95

于是:

√n/20 ≥ 1.96
n ≥ 1536.64

n ≈ 1537。但是这个结果只是正态近似结果,不是严格保证。题目没有说寿命服从正态分布,也没有说用中心极限定理近似,所以不能把 1537 当作本题标准答案。

本题标准做法用切比雪夫不等式,结果是 8000。它比较保守,但它不依赖总体分布,所以能保证:

P{|X̄ - μ| < 1} ≥ 0.95

考研里可以这样快速识别:

只给 E(X)、D(X),要求概率下界 → 切比雪夫不等式

问样本均值是否趋于总体均值 → 大数定律

问大量独立随机变量和的近似分布或近似概率 → 中心极限定理

明确给出正态分布 → 直接用正态分布标准化

这题最核心的识别点就是:只给均值和方差,没有给分布,却要求概率至少为 0.95。因此应该用切比雪夫不等式,而不是中心极限定理。

文末附加内容
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇