概率论知识点总结(下)
参考资料
- 最大似然估计例题
- 何书元《概率论与数理统计》
6. 描述性统计
统计学的做法分为两种:
- 描述性统计:
从数据样本中计算一些平均值、标准差、最小值、最大值等概括 统计量, 画直方图、散点图等描述图形。 - 推断性统计:
假定要研究的对象服从某种概率模型, 收集数据后把数据用模型 解释, 并做出有概率意义的结论。
6.1 总体与样本
总体
- 总体参数是描述总体特性的指标, 简称参数。
- 如果总体中的个体是有限个, 称个体总数
N
N
- 总体平均或总体均值是参数。常用
μ
mu
y
1
,
y
2
,
…
,
y
N
y_{1}, y_{2}, ldots, y_{N}
μ
=
1
N
∑
i
=
1
N
y
i
mu=frac{1}{N} sum_{i=1}^{N} y_{i}
- 总体方差是参数。常记为
σ
2
sigma^{2}
y
1
,
y
2
,
…
,
y
N
y_{1}, y_{2}, ldots, y_{N}
σ
2
=
1
N
∑
i
=
1
N
(
y
i
−
μ
)
2
sigma^{2}=frac{1}{N} sum_{i=1}^{N}left(y_{i}-muright)^{2}
σ
sigma
样本
- 如果总体只有有限个样本虽然可以测量所有样本计算总体参数, 但可 能会消耗过大。
- 有些总体有无限个个体, 比如, 对某放射性物质测量固定长度时间内 放射出的粒子数, 每试验一次就有一个不同结果。
- 为了得到总体的信息, 可以从总体中抽取一个有代表性的个体的集合, 称为总体的一个样本。也叫观测数据。样本中个体的个数叫做样本量 (sample size)。
- 试图用样本的情况去判断总体的情况。注意, “有代表性” 是一个不容 忽视的要求。
- 从总体中抽取样本的工作叫做抽样 (sampling)。
- 设一个样本为
x
1
,
x
2
,
…
,
x
n
x_{1}, x_{2}, ldots, x_{n}
- 样本均值
x
ˉ
=
1
n
∑
i
=
1
n
x
i
bar{x}=frac{1}{n} sum_{i=1}^{n} x_{i}
- 样本方差
s
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
.
s^{2}=frac{1}{n-1} sum_{i=1}^{n}left(x_{i}-bar{x}right)^{2} .
s
=
s
2
s=sqrt{s^{2}}
6.2 抽样调查方法
随机抽样
- 如果总体中的每个个体都有相同的机会被抽中, 就称这样的抽样方法 为随机抽样方法。
- 简单地分, 抽样分为有放回抽取和无放回抽取。
- 无放回随机抽样指在总体中随机抽出一个个体后, 下次在余下的个体 中再进行随机抽样.
- 有放回随机抽样指抽出一个个体, 记录下抽到的结果后放回, 摇匀后再 进行下一次随机抽样.
- 无放回抽取从实现上和从精度上更好, 总体容量
N
N
- 提高样本量可以提高估计精度, 但不是总体越大, 考虑的特征越多, 样 本量也需要随之增大。
- 不论是有放回还是无放回,随机抽样是无偏的
分层抽样方法
- 把总体
A
A
L
L
A
=
A
1
+
A
2
+
⋯
+
A
L
.
A=A_{1}+A_{2}+cdots+A_{L} .
称这些子总体为层 (strata), 称A
i
A_{i}
i
i
- 用
N
N
A
A
N
i
N_{i}
i
i
N
=
N
1
+
N
2
+
⋯
+
N
L
.
N=N_{1}+N_{2}+cdots+N_{L} .
- 我们称
w
i
=
N
i
N
,
(
i
=
1
,
2
,
⋯
,
L
)
w_{i}=frac{N_{i}}{N},(i=1,2, cdots, L)
为第i
i
- 用
μ
mu
A
A
- 对
i
=
1
,
2
,
⋯
,
L
i=1,2, cdots, L
n
i
n_{i}
i
i
x
ˉ
i
bar{x}_{i}
i
i
x
ˉ
s
t
=
w
1
x
ˉ
1
+
w
2
x
ˉ
2
+
⋯
+
w
L
x
ˉ
L
bar{x}_{s t}=w_{1} bar{x}_{1}+w_{2} bar{x}_{2}+cdots+w_{L} bar{x}_{L}
是总体均值μ
mu
- 称
V
(
x
ˉ
s
t
)
≡
w
1
2
Var
(
x
ˉ
1
)
+
w
2
2
Var
(
x
ˉ
2
)
+
⋯
+
w
L
2
Var
(
x
ˉ
L
)
Vleft(bar{x}_{s t}right) equiv w_{1}^{2} operatorname{Var}left(bar{x}_{1}right)+w_{2}^{2} operatorname{Var}left(bar{x}_{2}right)+cdots+w_{L}^{2} operatorname{Var}left(bar{x}_{L}right)
是简单估计x
ˉ
s
t
bar{x}_{s t}
- 抽样方差
V
(
x
ˉ
s
t
)
Vleft(bar{x}_{s t}right)
x
ˉ
s
t
bar{x}_{s t}
V
(
x
ˉ
s
t
)
Vleft(bar{x}_{s t}right)
x
ˉ
s
t
bar{x}_{s t}
- 当各层内总体方差相近时, 各层样本量
n
i
n_{i}
N
i
N_{i}
7. 参数估计
如果
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
X1,X2,⋯,Xn 独立同分布, 和
X
X
X 同分布, 就称
X
X
X 是 总体, 称
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
X1,X2,⋯,Xn 是总体
X
X
X 的简单随机样本, 称观测数据的个 数
n
n
n 为样本量.
7.1 点估计和矩估计
估计量 (统计量)
- 设
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
X
X
θ
theta
X
X
g
(
x
1
,
x
2
,
⋯
,
x
n
)
gleft(x_{1}, x_{2}, cdots, x_{n}right)
θ
^
=
g
(
X
1
,
X
2
,
⋯
,
X
n
)
hat{theta}=gleft(X_{1}, X_{2}, cdots, X_{n}right)
是θ
theta
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
- 设
θ
^
hat{theta}
θ
theta
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
θ
^
hat{theta}
无偏估计,相合估计
- 设
θ
^
hat{theta}
θ
theta
- 如果
E
θ
^
=
θ
mathrm{E} hat{theta}=theta
θ
^
hat{theta}
θ
theta
- 如果当样本量
n
→
∞
,
θ
^
n rightarrow infty, hat{theta}
θ
theta
θ
^
hat{theta}
θ
theta
- 如果当样本量
n
→
∞
,
θ
^
n rightarrow infty, hat{theta}
θ
theta
θ
^
hat{theta}
θ
theta
- 如果
- 由于以概率 1 收玫可以推出依概率收玫, 所以强相合估计一定是相合 估计.
均值的估计
- 设总体均值
μ
=
E
X
mu=mathrm{E} X
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
X
X
- 均值
μ
mu
X
ˉ
n
=
1
n
∑
i
=
1
n
X
i
bar{X}_{n}=frac{1}{n} sum_{i=1}^{n} X_{i}
- 由于
X
ˉ
n
bar{X}_{n}
- 样本均值
X
ˉ
n
bar{X}_{n}
(1)X
ˉ
n
bar{X}_{n}
μ
mu
E
X
ˉ
n
=
μ
mathrm{E} bar{X}_{n}=mu
(2)X
ˉ
n
bar{X}_{n}
μ
mu
lim
n
→
∞
X
ˉ
n
=
μ
,
w
p
1.
lim _{n rightarrow infty} bar{X}_{n}=mu, mathrm{wp} 1 .
方差的估计
-
总体方差
σ
2
=
Var
(
X
)
sigma^{2}=operatorname{Var}(X)
σ2=Var(X) 的点估计由
S
2
=
1
n
−
1
∑
j
=
1
n
(
X
j
−
μ
^
)
2
S^{2}=frac{1}{n-1} sum_{j=1}^{n}left(X_{j}-hat{mu}right)^{2}
S2=n−11j=1∑n(Xj−μ^)2
定义. 由于S
2
S^{2}
S2 是从样本计算出来的, 所以是样本方差.
-
定义
Y
j
=
X
j
−
μ
Y_{j}=X_{j}-mu
Yj=Xj−μ, 有
Y
ˉ
n
=
1
n
∑
j
=
1
n
Y
j
=
μ
^
−
μ
,
Y
j
−
Y
ˉ
n
=
X
j
−
μ
^
,
E
Y
ˉ
n
2
=
σ
2
n
.
begin{aligned} &bar{Y}_{n}=frac{1}{n} sum_{j=1}^{n} Y_{j}=hat{mu}-mu, \ &Y_{j}-bar{Y}_{n}=X_{j}-hat{mu}, \ &mathrm{E} bar{Y}_{n}^{2}=frac{sigma^{2}}{n} . end{aligned}
Yˉn=n1j=1∑nYj=μ^−μ,Yj−Yˉn=Xj−μ^,EYˉn2=nσ2.
-
于是得到
S
2
=
1
n
−
1
∑
j
=
1
n
(
X
j
−
X
ˉ
n
)
2
=
1
n
−
1
∑
j
=
1
n
(
Y
j
−
Y
ˉ
n
)
2
=
1
n
−
1
∑
j
=
1
n
(
Y
j
2
−
2
Y
j
Y
ˉ
n
+
Y
ˉ
n
2
)
=
1
n
−
1
[
∑
j
=
1
n
Y
j
2
−
2
n
Y
ˉ
n
Y
ˉ
n
+
n
Y
ˉ
n
2
]
=
1
n
−
1
[
∑
j
=
1
n
Y
j
2
−
n
Y
ˉ
n
2
]
begin{aligned} S^{2} &=frac{1}{n-1} sum_{j=1}^{n}left(X_{j}-bar{X}_{n}right)^{2}=frac{1}{n-1} sum_{j=1}^{n}left(Y_{j}-bar{Y}_{n}right)^{2} \ &=frac{1}{n-1} sum_{j=1}^{n}left(Y_{j}^{2}-2 Y_{j} bar{Y}_{n}+bar{Y}_{n}^{2}right) \ &=frac{1}{n-1}left[sum_{j=1}^{n} Y_{j}^{2}-2 n bar{Y}_{n} bar{Y}_{n}+n bar{Y}_{n}^{2}right] \ &=frac{1}{n-1}left[sum_{j=1}^{n} Y_{j}^{2}-n bar{Y}_{n}^{2}right] end{aligned}
S2=n−11j=1∑n(Xj−Xˉn)2=n−11j=1∑n(Yj−Yˉn)2=n−11j=1∑n(Yj2−2YjYˉn+Yˉn2)=n−11[j=1∑nYj2−2nYˉnYˉn+nYˉn2]=n−11[j=1∑nYj2−nYˉn2]
-
从而有
E
S
2
=
1
n
−
1
[
∑
j
=
1
n
E
Y
j
2
−
n
E
Y
ˉ
n
2
]
=
1
n
−
1
(
n
σ
2
−
σ
2
)
=
σ
2
.
mathrm{E} S^{2}=frac{1}{n-1}left[sum_{j=1}^{n} mathrm{E} Y_{j}^{2}-n mathrm{E} bar{Y}_{n}^{2}right]=frac{1}{n-1}left(n sigma^{2}-sigma^{2}right)=sigma^{2} .
ES2=n−11[j=1∑nEYj2−nEYˉn2]=n−11(nσ2−σ2)=σ2.
说明S
2
S^{2}
S2 是
σ
2
sigma^{2}
σ2 的无偏估计.
样本均值、方差、标准差的理论结果
- 设
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
X
X
μ
=
E
X
mu=mathrm{E} X
σ
2
=
Var
(
X
)
sigma^{2}=operatorname{Var}(X)
- 样本均值
X
ˉ
n
bar{X}_{n}
μ
mu
- 样本方差
S
2
S^{2}
σ
2
sigma^{2}
- 样本标准差
S
S
σ
sigma
- 样本均值
点估计
- 设
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
X
X
X
1
j
,
X
2
j
,
⋯
,
X
n
j
X_{1}^{j}, X_{2}^{j}, cdots, X_{n}^{j}
X
j
X^{j}
ν
j
=
E
X
j
nu_{j}=mathrm{E} X^{j}
ν
^
j
=
1
n
∑
i
=
1
n
X
i
j
(1.7)
tag{1.7} hat{nu}_{j}=frac{1}{n} sum_{i=1}^{n} X_{i}^{j}
是ν
j
nu_{j}
-
ν
^
j
hat{nu}_{j}
- 最后指出, 在实际数据的计算中, 也常用
x
ˉ
n
,
s
2
bar{x}_{n}, s^{2}
s
s
x
ˉ
n
=
1
n
∑
j
=
1
n
x
j
,
s
2
=
1
n
−
1
∑
j
=
1
n
(
x
j
−
x
ˉ
n
)
2
,
s
=
s
2
.
(1.8)
tag{1.8} bar{x}_{n}=frac{1}{n} sum_{j=1}^{n} x_{j}, s^{2}=frac{1}{n-1} sum_{j=1}^{n}left(x_{j}-bar{x}_{n}right)^{2}, s=sqrt{s^{2}} .
矩估计
- 设
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
X
X
X
X
F
(
x
;
θ
1
,
θ
2
,
⋯
,
θ
m
)
.
(1.9)
tag{1.9} Fleft(x ; theta_{1}, theta_{2}, cdots, theta_{m}right) .
其中的θ
1
,
θ
2
,
⋯
,
θ
m
theta_{1}, theta_{2}, cdots, theta_{m}
- 如果能得到表达式
{
θ
1
=
g
1
(
ν
1
,
ν
2
,
⋯
,
ν
m
)
θ
2
=
g
2
(
ν
1
,
ν
2
,
⋯
,
ν
m
)
⋯
⋯
⋯
⋯
⋯
⋯
,
θ
m
=
g
m
(
ν
1
,
ν
2
,
⋯
,
ν
m
)
(1.10)
tag{1.10} left{begin{array}{l} theta_{1}=g_{1}left(nu_{1}, nu_{2}, cdots, nu_{m}right) \ theta_{2}=g_{2}left(nu_{1}, nu_{2}, cdots, nu_{m}right) \ cdots cdots cdots cdots cdots cdots, \ theta_{m}=g_{m}left(nu_{1}, nu_{2}, cdots, nu_{m}right) end{array}right.
其中
ν
j
=
E
X
j
,
j
=
1
,
2
,
⋯
,
m
,
nu_{j}=mathrm{E} X^{j}, j=1,2, cdots, m,
- 就称由
{
θ
^
1
=
g
1
(
ν
^
1
,
ν
^
2
,
⋯
,
ν
^
m
)
,
θ
^
2
=
g
2
(
ν
^
1
,
ν
^
2
,
⋯
,
ν
^
m
)
,
⋯
⋯
⋯
⋯
⋯
,
ν
^
m
)
θ
^
m
=
g
m
(
ν
^
1
,
ν
^
2
,
⋯
,
(1.11)
tag{1.11} left{begin{array}{l} hat{theta}_{1}=g_{1}left(hat{nu}_{1}, hat{nu}_{2}, cdots, hat{nu}_{m}right), \ hat{theta}_{2}=g_{2}left(hat{nu}_{1}, hat{nu}_{2}, cdots, hat{nu}_{m}right), \ left.cdots cdots cdots cdots cdots, hat{nu}_{m}right) \ hat{theta}_{m}=g_{m}left(hat{nu}_{1}, hat{nu}_{2}, cdots,right. end{array}right.
定义的θ
^
1
,
θ
^
2
,
⋯
,
θ
^
m
hat{theta}_{1}, hat{theta}_{2}, cdots, hat{theta}_{m}
θ
1
,
θ
2
,
⋯
,
θ
m
theta_{1}, theta_{2}, cdots, theta_{m}
ν
^
j
hat{nu}_{j}
ν
j
nu_{j}
- 由于总体分布 (1.9) 中含有末知参数, 所以
ν
j
nu_{j}
θ
1
,
θ
2
,
⋯
,
θ
m
theta_{1}, theta_{2}, cdots, theta_{m}
(
1.10
)
(1.10)
{
ν
1
=
h
1
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
,
ν
2
=
h
2
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
,
⋯
⋯
⋯
⋯
⋯
,
ν
m
=
h
m
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
(1.12)
tag{1.12} left{begin{array}{l} nu_{1}=h_{1}left(theta_{1}, theta_{2}, cdots, theta_{m}right), \ nu_{2}=h_{2}left(theta_{1}, theta_{2}, cdots, theta_{m}right), \ cdots cdots cdots cdots cdots, \ nu_{m}=h_{m}left(theta_{1}, theta_{2}, cdots, theta_{m}right) end{array}right.
得到的. 注意这里的ν
j
=
E
X
j
nu_{j}=mathrm{E} X^{j}
例题:正态分布参数的矩估计
- 设
X
X
N
(
μ
,
σ
2
)
Nleft(mu, sigma^{2}right)
- 由于
μ
=
E
X
,
σ
2
=
E
X
2
−
(
E
X
)
2
=
ν
2
−
ν
1
2
,
mu=mathrm{E} X, sigma^{2}=mathrm{E} X^{2}-(mathrm{E} X)^{2}=nu_{2}-nu_{1}^{2},
- 所以
μ
,
σ
2
mu, sigma^{2}
μ
^
=
X
ˉ
n
,
σ
^
2
=
ν
^
2
−
(
ν
^
1
)
2
=
1
n
∑
j
=
1
n
X
j
2
−
(
X
ˉ
n
)
2
=
1
n
∑
j
=
1
n
(
X
j
−
μ
^
)
2
.
begin{aligned} hat{mu} &=bar{X}_{n}, \ hat{sigma}^{2} &=hat{nu}_{2}-left(hat{nu}_{1}right)^{2} \ &=frac{1}{n} sum_{j=1}^{n} X_{j}^{2}-left(bar{X}_{n}right)^{2} \ &=frac{1}{n} sum_{j=1}^{n}left(X_{j}-hat{mu}right)^{2} . end{aligned}
7.2 最大似然估计
最大似然估计定义 (离散情况)
- 设离散随机变量
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, cdots, X_{n}
p
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
P
(
X
1
=
x
1
,
X
2
=
x
2
,
⋯
,
X
n
=
x
n
)
,
pleft(x_{1}, x_{2}, cdots, x_{n} ; thetaright)=Pleft(X_{1}=x_{1}, X_{2}=x_{2}, cdots, X_{n}=x_{n}right),
其中θ
theta
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, cdots, x_{n}
θ
theta
L
(
θ
)
=
p
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
L(theta)=pleft(x_{1}, x_{2}, cdots, x_{n} ; thetaright)
为基于x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, cdots, x_{n}
L
(
θ
)
L(theta)
θ
^
hat{theta}
θ
theta
-
θ
theta
θ
=
(
θ
1
,
θ
2
,
⋯
,
θ
m
)
boldsymbol{theta}=left(theta_{1}, theta_{2}, cdots, theta_{m}right)
最大似然估计 (连续型)
- 设随机向量
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
boldsymbol{X}=left(X_{1}, X_{2}, cdots, X_{n}right)
f
(
x
;
θ
)
f(x ; boldsymbol{theta})
θ
theta
X
X
x
x
θ
theta
L
(
θ
)
=
f
(
x
;
θ
)
L(boldsymbol{theta})=f(boldsymbol{x} ; boldsymbol{theta})
为基于x
boldsymbol{x}
L
(
θ
)
L(boldsymbol{theta})
θ
^
hat{boldsymbol{theta}}
θ
boldsymbol{theta}
- 最大似然估计通常被缩写成 MLE(Maximum Likelihood Estimator).
- 设总体
X
X
f
(
x
;
θ
)
,
X
1
,
X
2
,
⋯
,
X
n
f(x ; boldsymbol{theta}), X_{1}, X_{2}, cdots, X_{n}
X
X
(
X
1
,
X
2
,
⋯
,
X
n
)
left(X_{1}, X_{2}, cdots, X_{n}right)
f
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
)
=
∏
j
=
1
n
f
(
x
j
;
θ
)
,
fleft(x_{1}, x_{2}, cdots, x_{n} ; boldsymbol{theta}right)=prod_{j=1}^{n} fleft(x_{j} ; boldsymbol{theta}right),
- 基于观测值
x
=
(
x
1
,
x
2
,
⋯
,
x
n
)
boldsymbol{x}=left(x_{1}, x_{2}, cdots, x_{n}right)
L
(
θ
)
=
∏
j
=
1
n
f
(
x
j
;
θ
)
.
L(boldsymbol{theta})=prod_{j=1}^{n} fleft(x_{j} ; boldsymbol{theta}right) .
- 由于
l
(
θ
)
=
ln
L
(
θ
)
l(boldsymbol{theta})=ln L(boldsymbol{theta})
和似然函数有相同的最大值点, 所以称上式为对数似然函数. 实际问题中, 求对数似然函数l
(
θ
)
l(boldsymbol{theta})
参数估计还有区间估计、置信区间等相关知识点,由于本人在实际工程上用得不多,所以这一块不总结了。
例题
7. 马尔可夫链
该部分来自知乎:https://zhuanlan.zhihu.com/p/418319247