参数估计(一)(点估计)
文章目录
参数估计是数理统计中重要的基本问题之一。通常,称参数的可容许值的全体为参数空间,并记为
Θ
Theta
Θ。所谓参数估计就是由样本对总体分布所含的未知参数做出估计。另外,在有些实际问题中,由于事先并不知道总体
X
X
X 的分布类型,而要对其某些数字特征,如均值、方差等做出估计,习惯上也把这些数字特征称为参数,对它们进行估计也属于参数估计范畴。
点估计和估计量的求法
点估计概念
设总体
X
X
X 的分布函数是
F
(
x
;
θ
1
,
.
.
.
,
θ
l
)
F(x;theta_1,...,theta_l)
F(x;θ1,...,θl),其中
θ
1
,
.
.
.
,
θ
l
theta_1,...,theta_l
θ1,...,θl 是未知参数,
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn 是来自总体
X
X
X 的样本,
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn 是相应的样本值,参数点估计就是研究如何构造适当的统计量
θ
^
i
(
X
1
,
.
.
.
,
X
n
)
hat{theta}_i(X_1,...,X_n)
θ^i(X1,...,Xn),并分别用观察值
θ
^
i
(
x
1
,
.
.
.
,
x
n
)
hat{theta}_i(x_1,...,x_n)
θ^i(x1,...,xn) 作为未知参数
θ
i
theta_i
θi 的估计。
通常,称用作估计的统计量
θ
^
i
(
X
1
,
.
.
.
,
X
n
)
hat{theta}_i(X_1,...,X_n)
θ^i(X1,...,Xn) 为估计量,称其观察值
θ
^
i
(
x
1
,
.
.
.
,
x
n
)
hat{theta}_i(x_1,...,x_n)
θ^i(x1,...,xn) 为估计值。
由于对不同的样本值,得到的参数估计值往往不同,因此,点估计问题的关键在于构造估计量的方法。下面介绍求估计量的一些常用方法。
矩估计法
设总体
X
X
X 的分布中含有
l
l
l 个未知参数
θ
1
,
.
.
.
,
θ
l
theta_1,...,theta_l
θ1,...,θl,又设总体
X
X
X 的前
l
l
l 阶原点矩
α
k
=
E
(
X
k
)
(
k
=
1
,
.
.
.
,
l
)
alpha_k=E(X^k)(k=1,...,l)
αk=E(Xk)(k=1,...,l) 存在,且是
θ
1
,
.
.
.
,
θ
l
theta_1,...,theta_l
θ1,...,θl 的函数,即
α
k
=
α
k
(
θ
1
,
.
.
.
,
θ
l
)
alpha_k=alpha_k(theta_1,...,theta_l)
αk=αk(θ1,...,θl),令
α
k
(
θ
^
1
,
.
.
.
,
θ
^
l
)
=
A
k
,
k
=
1
,
.
.
.
,
l
alpha_k(hat{theta}_1,...,hat{theta}_l)=A_k,quad k=1,...,l
αk(θ^1,...,θ^l)=Ak,k=1,...,l
解此方程组可得
θ
^
1
,
.
.
.
,
θ
^
l
hat{theta}_1,...,hat{theta}_l
θ^1,...,θ^l,并将它们分别作为
θ
1
,
.
.
.
,
θ
l
theta_1,...,theta_l
θ1,...,θl 的估计量。这种求估计量的方法称为矩估计法,用矩估计法求得的估计量称为矩估计量。
例:设总体
X
X
X 的二阶矩存在,
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn 为总体
X
X
X 的样本,求总体均值
μ
mu
μ 与总体方差
σ
2
sigma^2
σ2 的矩估计。
解:因
α
1
=
μ
,
α
2
=
σ
2
+
μ
2
alpha_1=mu, alpha_2=sigma^2+mu^2
α1=μ,α2=σ2+μ2,令
{
μ
^
=
A
1
=
X
ˉ
σ
^
2
+
μ
^
2
=
A
2
=
1
n
∑
i
=
1
n
X
i
2
begin{cases} hat{mu}=A_1=bar{X} \ hat{sigma}^2+hat{mu}^2=A_2=frac{1}{n}sum_{i=1}^n X_i^2 end{cases}
{μ^=A1=Xˉσ^2+μ^2=A2=n1∑i=1nXi2
解得
μ
mu
μ 与
σ
2
sigma^2
σ2 的矩估计分别为
μ
^
=
X
ˉ
hat{mu}=bar{X}
μ^=Xˉ
σ
^
2
=
A
2
−
X
ˉ
2
=
S
2
hat{sigma}^2=A_2-bar{X}^2=S^2
σ^2=A2−Xˉ2=S2
极大似然估计法
以下用
X
=
(
X
1
,
.
.
.
,
X
n
)
T
boldsymbol{X}=(X_1,...,X_n)^T
X=(X1,...,Xn)T 表示样本,
x
=
(
x
1
,
.
.
.
,
x
n
)
T
boldsymbol{x}=(x_1,...,x_n)^T
x=(x1,...,xn)T 表示样本点,
f
(
x
;
θ
)
f(boldsymbol{x};theta)
f(x;θ) 表示样本分布。
极大似然法的提出是基于如下的想法:
当给定
θ
theta
θ 时,
f
(
x
;
θ
)
f(boldsymbol{x};theta)
f(x;θ) 度量样本
X
boldsymbol{X}
X 在
x
boldsymbol{x}
x 点发生的可能性。对于样本空间中的两个不同样本点
x
1
,
x
2
∈
X
boldsymbol{x}_1, boldsymbol{x}_2 in mathcal{X}
x1,x2∈X,如果有
f
(
x
1
;
θ
)
>
f
(
x
2
;
θ
)
f(boldsymbol{x}_1;theta) > f(boldsymbol{x}_2;theta)
f(x1;θ)>f(x2;θ),自然会认为样本
X
boldsymbol{X}
X 更可能在
x
1
boldsymbol{x}_1
x1 点发生。
现在换个角度来看待
f
(
x
;
θ
)
f(boldsymbol{x};theta)
f(x;θ)。当给定样本点
x
boldsymbol{x}
x 时,对参数空间中的两个不同参数
θ
1
,
θ
2
∈
Θ
theta_1,theta_2 in Theta
θ1,θ2∈Θ,如果有
f
(
x
;
θ
1
)
>
f
(
x
;
θ
2
)
f(boldsymbol{x};theta_1) > f(boldsymbol{x};theta_2)
f(x;θ1)>f(x;θ2),那么会认为样本点
x
boldsymbol{x}
x 更像是来自总体
f
(
X
;
θ
1
)
f(boldsymbol{X};theta_1)
f(X;θ1),所以,数
f
(
x
;
θ
)
f(boldsymbol{x};theta)
f(x;θ) 的大小可作为参数
θ
theta
θ 对产生样本观察值
x
boldsymbol{x}
x 有多大似然性的一种度量。
当给定样本点
x
boldsymbol{x}
x 时,称
f
(
x
;
θ
)
f(boldsymbol{x};theta)
f(x;θ) 为
θ
theta
θ 的似然函数,记为
L
(
θ
;
x
)
L(theta;boldsymbol{x})
L(θ;x),即
L
(
θ
;
x
)
=
f
(
x
;
θ
)
=
{
∏
i
=
1
n
p
(
x
i
;
θ
)
,
总体
X
为离散型随机变量
∏
i
=
1
n
f
(
x
i
;
θ
)
,
总体
X
为连续型随机变量
L(theta;boldsymbol{x})=f(boldsymbol{x};theta)=begin{cases} prod_{i=1}^np(x_i;theta), & 总体 X 为离散型随机变量 \ prod_{i=1}^nf(x_i;theta), & 总体 X 为连续型随机变量 end{cases}
L(θ;x)=f(x;θ)={∏i=1np(xi;θ),∏i=1nf(xi;θ),总体X为离散型随机变量总体X为连续型随机变量
而称
ln
f
(
x
;
θ
)
ln f(boldsymbol{x};theta)
lnf(x;θ) 为对数似然函数,记为
ln
L
(
θ
;
x
)
ln L(theta;boldsymbol{x})
lnL(θ;x)。
若有统计量
θ
^
≏
θ
^
(
X
)
hat{theta}bumpeq hat{theta}(boldsymbol{X})
θ^≏θ^(X),使得
L
(
θ
^
(
x
)
;
x
)
=
sup
θ
∈
Θ
{
L
(
θ
;
x
)
}
L(hat{theta}(boldsymbol{x});boldsymbol{x})=sup_{theta in Theta}{L(theta;boldsymbol{x})}
L(θ^(x);x)=θ∈Θsup{L(θ;x)}
或等价的,使得
ln
L
(
θ
^
(
x
)
;
x
)
=
sup
θ
∈
Θ
{
ln
L
(
θ
;
x
)
}
ln L(hat{theta}(boldsymbol{x});boldsymbol{x})=sup_{theta in Theta}{ln L(theta;boldsymbol{x})}
lnL(θ^(x);x)=θ∈Θsup{lnL(θ;x)}
则称
θ
^
(
X
)
hat{theta}(boldsymbol{X})
θ^(X) 为参数
θ
theta
θ 的极大似然估计量(Maximum Likelihood Estimators, MLE)。
例:设总体
X
∼
P
(
λ
)
,
λ
>
0
X sim P(lambda),lambda>0
X∼P(λ),λ>0,试求参数
λ
lambda
λ 的极大似然估计量。
解:
X
X
X 的概率函数为
P
{
X
=
x
}
=
λ
x
x
!
e
−
λ
,
x
=
0
,
1
,
2
,
.
.
.
P{X=x}=frac{lambda^x}{x!}e^{-lambda},quad x=0,1,2,...
P{X=x}=x!λxe−λ,x=0,1,2,...
故
λ
lambda
λ 的似然函数为
L
(
λ
)
=
∏
i
=
1
n
(
λ
x
i
x
i
!
e
−
λ
)
=
e
−
n
λ
λ
∑
i
=
1
n
x
i
∏
i
=
1
n
(
x
i
!
)
L(lambda)=prod_{i=1}^n (frac{lambda^{x_i}}{x_i!}e^{-lambda})=e^{-nlambda}frac{lambda^{sum_{i=1}^nx_i}}{prod_{i=1}^n(x_i!)}
L(λ)=i=1∏n(xi!λxie−λ)=e−nλ∏i=1n(xi!)λ∑i=1nxi
对数似然函数为
ln
L
(
λ
)
=
−
n
λ
+
ln
λ
∑
i
=
1
n
x
i
−
∑
i
=
1
n
ln
(
x
i
!
)
ln L(lambda)=-nlambda+ln lambda sum_{i=1}^nx_i-sum_{i=1}^n ln(x_i!)
lnL(λ)=−nλ+lnλi=1∑nxi−i=1∑nln(xi!)
令
∂
ln
L
(
λ
)
∂
λ
=
−
n
+
1
λ
∑
i
=
1
n
x
i
=
0
frac{partial ln L(lambda)}{partial lambda}=-n+frac{1}{lambda}sum_{i=1}^nx_i=0
∂λ∂lnL(λ)=−n+λ1i=1∑nxi=0
该似然方程有唯一解
λ
^
=
1
n
∑
i
=
1
n
x
i
=
x
ˉ
hat{lambda}=frac{1}{n}sum_{i=1}^nx_i=bar{x}
λ^=n1∑i=1nxi=xˉ,又因
∂
2
ln
L
(
λ
)
∂
λ
2
∣
λ
=
x
ˉ
<
0
frac{partial^2 ln L(lambda)}{partial lambda^2}|_{lambda=bar{x}}<0
∂λ2∂2lnL(λ)∣λ=xˉ<0
故
λ
lambda
λ 的极大似然估计量为
λ
^
=
X
ˉ
hat{lambda}=bar{X}
λ^=Xˉ。
参考文献
[1] 《应用数理统计》,施雨,西安交通大学出版社。