概率论知识点总结(下)

参考资料

6. 描述性统计

统计学的做法分为两种:

  • 描述性统计:
    从数据样本中计算一些平均值、标准差、最小值、最大值等概括 统计量, 画直方图、散点图等描述图形。
  • 推断性统计:
    假定要研究的对象服从某种概率模型, 收集数据后把数据用模型 解释, 并做出有概率意义的结论。

6.1 总体与样本

总体

  • 总体参数是描述总体特性的指标, 简称参数。
  • 如果总体中的个体是有限个, 称个体总数

    N

    N

    N 为总体容量。

  • 总体平均或总体均值是参数。常用

    μ

    mu

    μ 表示。如果知道总体的全部个体 (比如, 某小学所有一年级新生的身高)

    y

    1

    ,

    y

    2

    ,

    ,

    y

    N

    y_{1}, y_{2}, ldots, y_{N}

    y1,y2,,yN

    μ

    =

    1

    N

    i

    =

    1

    N

    y

    i

    mu=frac{1}{N} sum_{i=1}^{N} y_{i}

    μ=N1i=1Nyi

  • 总体方差是参数。常记为

    σ

    2

    sigma^{2}

    σ2 。如果知道总体的全部个体

    y

    1

    ,

    y

    2

    ,

    ,

    y

    N

    y_{1}, y_{2}, ldots, y_{N}

    y1,y2,,yN

    σ

    2

    =

    1

    N

    i

    =

    1

    N

    (

    y

    i

    μ

    )

    2

    sigma^{2}=frac{1}{N} sum_{i=1}^{N}left(y_{i}-muright)^{2}

    σ2=N1i=1N(yiμ)2

    σ

    sigma

    σ 称为总体标准差。

样本

  • 如果总体只有有限个样本虽然可以测量所有样本计算总体参数, 但可 能会消耗过大。
  • 有些总体有无限个个体, 比如, 对某放射性物质测量固定长度时间内 放射出的粒子数, 每试验一次就有一个不同结果。
  • 为了得到总体的信息, 可以从总体中抽取一个有代表性的个体的集合, 称为总体的一个样本。也叫观测数据。样本中个体的个数叫做样本量 (sample size)。
  • 试图用样本的情况去判断总体的情况。注意, “有代表性” 是一个不容 忽视的要求。
  • 从总体中抽取样本的工作叫做抽样 (sampling)。
  • 设一个样本为

    x

    1

    ,

    x

    2

    ,

    ,

    x

    n

    x_{1}, x_{2}, ldots, x_{n}

    x1,x2,,xn, 可计算

  • 样本均值

    x

    ˉ

    =

    1

    n

    i

    =

    1

    n

    x

    i

    bar{x}=frac{1}{n} sum_{i=1}^{n} x_{i}

    xˉ=n1i=1nxi

  • 样本方差

    s

    2

    =

    1

    n

    1

    i

    =

    1

    n

    (

    x

    i

    x

    ˉ

    )

    2

    .

    s^{2}=frac{1}{n-1} sum_{i=1}^{n}left(x_{i}-bar{x}right)^{2} .

    s2=n11i=1n(xixˉ)2.

    s

    =

    s

    2

    s=sqrt{s^{2}}

    s=s2

    称为样本标准差。

6.2 抽样调查方法

随机抽样

  • 如果总体中的每个个体都有相同的机会被抽中, 就称这样的抽样方法 为随机抽样方法。
  • 简单地分, 抽样分为有放回抽取和无放回抽取。
  • 无放回随机抽样指在总体中随机抽出一个个体后, 下次在余下的个体 中再进行随机抽样.
  • 有放回随机抽样指抽出一个个体, 记录下抽到的结果后放回, 摇匀后再 进行下一次随机抽样.
  • 无放回抽取从实现上和从精度上更好, 总体容量

    N

    N

    N 很大时两者差异 很小。

  • 提高样本量可以提高估计精度, 但不是总体越大, 考虑的特征越多, 样 本量也需要随之增大。
  • 不论是有放回还是无放回,随机抽样是无偏的

分层抽样方法

  • 把总体

    A

    A

    A 分成

    L

    L

    L 个互不相交子总体:

    A

    =

    A

    1

    +

    A

    2

    +

    +

    A

    L

    .

    A=A_{1}+A_{2}+cdots+A_{L} .

    A=A1+A2++AL.
    称这些子总体为层 (strata), 称

    A

    i

    A_{i}

    Ai 为第

    i

    i

    i 层. 然后在每层中独立地进行随机抽样.

  • N

    N

    N 表示总体

    A

    A

    A 的个体总数, 用

    N

    i

    N_{i}

    Ni 表示第

    i

    i

    i 层的个体总数时, 有

    N

    =

    N

    1

    +

    N

    2

    +

    +

    N

    L

    .

    N=N_{1}+N_{2}+cdots+N_{L} .

    N=N1+N2++NL.

  • 我们称

    w

    i

    =

    N

    i

    N

    ,

    (

    i

    =

    1

    ,

    2

    ,


    ,

    L

    )

    w_{i}=frac{N_{i}}{N},(i=1,2, cdots, L)

    wi=NNi,(i=1,2,,L)
    为第

    i

    i

    i 层的层权 (weight).

  • μ

    mu

    μ 表示

    A

    A

    A 的总体均值.

  • i

    =

    1

    ,

    2

    ,


    ,

    L

    i=1,2, cdots, L

    i=1,2,,L, 用

    n

    i

    n_{i}

    ni 表示从第

    i

    i

    i 层抽出样本的个数,

    x

    ˉ

    i

    bar{x}_{i}

    xˉi 表示从第

    i

    i

    i 层抽出样本的样本均值. 称

    x

    ˉ

    s

    t

    =

    w

    1

    x

    ˉ

    1

    +

    w

    2

    x

    ˉ

    2

    +

    +

    w

    L

    x

    ˉ

    L

    bar{x}_{s t}=w_{1} bar{x}_{1}+w_{2} bar{x}_{2}+cdots+w_{L} bar{x}_{L}

    xˉst=w1xˉ1+w2xˉ2++wLxˉL
    是总体均值

    μ

    mu

    μ 的简单估计.


  • V

    (

    x

    ˉ

    s

    t

    )

    w

    1

    2

    Var

    (

    x

    ˉ

    1

    )

    +

    w

    2

    2

    Var

    (

    x

    ˉ

    2

    )

    +

    +

    w

    L

    2

    Var

    (

    x

    ˉ

    L

    )

    Vleft(bar{x}_{s t}right) equiv w_{1}^{2} operatorname{Var}left(bar{x}_{1}right)+w_{2}^{2} operatorname{Var}left(bar{x}_{2}right)+cdots+w_{L}^{2} operatorname{Var}left(bar{x}_{L}right)

    V(xˉst)w12Var(xˉ1)+w22Var(xˉ2)++wL2Var(xˉL)
    是简单估计

    x

    ˉ

    s

    t

    bar{x}_{s t}

    xˉst 的抽样方差.

  • 抽样方差

    V

    (

    x

    ˉ

    s

    t

    )

    Vleft(bar{x}_{s t}right)

    V(xˉst) 是评价简单估计

    x

    ˉ

    s

    t

    bar{x}_{s t}

    xˉst 的估计精度的指标.

    V

    (

    x

    ˉ

    s

    t

    )

    Vleft(bar{x}_{s t}right)

    V(xˉst) 越 小, 说明

    x

    ˉ

    s

    t

    bar{x}_{s t}

    xˉst 越好.

  • 当各层内总体方差相近时, 各层样本量

    n

    i

    n_{i}

    ni 应该正比于各层总体容量

    N

    i

    N_{i}

    Ni

7. 参数估计

如果

X

1

,

X

2

,


,

X

n

X_{1}, X_{2}, cdots, X_{n}

X1,X2,,Xn 独立同分布, 和

X

X

X 同分布, 就称

X

X

X总体, 称

X

1

,

X

2

,


,

X

n

X_{1}, X_{2}, cdots, X_{n}

X1,X2,,Xn 是总体

X

X

X简单随机样本, 称观测数据的个 数

n

n

n样本量.

7.1 点估计和矩估计

估计量 (统计量)

  • X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 是总体

    X

    X

    X 的简单随机样本,

    θ

    theta

    θ 是总体

    X

    X

    X 的末知参 数. 如果

    g

    (

    x

    1

    ,

    x

    2

    ,


    ,

    x

    n

    )

    gleft(x_{1}, x_{2}, cdots, x_{n}right)

    g(x1,x2,,xn) 是已知函数, 就称

    θ

    ^

    =

    g

    (

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    )

    hat{theta}=gleft(X_{1}, X_{2}, cdots, X_{n}right)

    θ^=g(X1,X2,,Xn)

    θ

    theta

    θ 的估计量, 简称为估计 (estimator). 换句话说, 估计或估计量是从 观测数据

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 能够直接计算的量. 计算后得到的值称为估 计值. 估计量也称为统计量 (statistic).

  • θ

    ^

    hat{theta}

    θ^ 是总体参数

    θ

    theta

    θ 的估计, 作为随机变量

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 的函数, 估 计量

    θ

    ^

    hat{theta}

    θ^ 也是随机变量. 估计量是样本的函数.

无偏估计,相合估计

  • θ

    ^

    hat{theta}

    θ^

    θ

    theta

    θ 的估计.

    • 如果

      E

      θ

      ^

      =

      θ

      mathrm{E} hat{theta}=theta

      Eθ^=θ, 称

      θ

      ^

      hat{theta}

      θ^

      θ

      theta

      θ无偏估计;

    • 如果当样本量

      n

      ,

      θ

      ^

      n rightarrow infty, hat{theta}

      n,θ^ 依概率收敛到

      θ

      theta

      θ, 就称

      θ

      ^

      hat{theta}

      θ^

      θ

      theta

      θ相合估 计 (consistent estimator);

    • 如果当样本量

      n

      ,

      θ

      ^

      n rightarrow infty, hat{theta}

      n,θ^ 以概率 1 收敛到

      θ

      theta

      θ, 就称

      θ

      ^

      hat{theta}

      θ^

      θ

      theta

      θ强相合估计 (strongly consistent estimator).

  • 由于以概率 1 收玫可以推出依概率收玫, 所以强相合估计一定是相合 估计.

均值的估计

  • 设总体均值

    μ

    =

    E

    X

    mu=mathrm{E} X

    μ=EX 存在,

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 是总体

    X

    X

    X 的简单随机样 本.

  • 均值

    μ

    mu

    μ 的估计定义为

    X

    ˉ

    n

    =

    1

    n

    i

    =

    1

    n

    X

    i

    bar{X}_{n}=frac{1}{n} sum_{i=1}^{n} X_{i}

    Xˉn=n1i=1nXi

  • 由于

    X

    ˉ

    n

    bar{X}_{n}

    Xˉn 是从样本计算出来的, 所以是样本均值.

  • 样本均值

    X

    ˉ

    n

    bar{X}_{n}

    Xˉn 有如下的性质.
    (1)

    X

    ˉ

    n

    bar{X}_{n}

    Xˉn

    μ

    mu

    μ 的无偏估计. 这是因为

    E

    X

    ˉ

    n

    =

    μ

    mathrm{E} bar{X}_{n}=mu

    EXˉn=μ.
    (2)

    X

    ˉ

    n

    bar{X}_{n}

    Xˉn

    μ

    mu

    μ 的强相合估计, 从而是相合估计. 这是因为从强大数律得 到

    lim

    n

    X

    ˉ

    n

    =

    μ

    ,

    w

    p

    1.

    lim _{n rightarrow infty} bar{X}_{n}=mu, mathrm{wp} 1 .

    nlimXˉn=μ,wp1.

方差的估计

  • 总体方差

    σ

    2

    =

    Var

    (

    X

    )

    sigma^{2}=operatorname{Var}(X)

    σ2=Var(X) 的点估计由

    S

    2

    =

    1

    n

    1

    j

    =

    1

    n

    (

    X

    j

    μ

    ^

    )

    2

    S^{2}=frac{1}{n-1} sum_{j=1}^{n}left(X_{j}-hat{mu}right)^{2}

    S2=n11j=1n(Xjμ^)2
    定义. 由于

    S

    2

    S^{2}

    S2 是从样本计算出来的, 所以是样本方差.

  • 定义

    Y

    j

    =

    X

    j

    μ

    Y_{j}=X_{j}-mu

    Yj=Xjμ, 有

    Y

    ˉ

    n

    =

    1

    n

    j

    =

    1

    n

    Y

    j

    =

    μ

    ^

    μ

    ,

    Y

    j

    Y

    ˉ

    n

    =

    X

    j

    μ

    ^

    ,

    E

    Y

    ˉ

    n

    2

    =

    σ

    2

    n

    .

    begin{aligned} &bar{Y}_{n}=frac{1}{n} sum_{j=1}^{n} Y_{j}=hat{mu}-mu, \ &Y_{j}-bar{Y}_{n}=X_{j}-hat{mu}, \ &mathrm{E} bar{Y}_{n}^{2}=frac{sigma^{2}}{n} . end{aligned}

    Yˉn=n1j=1nYj=μ^μ,YjYˉn=Xjμ^,EYˉn2=nσ2.

  • 于是得到

    S

    2

    =

    1

    n

    1

    j

    =

    1

    n

    (

    X

    j

    X

    ˉ

    n

    )

    2

    =

    1

    n

    1

    j

    =

    1

    n

    (

    Y

    j

    Y

    ˉ

    n

    )

    2

    =

    1

    n

    1

    j

    =

    1

    n

    (

    Y

    j

    2

    2

    Y

    j

    Y

    ˉ

    n

    +

    Y

    ˉ

    n

    2

    )

    =

    1

    n

    1

    [

    j

    =

    1

    n

    Y

    j

    2

    2

    n

    Y

    ˉ

    n

    Y

    ˉ

    n

    +

    n

    Y

    ˉ

    n

    2

    ]

    =

    1

    n

    1

    [

    j

    =

    1

    n

    Y

    j

    2

    n

    Y

    ˉ

    n

    2

    ]

    begin{aligned} S^{2} &=frac{1}{n-1} sum_{j=1}^{n}left(X_{j}-bar{X}_{n}right)^{2}=frac{1}{n-1} sum_{j=1}^{n}left(Y_{j}-bar{Y}_{n}right)^{2} \ &=frac{1}{n-1} sum_{j=1}^{n}left(Y_{j}^{2}-2 Y_{j} bar{Y}_{n}+bar{Y}_{n}^{2}right) \ &=frac{1}{n-1}left[sum_{j=1}^{n} Y_{j}^{2}-2 n bar{Y}_{n} bar{Y}_{n}+n bar{Y}_{n}^{2}right] \ &=frac{1}{n-1}left[sum_{j=1}^{n} Y_{j}^{2}-n bar{Y}_{n}^{2}right] end{aligned}

    S2=n11j=1n(XjXˉn)2=n11j=1n(YjYˉn)2=n11j=1n(Yj22YjYˉn+Yˉn2)=n11[j=1nYj22nYˉnYˉn+nYˉn2]=n11[j=1nYj2nYˉn2]

  • 从而有

    E

    S

    2

    =

    1

    n

    1

    [

    j

    =

    1

    n

    E

    Y

    j

    2

    n

    E

    Y

    ˉ

    n

    2

    ]

    =

    1

    n

    1

    (

    n

    σ

    2

    σ

    2

    )

    =

    σ

    2

    .

    mathrm{E} S^{2}=frac{1}{n-1}left[sum_{j=1}^{n} mathrm{E} Y_{j}^{2}-n mathrm{E} bar{Y}_{n}^{2}right]=frac{1}{n-1}left(n sigma^{2}-sigma^{2}right)=sigma^{2} .

    ES2=n11[j=1nEYj2nEYˉn2]=n11(nσ2σ2)=σ2.
    说明

    S

    2

    S^{2}

    S2

    σ

    2

    sigma^{2}

    σ2 的无偏估计.

样本均值、方差、标准差的理论结果

  • X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 是总体

    X

    X

    X 的简单随机样本,

    μ

    =

    E

    X

    mu=mathrm{E} X

    μ=EX,

    σ

    2

    =

    Var

    (

    X

    )

    sigma^{2}=operatorname{Var}(X)

    σ2=Var(X)

    • 样本均值

      X

      ˉ

      n

      bar{X}_{n}

      Xˉn 是总体均值

      μ

      mu

      μ 的强相合无偏估计,

    • 样本方差

      S

      2

      S^{2}

      S2 是总体方差

      σ

      2

      sigma^{2}

      σ2 的强相合无偏估计,

    • 样本标准差

      S

      S

      S 是总体标准差

      σ

      sigma

      σ 的强相合估计.

点估计

  • X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 是总体

    X

    X

    X 的简单随机样本, 则

    X

    1

    j

    ,

    X

    2

    j

    ,


    ,

    X

    n

    j

    X_{1}^{j}, X_{2}^{j}, cdots, X_{n}^{j}

    X1j,X2j,,Xnj 是 总体

    X

    j

    X^{j}

    Xj 的简单随机样本, 所以当原点矩

    ν

    j

    =

    E

    X

    j

    nu_{j}=mathrm{E} X^{j}

    νj=EXj 存在时,

    ν

    ^

    j

    =

    1

    n

    i

    =

    1

    n

    X

    i

    j

    (1.7)

    tag{1.7} hat{nu}_{j}=frac{1}{n} sum_{i=1}^{n} X_{i}^{j}

    ν^j=n1i=1nXij(1.7)

    ν

    j

    nu_{j}

    νj 的点估计.

  • ν

    ^

    j

    hat{nu}_{j}

    ν^j 具有无偏性和强相合性.

  • 最后指出, 在实际数据的计算中, 也常用

    x

    ˉ

    n

    ,

    s

    2

    bar{x}_{n}, s^{2}

    xˉn,s2

    s

    s

    s 分别表示样本均 值, 样本方差和样本标准差:

    x

    ˉ

    n

    =

    1

    n

    j

    =

    1

    n

    x

    j

    ,

    s

    2

    =

    1

    n

    1

    j

    =

    1

    n

    (

    x

    j

    x

    ˉ

    n

    )

    2

    ,

    s

    =

    s

    2

    .

    (1.8)

    tag{1.8} bar{x}_{n}=frac{1}{n} sum_{j=1}^{n} x_{j}, s^{2}=frac{1}{n-1} sum_{j=1}^{n}left(x_{j}-bar{x}_{n}right)^{2}, s=sqrt{s^{2}} .

    xˉn=n1j=1nxj,s2=n11j=1n(xjxˉn)2,s=s2

    .(1.8)

矩估计

  • X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 是总体

    X

    X

    X 的简单随机样本, 已知

    X

    X

    X 有分布函数

    F

    (

    x

    ;

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    )

    .

    (1.9)

    tag{1.9} Fleft(x ; theta_{1}, theta_{2}, cdots, theta_{m}right) .

    F(x;θ1,θ2,,θm).(1.9)
    其中的

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    theta_{1}, theta_{2}, cdots, theta_{m}

    θ1,θ2,,θm 是末知参数.

  • 如果能得到表达式

    {

    θ

    1

    =

    g

    1

    (

    ν

    1

    ,

    ν

    2

    ,


    ,

    ν

    m

    )

    θ

    2

    =

    g

    2

    (

    ν

    1

    ,

    ν

    2

    ,


    ,

    ν

    m

    )


    ,

    θ

    m

    =

    g

    m

    (

    ν

    1

    ,

    ν

    2

    ,


    ,

    ν

    m

    )

    (1.10)

    tag{1.10} left{begin{array}{l} theta_{1}=g_{1}left(nu_{1}, nu_{2}, cdots, nu_{m}right) \ theta_{2}=g_{2}left(nu_{1}, nu_{2}, cdots, nu_{m}right) \ cdots cdots cdots cdots cdots cdots, \ theta_{m}=g_{m}left(nu_{1}, nu_{2}, cdots, nu_{m}right) end{array}right.

    θ1=g1(ν1,ν2,,νm)θ2=g2(ν1,ν2,,νm)⋯⋯⋯⋯⋯⋯,θm=gm(ν1,ν2,,νm)(1.10)
    其中

    ν

    j

    =

    E

    X

    j

    ,

    j

    =

    1

    ,

    2

    ,


    ,

    m

    ,

    nu_{j}=mathrm{E} X^{j}, j=1,2, cdots, m,

    νj=EXj,j=1,2,,m,

  • 就称由

    {

    θ

    ^

    1

    =

    g

    1

    (

    ν

    ^

    1

    ,

    ν

    ^

    2

    ,


    ,

    ν

    ^

    m

    )

    ,

    θ

    ^

    2

    =

    g

    2

    (

    ν

    ^

    1

    ,

    ν

    ^

    2

    ,


    ,

    ν

    ^

    m

    )

    ,


    ,

    ν

    ^

    m

    )

    θ

    ^

    m

    =

    g

    m

    (

    ν

    ^

    1

    ,

    ν

    ^

    2

    ,


    ,

    (1.11)

    tag{1.11} left{begin{array}{l} hat{theta}_{1}=g_{1}left(hat{nu}_{1}, hat{nu}_{2}, cdots, hat{nu}_{m}right), \ hat{theta}_{2}=g_{2}left(hat{nu}_{1}, hat{nu}_{2}, cdots, hat{nu}_{m}right), \ left.cdots cdots cdots cdots cdots, hat{nu}_{m}right) \ hat{theta}_{m}=g_{m}left(hat{nu}_{1}, hat{nu}_{2}, cdots,right. end{array}right.

    θ^1=g1(ν^1,ν^2,,ν^m),θ^2=g2(ν^1,ν^2,,ν^m),⋯⋯⋯⋯⋯,ν^m)θ^m=gm(ν^1,ν^2,,(1.11)
    定义的

    θ

    ^

    1

    ,

    θ

    ^

    2

    ,


    ,

    θ

    ^

    m

    hat{theta}_{1}, hat{theta}_{2}, cdots, hat{theta}_{m}

    θ^1,θ^2,,θ^m 分别是

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    theta_{1}, theta_{2}, cdots, theta_{m}

    θ1,θ2,,θm 的矩估计 (moment estimator). 这里的

    ν

    ^

    j

    hat{nu}_{j}

    ν^j

    ν

    j

    nu_{j}

    νj 的点估计, 由 (1.7) 定义.

  • 由于总体分布 (1.9) 中含有末知参数, 所以

    ν

    j

    nu_{j}

    νj 是参数

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    theta_{1}, theta_{2}, cdots, theta_{m}

    θ1,θ2,,θm 的 函数, 而方程

    (

    1.10

    )

    (1.10)

    (1.10) 通常是由下面的估计方程

    {

    ν

    1

    =

    h

    1

    (

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    )

    ,

    ν

    2

    =

    h

    2

    (

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    )

    ,


    ,

    ν

    m

    =

    h

    m

    (

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    )

    (1.12)

    tag{1.12} left{begin{array}{l} nu_{1}=h_{1}left(theta_{1}, theta_{2}, cdots, theta_{m}right), \ nu_{2}=h_{2}left(theta_{1}, theta_{2}, cdots, theta_{m}right), \ cdots cdots cdots cdots cdots, \ nu_{m}=h_{m}left(theta_{1}, theta_{2}, cdots, theta_{m}right) end{array}right.

    ν1=h1(θ1,θ2,,θm),ν2=h2(θ1,θ2,,θm),⋯⋯⋯⋯⋯,νm=hm(θ1,θ2,,θm)(1.12)
    得到的. 注意这里的

    ν

    j

    =

    E

    X

    j

    nu_{j}=mathrm{E} X^{j}

    νj=EXj.

例题:正态分布参数的矩估计

  • X

    X

    X 服从正态分布

    N

    (

    μ

    ,

    σ

    2

    )

    Nleft(mu, sigma^{2}right)

    N(μ,σ2).

  • 由于

    μ

    =

    E

    X

    ,

    σ

    2

    =

    E

    X

    2

    (

    E

    X

    )

    2

    =

    ν

    2

    ν

    1

    2

    ,

    mu=mathrm{E} X, sigma^{2}=mathrm{E} X^{2}-(mathrm{E} X)^{2}=nu_{2}-nu_{1}^{2},

    μ=EX,σ2=EX2(EX)2=ν2ν12,

  • 所以

    μ

    ,

    σ

    2

    mu, sigma^{2}

    μ,σ2 的矩估计分别是

    μ

    ^

    =

    X

    ˉ

    n

    ,

    σ

    ^

    2

    =

    ν

    ^

    2

    (

    ν

    ^

    1

    )

    2

    =

    1

    n

    j

    =

    1

    n

    X

    j

    2

    (

    X

    ˉ

    n

    )

    2

    =

    1

    n

    j

    =

    1

    n

    (

    X

    j

    μ

    ^

    )

    2

    .

    begin{aligned} hat{mu} &=bar{X}_{n}, \ hat{sigma}^{2} &=hat{nu}_{2}-left(hat{nu}_{1}right)^{2} \ &=frac{1}{n} sum_{j=1}^{n} X_{j}^{2}-left(bar{X}_{n}right)^{2} \ &=frac{1}{n} sum_{j=1}^{n}left(X_{j}-hat{mu}right)^{2} . end{aligned}

    μ^σ^2=Xˉn,=ν^2(ν^1)2=n1j=1nXj2(Xˉn)2=n1j=1n(Xjμ^)2.

7.2 最大似然估计

最大似然估计定义 (离散情况)

  • 设离散随机变量

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    X_{1}, X_{2}, cdots, X_{n}

    X1,X2,,Xn 有联合分布

    p

    (

    x

    1

    ,

    x

    2

    ,


    ,

    x

    n

    ;

    θ

    )

    =

    P

    (

    X

    1

    =

    x

    1

    ,

    X

    2

    =

    x

    2

    ,


    ,

    X

    n

    =

    x

    n

    )

    ,

    pleft(x_{1}, x_{2}, cdots, x_{n} ; thetaright)=Pleft(X_{1}=x_{1}, X_{2}=x_{2}, cdots, X_{n}=x_{n}right),

    p(x1,x2,,xn;θ)=P(X1=x1,X2=x2,,Xn=xn),
    其中

    θ

    theta

    θ 是末知参数, 给定观测数据

    x

    1

    ,

    x

    2

    ,


    ,

    x

    n

    x_{1}, x_{2}, cdots, x_{n}

    x1,x2,,xn 后, 我们称

    θ

    theta

    θ 的函数

    L

    (

    θ

    )

    =

    p

    (

    x

    1

    ,

    x

    2

    ,


    ,

    x

    n

    ;

    θ

    )

    L(theta)=pleft(x_{1}, x_{2}, cdots, x_{n} ; thetaright)

    L(θ)=p(x1,x2,,xn;θ)
    为基于

    x

    1

    ,

    x

    2

    ,


    ,

    x

    n

    x_{1}, x_{2}, cdots, x_{n}

    x1,x2,,xn 的似然函数, 称

    L

    (

    θ

    )

    L(theta)

    L(θ) 的最大值点

    θ

    ^

    hat{theta}

    θ^

    θ

    theta

    θ 的最大 似然估计 (maximum likelihood estimator).

  • θ

    theta

    θ 也可以是向量

    θ

    =

    (

    θ

    1

    ,

    θ

    2

    ,


    ,

    θ

    m

    )

    boldsymbol{theta}=left(theta_{1}, theta_{2}, cdots, theta_{m}right)

    θ=(θ1,θ2,,θm).

最大似然估计 (连续型)

  • 设随机向量

    X

    =

    (

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    )

    boldsymbol{X}=left(X_{1}, X_{2}, cdots, X_{n}right)

    X=(X1,X2,,Xn) 有联合密度

    f

    (

    x

    ;

    θ

    )

    f(x ; boldsymbol{theta})

    f(x;θ), 其 中

    θ

    theta

    θ 是末知参数. 得到

    X

    X

    X 的观测值

    x

    x

    x 后, 称

    θ

    theta

    θ 的函数

    L

    (

    θ

    )

    =

    f

    (

    x

    ;

    θ

    )

    L(boldsymbol{theta})=f(boldsymbol{x} ; boldsymbol{theta})

    L(θ)=f(x;θ)
    为基于

    x

    boldsymbol{x}

    x 的似然函数. 称似然函数

    L

    (

    θ

    )

    L(boldsymbol{theta})

    L(θ) 的最大值点

    θ

    ^

    hat{boldsymbol{theta}}

    θ^ 为参数

    θ

    boldsymbol{theta}

    θ 的最 大似然估计.

  • 最大似然估计通常被缩写成 MLE(Maximum Likelihood Estimator).
  • 设总体

    X

    X

    X 有密度函数

    f

    (

    x

    ;

    θ

    )

    ,

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    f(x ; boldsymbol{theta}), X_{1}, X_{2}, cdots, X_{n}

    f(x;θ),X1,X2,,Xn 是总体

    X

    X

    X 的简单随机 样本, 则

    (

    X

    1

    ,

    X

    2

    ,


    ,

    X

    n

    )

    left(X_{1}, X_{2}, cdots, X_{n}right)

    (X1,X2,,Xn) 的联合密度是

    f

    (

    x

    1

    ,

    x

    2

    ,


    ,

    x

    n

    ;

    θ

    )

    =

    j

    =

    1

    n

    f

    (

    x

    j

    ;

    θ

    )

    ,

    fleft(x_{1}, x_{2}, cdots, x_{n} ; boldsymbol{theta}right)=prod_{j=1}^{n} fleft(x_{j} ; boldsymbol{theta}right),

    f(x1,x2,,xn;θ)=j=1nf(xj;θ),

  • 基于观测值

    x

    =

    (

    x

    1

    ,

    x

    2

    ,


    ,

    x

    n

    )

    boldsymbol{x}=left(x_{1}, x_{2}, cdots, x_{n}right)

    x=(x1,x2,,xn) 的似然函数是

    L

    (

    θ

    )

    =

    j

    =

    1

    n

    f

    (

    x

    j

    ;

    θ

    )

    .

    L(boldsymbol{theta})=prod_{j=1}^{n} fleft(x_{j} ; boldsymbol{theta}right) .

    L(θ)=j=1nf(xj;θ).

  • 由于

    l

    (

    θ

    )

    =

    ln

    L

    (

    θ

    )

    l(boldsymbol{theta})=ln L(boldsymbol{theta})

    l(θ)=lnL(θ)
    和似然函数有相同的最大值点, 所以称上式为对数似然函数. 实际问题中, 求对数似然函数

    l

    (

    θ

    )

    l(boldsymbol{theta})

    l(θ) 的最大值点往往要方便得多.

参数估计还有区间估计、置信区间等相关知识点,由于本人在实际工程上用得不多,所以这一块不总结了。

例题

7. 马尔可夫链

该部分来自知乎:https://zhuanlan.zhihu.com/p/418319247

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>