数理统计的基本概念(一)
总体、样本与统计量
总体及其分布
在数理统计中,称所研究的对象的全体为总体,总体中的元素称为个体。若总体中的个体数目为有限,则称之为有限总体;否则就称之为无限总体。
理解总体与个体:一批灯管10万支,在研究这批灯管的平均使用寿命时,该批灯管的全部使用寿命就组成一个总体,而其中每个灯管的使用寿命是个体。
数理统计所关心的并非每个个体的所有属性,而是它的某一项或若干项数量指标
X
X
X 和该数量指标
X
X
X 在总体中的分布情况。一方面,说到总体必对应某数量指标
X
X
X 可能取值的集合;另一方面,研究任意数量指标
X
X
X,其可能取值的全体即构成一个总体。因此,把二者等同起来,所谓总体的分布就是指数量指标
X
X
X 的分布。
数量指标
X
X
X 是一个随机变量,于是总体的分布也就是随机变量
X
X
X 的概率分布。
样本及其分布
从总体中取得一部分个体,这一部分个体称为样本。样本中的每个个体称为样品。样品中的个体数目称为样本容量。
取得样本的过程称为抽样,抽样中采用的方法称为抽样法。在数理统计中,一般采用随机抽样法,即从总体中随意地抽取若干个个体。
设由样本
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn,若
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn 是独立同分布的且
X
1
X_1
X1 的分布与总体
X
X
X 的分布相同,则称它为简单随机样本。
说样本
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 是
n
n
n 维随机向量,这是针对进行一次抽样前而言,实施了一次抽样后,得到的是一个实向量
(
x
1
,
.
.
.
x
n
)
T
(x_1,...x_n)^T
(x1,...xn)T,它是样本
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 的一个观察值,称为样本值。
统计量
统计量概念
样本是推断总体特性的依据,但在获得样本之后,并不能由样本直接进行统计推断,需要先对样本进行加工和提炼,把样本中所含的总体的相关信息集中起来,即,针对不同的问题构造出样本的适当函数。这种样本的函数就称为统计量。
设
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 为总体
X
X
X 的一个样本,若
g
(
x
1
,
.
.
.
,
x
n
)
g(x_1,...,x_n)
g(x1,...,xn) 为样本空间
X
mathcal{X}
X 到
R
k
mathbf{R}^k
Rk 的可测映射,且
g
g
g 中不含任何未知参数,则称
t
=
g
(
X
1
,
.
.
.
,
X
n
)
t=g(X_1,...,X_n)
t=g(X1,...,Xn) 为统计量。
粗略来说,统计量就是用作统计的量,因而它不能含未知参数。
样本矩
设
(
X
1
,
.
.
.
,
X
n
)
(X_1,...,X_n)
(X1,...,Xn) 为总体
X
X
X 的一个样本,称统计量
X
ˉ
=
1
n
∑
i
=
1
n
X
i
bar{X}=frac{1}{n}sum_{i=1}^n X_i
Xˉ=n1i=1∑nXi 为样本均值;称统计量
S
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
=
1
n
∑
i
=
1
n
X
i
2
−
X
ˉ
2
S^2=frac{1}{n}sum_{i=1}^n(X_i-bar{X})^2=frac{1}{n}sum_{i=1}^n X_i^2 - bar{X}^2
S2=n1i=1∑n(Xi−Xˉ)2=n1i=1∑nXi2−Xˉ2 及
S
∗
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S^{*2}=frac{1}{n-1}sum_{i=1}^n(X_i-bar{X})^2
S∗2=n−11i=1∑n(Xi−Xˉ)2 分别为样本方差及修正样本方差,称样本方差的算数根
S
=
S
2
S=sqrt{S^2}
S=S2
为样本标准差;称统计量
A
k
=
1
n
∑
i
=
1
n
X
i
k
A_k=frac{1}{n}sum_{i=1}^n X_i^k
Ak=n1i=1∑nXik 及
B
k
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
k
B_k=frac{1}{n}sum_{i=1}^n(X_i-bar{X})^k
Bk=n1i=1∑n(Xi−Xˉ)k 分别为样本
k
k
k 阶原点矩及样本
k
k
k 阶中心矩。
由大数定律可以证明,当
n
n
n 很大时,可用一次抽样后所得的样本均值
x
ˉ
bar{x}
xˉ 和样本方差
s
2
s^2
s2 分别作为总体
X
X
X 的均值
μ
mu
μ 和方差
σ
2
sigma^2
σ2 的近似值。
顺序统计量及其分布
设
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 为总体
X
X
X 的一个样本,其观察值为
(
x
1
,
.
.
.
,
x
n
)
T
(x_1,...,x_n)^T
(x1,...,xn)T,将
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn 由小到大进行排列,依次记为
x
(
1
)
,
.
.
.
,
x
(
n
)
x_{(1)},...,x_{(n)}
x(1),...,x(n),即
x
(
1
)
≤
.
.
.
≤
x
(
n
)
x_{(1)}le...le x_{(n)}
x(1)≤...≤x(n)。按下述方法定义统计量
X
(
k
)
X_{(k)}
X(k):当样本
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 取值为
(
x
1
,
.
.
.
,
x
n
)
T
(x_1,...,x_n)^T
(x1,...,xn)T 时,规定
X
(
k
)
X_{(k)}
X(k) 取值为
x
(
k
)
x_{(k)}
x(k),由此得到的
(
X
(
1
)
,
.
.
.
,
X
(
n
)
)
T
(X_{(1)},...,X_{(n)})^T
(X(1),...,X(n))T 称为样本
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 的顺序统计量或次序统计量,
X
(
k
)
X_{(k)}
X(k) 称为样本
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 的第
k
k
k 个顺序统计量,
X
(
1
)
X_{(1)}
X(1) 称为样本
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 的最小顺序统计量,
X
(
n
)
X_{(n)}
X(n) 称为样本
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 的最大顺序统计量。
样本中位数与样本极差
设
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 为总体
X
X
X 的一个样本,其顺序统计量为
(
X
(
1
)
,
.
.
.
,
X
(
n
)
)
T
(X_{(1)},...,X_{(n)})^T
(X(1),...,X(n))T,由
(
X
(
1
)
,
.
.
.
,
X
(
n
)
)
T
(X_{(1)},...,X_{(n)})^T
(X(1),...,X(n))T 可定义在应用上有重要意义的样本中位数与样本极差。
称统计量
M
e
=
{
X
(
(
n
+
1
)
/
2
)
,
n
为奇数
1
2
(
X
(
n
/
2
)
+
X
(
(
n
+
1
)
/
2
)
)
,
n
为偶数
Me=begin{cases} X_{((n+1)/2)}, &n 为奇数 \ frac{1}{2}(X_{(n/2)}+X_{((n+1)/2)}), &n 为偶数 end{cases}
Me={X((n+1)/2),21(X(n/2)+X((n+1)/2)),n为奇数n为偶数
为样本中位数。样本中位数具有计算方便且不受样本值中的异常值 (outlier) 影响的特点,因而有时比样本均值更具有代表性。
称统计量
R
=
X
(
n
)
−
X
(
1
)
R=X_{(n)}-X_{(1)}
R=X(n)−X(1)
为样本极差。样本极差是反映样本值分散程度的量。
经验分布函数
设
(
X
1
,
.
.
.
,
X
n
)
T
(X_1,...,X_n)^T
(X1,...,Xn)T 为总体
X
X
X 的一个样本,其顺序统计量为
(
X
(
1
)
,
.
.
.
,
X
(
n
)
)
T
(X_{(1)},...,X_{(n)})^T
(X(1),...,X(n))T。当样本的观察值为
(
x
1
,
.
.
.
,
x
n
)
T
(x_1,...,x_n)^T
(x1,...,xn)T 时,顺序统计量的观察值为
(
x
(
1
)
,
.
.
.
,
x
(
n
)
)
T
(x_{(1)},...,x_{(n)})^T
(x(1),...,x(n))T,对任意实数
x
x
x,记
F
n
(
x
)
=
{
0
,
x
<
x
(
1
)
k
n
,
x
(
k
)
≤
x
<
x
(
k
+
1
)
,
k
=
1
,
2
,
.
.
.
,
n
−
1
1
,
x
(
n
)
≤
x
F_n(x)=begin{cases}0, &x<x_{(1)}\ frac{k}{n}, &x_{(k)}le x <x_{(k+1)},k=1,2,...,n-1\ 1, &x_{(n)}le x end{cases}
Fn(x)=⎩
⎨
⎧0,nk,1,x<x(1)x(k)≤x<x(k+1),k=1,2,...,n−1x(n)≤x 则称
F
n
(
x
)
F_n(x)
Fn(x) 是经验分布函数。
经验分布函数的性质:
-
F
n
(
x
)
F_n(x)
x
x
-
F
n
(
x
)
F_n(x)
x
x
-
F
n
(
−
∞
)
=
0
,
F
n
(
+
∞
)
=
1
F_n(-infty)=0,F_n(+infty)=1
参考文献
[1] 《应用数理统计》,施雨,西安交通大学出版社。