数理统计复习
抽样和抽样分布
总体和样本
样本 \((X_1, X_2, \cdots, X_n)\) 的分布函数为 \(\prod_{i=1}^{n} F(x_i)\),概率密度为 \(\prod_{i=1}^{n} f(x_i)\)。
经验分布函数 \(\displaystyle F_n(x) = \frac{v_n(x)}{n}\),其中 \(v_n(x)\) 为事件 \(\{X\le x\}\) 在 \(n\) 次观察出现的次数。\(F_n(-\infty)=0, F_n(+\infty)=1\)
统计量
样本均值 \(\displaystyle \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\)
样本方差 \(\displaystyle S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 = \frac{1}{n-1} \left( \sum_{i=1}^{n} X_i^2 - n\bar{X}^2 \right)\)
期望和方差
期望 \(\displaystyle E(X) = \int_{-\infty}^{+\infty} x f(x) \, dx\)
方差 \(D(X) = E(X^2) - [E(X)]^2\)
期望的线性性质:\(E(aX + b) = aE(X) + b\)
方差的性质:\(D(aX + b) = a^2D(X)\)
两个不相关变量 \(X\) 和 \(Y\) 的期望和方差:\(E(X \pm Y) = E(X) \pm E(Y)\),\(D(X \pm Y) = D(X) + D(Y)\)
正态分布
两个独立正态随机变量 \(X \sim N(\mu_X, \sigma_X^2)\) 和 \(Y \sim N(\mu_Y, \sigma_Y^2)\),则 \(X \pm Y \sim N(\mu_X \pm \mu_Y, \sigma_X^2 + \sigma_Y^2)\)
正态随机变量 \(X \sim N(\mu, \sigma^2)\) 标准化后的变量 \(Z\) 定义为 \(Z = \frac{X - \mu}{\sigma} \sim N(0, 1)\)
正态分布函数 \(\displaystyle \Phi(x) = P(Z \leq x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt\)
抽样分布
\(\chi^2\) 分布
设 \(X_1, X_2, \cdots, X_n\) 是来自正态分布 \(N(0, 1)\) 的独立随机变量,\(\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2\),服从自由度为 \(n\) 的 \(\chi^2\) 分布,记为 \(\chi^2 \sim \chi^2(n)\)
\(\chi^2\) 分布的性质:
- \(E(\chi^2) = n, D(\chi^2) = 2n\)
- 若 \(\chi_1^2 \sim \chi^2(n_1), \chi_2^2 \sim \chi^2(n_2)\),则 \(\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)\)
\(t\) 分布
设 \(X \sim N(0, 1), Y \sim \chi^2(n)\),且 \(X\) 和 \(Y\) 独立,则 \(\displaystyle t = \frac{X}{\sqrt{Y/n}}\) 服从自由度为 \(n\) 的 \(t\) 分布,记为 \(t \sim t(n)\)
t 分布的概率密度函数关于 \(t=0\) 对称
\(F\) 分布
设 \(X \sim \chi^2(n_1), Y \sim \chi^2(n_2)\),且 \(X\) 和 \(Y\) 独立,则 \(\displaystyle F = \frac{X/n_1}{Y/n_2}\) 服从自由度为 \((n_1, n_2)\) 的 \(F\) 分布,记为 \(F \sim F(n_1, n_2)\)
\(\displaystyle \frac{1}{F} \sim F(n, m)\)
上 \(\alpha\) 分位点
设概率密度函数为 \(f(x)\),则上 \(\alpha\) 分位点 \(x_{\alpha}\) 是满足 \(\displaystyle P\{X\ge x_\alpha\} = \int_{x_{\alpha}}^{+\infty} f(x) \, dx = \alpha\) 的值
对于 \(t\) 分布,有 \(t_{1-\alpha}(n) = -t_\alpha(n)\),当 \(n\) 很大时,\(t_{\alpha}(n) \approx Z_{\alpha}\)
对于 \(F\) 分布,有 \(\displaystyle F_{1-\alpha}(n, m) = \frac{1}{F_{\alpha}(m, n)}\)
注意区分上分位和下分位,给的表格可能是下分位点。
抽样分布定理
设 \(X_1, X_2, \cdots, X_n\) 是取自正态总体 \(N(\mu, \sigma^2)\) 的样本,则有:
- \(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)
- \(\bar{X}\) 和 \(S^2\) 相互独立
- \(\displaystyle \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)
- \(\displaystyle \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\)
设 \(X_1, X_2, \cdots, X_{n_1}\) 是取自正态总体 \(N(\mu_1, \sigma^2)\) 的样本,\(Y_1, Y_2, \cdots, Y_{n_2}\) 是取自正态总体 \(N(\mu_2, \sigma^2)\) 的样本,且两个样本相互独立,则有:
- \(\displaystyle \frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\),其中 \(\displaystyle S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}\)
设 \(X_1, X_2, \cdots, X_{n_1}\) 是取自正态总体 \(N(\mu_1, \sigma_1^2)\) 的样本,\(Y_1, Y_2, \cdots, Y_{n_2}\) 是取自正态总体 \(N(\mu_2, \sigma_2^2)\) 的样本,且两个样本相互独立,则有:
- \(\displaystyle \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)\)
常见分布
两点分布 设随机变量 \(X\) 仅取值 \(0\) 和 \(1\),相应概率为 \(P(X=0)=1-p,P(X=1)=p\)。
・期望:\(E(X) = p\)
・方差:\(D(X) = p(1-p)\)二项分布 设随机变量 \(X \sim \mathrm{B}(n, p)\),则
\(P(X=k) = C^k_np^k(1-p)^{n-k}, \quad k=0,1,\ldots,n\)。
・期望:\(E(X) = np\)
・方差:\(D(X) = np(1-p)\)泊松分布
设随机变量 \(X \sim \pi(\lambda)\),则
\(\displaystyle P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}, \quad k=0,1,2,\ldots\)。
・期望:\(E(X) = \lambda\)
・方差:\(D(X) = \lambda\)均匀分布
设随机变量 \(X \sim \mathrm{U}(a, b)\),则
概率密度:\(\displaystyle f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{otherwise} \end{cases}\)
・期望:\(\displaystyle E(X) = \frac{a+b}{2}\)
・方差:\(\displaystyle D(X) = \frac{(b-a)^2}{12}\)正态分布
设随机变量 \(X \sim N(\mu, \sigma^2)\), 则
概率密度:\(\displaystyle f(x) = \frac{1}{\sqrt{2\pi}\,\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)
・期望:\(E(X) = \mu\)
・方差:\(D(X) = \sigma^2\)指数分布
设随机变量 \(X \sim \mathrm{Exp}(\lambda)\),则
概率密度:\(f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases}\)
・期望:\(\displaystyle E(X) = \frac{1}{\lambda}\)
・方差:\(\displaystyle D(X) = \frac{1}{\lambda^2}\)几何分布
设随机变量 \(X \sim \mathrm{G}(p)\),则
\(P(X=k) = p\,(1-p)^{k-1}, \quad k = 1,2,\ldots\)・期望:\(E(X) = \displaystyle \frac{1}{p}\)
・方差:\(D(X) = \displaystyle \frac{1-p}{p^2}\)
参数估计
- 估计量 \(\hat{\theta}\):随机变量,是样本的函数
- 估计值:具体的数值,是估计量代入样本值计算得到的
矩估计
让总体矩等于样本矩,建立方程,解出参数的估计值。
最大似然估计
设总体分布为 \(P(x; \theta)\),\(X_1, X_2, \cdots, X_n\) 是来自该总体的样本。
- 先写出似然函数为 \(L(\theta) = \prod_{i=1}^{n} P(x_i; \theta)\)
- 对似然函数取对数 \(\ln L(\theta)\)
- 解方程 \(\frac{d}{d\theta} \ln L(\theta) = 0\),得到参数的估计值
如果是连续总体,将 \(P(x; \theta)\) 改为概率密度函数 \(f(x; \theta)\) 即可。
无偏估计
估计量的期望等于被估计的参数,即 \(E(\hat{\theta}) = \theta\)
有效性
估计量的方差最小,即 \(D(\hat{\theta})\) 最小的估计量。
一致性
当样本容量 \(n\) 趋于无穷大时,估计量收敛到被估计的参数,即 \(\lim_{n \to \infty} P(|\hat{\theta} - \theta| < \varepsilon) = 1\)
- 样本 k 阶矩是总体 k 阶矩的一致估计量
- \(\hat{\theta}\) 是无偏估计,当 \(\lim_{n \to \infty} D(\hat{\theta}) = 0\) 时,\(\hat{\theta}\) 是一致估计
区间估计
单个正态总体
\(X_1, X_2, \cdots, X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\bar{X}\) 是样本均值,\(S^2\) 是样本方差,置信度为 \(1-\alpha\)
\(\mu\) 的置信区间
\(\mu\) 未知,\(\sigma^2\) 已知:\(\displaystyle \bar{X} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\)
\(\mu\) 未知,\(\sigma^2\) 未知:\(\displaystyle \bar{X} \pm t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}\)
\(\sigma^2\) 的置信区间
\(\mu\) 未知:\(\displaystyle \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\),置信区间为 \(\displaystyle \left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)} , \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right)\)
假设检验
要检验的假设称为原假设 \(H_0\),对立的假设称为备择假设 \(H_1\)。二者中有且仅有一个成立。
- 计算确定检验统计量公式中各参数的值
- 计算检验统计量的值
- 查表得到拒绝域
- 根据检验统计量的值和拒绝域的关系,判断是否拒绝原假设
单一正态总体均值的假设检验
\(X_1, X_2, \cdots, X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的样本,\(\bar{X}\) 是样本均值,\(S^2\) 是样本方差,置信度为 \(1-\alpha\)
U 检验法 (\(\sigma_0^2\) 已知)
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\mu=\mu_0\) | \(\mu\ne\mu_0\) | \(\displaystyle U = \frac{\bar{X}-\mu_0}{\sigma_0/\sqrt{n}}\) | \(\left\| U \right\| \ge Z_{\alpha/2}\) |
单边检验 (左) | \(\mu\le\mu_0\) | \(\mu > \mu_0\) | \(\displaystyle U = \frac{\bar{X}-\mu_0}{\sigma_0/\sqrt{n}}\) | \(U \ge Z_{\alpha}\) |
单边检验 (右) | \(\mu\ge\mu_0\) | \(\mu < \mu_0\) | \(\displaystyle U = \frac{\bar{X}-\mu_0}{\sigma_0/\sqrt{n}}\) | \(U \le -Z_{\alpha}\) |
T 检验法 (\(\sigma^2\) 未知)
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\mu=\mu_0\) | \(\mu\ne\mu_0\) | \(\displaystyle T = \frac{\bar{X}-\mu_0}{S/\sqrt{n}}\) | \(\left\| T \right\| \ge t_{\alpha/2}(n-1)\) |
单边检验 (左) | \(\mu\le\mu_0\) | \(\mu > \mu_0\) | \(\displaystyle T = \frac{\bar{X}-\mu_0}{S/\sqrt{n}}\) | \(T \ge t_{\alpha}(n-1)\) |
单边检验 (右) | \(\mu\ge\mu_0\) | \(\mu < \mu_0\) | \(\displaystyle T = \frac{\bar{X}-\mu_0}{S/\sqrt{n}}\) | \(T \le -t_{\alpha}(n-1)\) |
单一正态总体方差的假设检验
\(\chi^2\) 检验法 (已知 \(\mu=\mu_0\))
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\sigma=\sigma_0\) | \(\sigma\ne\sigma_0\) | \(\displaystyle \chi^2 = \sum_{i=1}^{n} \frac {X_i-\mu_0} {\sigma_0}\) | \(\chi^2 \le \chi^2_{1-\frac{\alpha} {2}}(n), \chi^2 \ge \chi^2_{\frac{\alpha} {2}}(n)\) |
单边检验 (左) | \(\sigma\le\sigma_0\) | \(\sigma > \sigma_0\) | \(\displaystyle \chi^2 = \sum_{i=1}^{n} \frac {X_i-\mu_0} {\sigma_0}\) | \(\chi^2 \ge \chi^2_{\alpha}(n)\) |
单边检验 (右) | \(\sigma\ge\sigma_0\) | \(\sigma < \sigma_0\) | \(\displaystyle \chi^2 = \sum_{i=1}^{n} \frac {X_i-\mu_0} {\sigma_0}\) | \(\chi^2 \le \chi^2_{1-\alpha}(n)\) |
\(\chi^2\) 检验法 (\(\mu\) 未知)
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\sigma=\sigma_0\) | \(\sigma\ne\sigma_0\) | \(\displaystyle \chi^2 = \frac {(n-1)S^2} {\sigma_0^2}\) | \(\chi^2 \le \chi^2_{1-\frac{\alpha} {2}}(n-1), \chi^2 \ge \chi^2_{\frac{\alpha} {2}}(n-1)\) |
单边检验 (左) | \(\sigma\le\sigma_0\) | \(\sigma > \sigma_0\) | \(\displaystyle \chi^2 = \frac {(n-1)S^2} {\sigma_0^2}\) | \(\chi^2 \ge \chi^2_{\alpha}(n-1)\) |
单边检验 (右) | \(\sigma\ge\sigma_0\) | \(\sigma < \sigma_0\) | \(\displaystyle \chi^2 = \frac {(n-1)S^2} {\sigma_0^2}\) | \(\chi^2 \le \chi^2_{1-\alpha}(n-1)\) |
两个正态总体均值的假设检验
\(X_1, X_2, \cdots, X_{n_1}\) 是来自正态总体 \(N(\mu_1, \sigma_1^2)\) 的样本,\(Y_1, Y_2, \cdots, Y_{n_2}\) 是来自正态总体 \(N(\mu_2, \sigma_2^2)\) 的样本,\(\bar{X}\) 和 \(\bar{Y}\) 分别是两个样本的均值,\(S_1^2\) 和 \(S_2^2\) 分别是两个样本的方差,置信度为 \(1-\alpha\)
U 检验法 (\(\sigma_1^2\) 和 \(\sigma_2^2\) 已知)
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\mu_1=\mu_2\) | \(\mu_1\ne\mu_2\) | \(\displaystyle U = \frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}\) | \(\left\| U \right\| \ge Z_{\alpha/2}\) |
单边检验 (左) | \(\mu_1\le\mu_2\) | \(\mu_1 > \mu_2\) | \(\displaystyle U = \frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}\) | \(U \ge Z_{\alpha}\) |
单边检验 (右) | \(\mu_1\ge\mu_2\) | \(\mu_1 < \mu_2\) | \(\displaystyle U = \frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}\) | \(U \le -Z_{\alpha}\) |
T 检验法 (\(\sigma_1^2\) 和 \(\sigma_2^2\) 未知,但相等)
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\mu_1=\mu_2\) | \(\mu_1\ne\mu_2\) | \(\displaystyle T = \frac{\bar{X}-\bar{Y}}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\) | \(\left\| T \right\| \ge t_{\alpha/2}(n_1+n_2-2)\) |
单边检验 (左) | \(\mu_1\le\mu_2\) | \(\mu_1 > \mu_2\) | \(\displaystyle T = \frac{\bar{X}-\bar{Y}}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\) | \(T \ge t_{\alpha}(n_1+n_2-2)\) |
单边检验 (右) | \(\mu_1\ge\mu_2\) | \(\mu_1 < \mu_2\) | \(\displaystyle T = \frac{\bar{X}-\bar{Y}}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\) | \(T \le -t_{\alpha}(n_1+n_2-2)\) |
其中 \(S_w^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\)
两个正态总体方差的假设检验
F 检验法 (已知 \(\mu_1\)\(,\mu_2\))
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\sigma_1=\sigma_2\) | \(\sigma_1\ne\sigma_2\) | \(\displaystyle F = \frac{\frac{1}{n_1}\sum_{i=1}^{n_1} (X_i-\mu_i)^2}{\frac{1}{n_2}\sum_{i=1}^{n_2} (Y_i-\mu_i)^2}\) | \(F \le F_{1-\frac{\alpha} {2}}(n_1, n_2), F \ge F_{\frac{\alpha} {2}}(n_1, n_2)\) |
单边检验 (左) | \(\sigma_1\le\sigma_2\) | \(\sigma_1 > \sigma_2\) | \(\displaystyle F = \frac{\frac{1}{n_1}\sum_{i=1}^{n_1} (X_i-\mu_i)^2}{\frac{1}{n_2}\sum_{i=1}^{n_2} (Y_i-\mu_i)^2}\) | \(F \ge F_{\alpha}(n_1, n_2)\) |
单边检验 (右) | \(\sigma_1\ge\sigma_2\) | \(\sigma_1 < \sigma_2\) | \(\displaystyle F = \frac{\frac{1}{n_1}\sum_{i=1}^{n_1} (X_i-\mu_i)^2}{\frac{1}{n_2}\sum_{i=1}^{n_2} (Y_i-\mu_i)^2}\) | \(F \le F_{1-\alpha}(n_1, n_2)\) |
F 检验法 (\(\mu_1\)\(,\mu_2\) 未知)
检验类型 | 原假设 H₀ | 备择假设 H₁ | 检验统计量 | 拒绝域 |
---|---|---|---|---|
双边检验 | \(\sigma_1=\sigma_2\) | \(\sigma_1\ne\sigma_2\) | \(\displaystyle F = \frac{S_1^2}{S_2^2}\) | \(F \le F_{1-\frac{\alpha} {2}}(n_1-1, n_2-1), F \ge F_{\frac{\alpha} {2}}(n_1-1, n_2-1)\) |
单边检验 (左) | \(\sigma_1\le\sigma_2\) | \(\sigma_1 > \sigma_2\) | \(\displaystyle F = \frac{S_1^2}{S_2^2}\) | \(F \ge F_{\alpha}(n_1-1, n_2-1)\) |
单边检验 (右) | \(\sigma_1\ge\sigma_2\) | \(\sigma_1 < \sigma_2\) | \(\displaystyle F = \frac{S_1^2}{S_2^2}\) | \(F \le F_{1-\alpha}(n_1-1, n_2-1)\) |