概率论与数理统计记忆公式和知识点理解
背就完事了!
积分
$$\int_{-\infty}^{+\infty}e^{-x^2} \mathrm dx = \sqrt\pi$$ $$\int_{-\infty}^{+\infty}x^2e^{-x^2} \mathrm dx = \frac{\sqrt\pi}{2}$$
概率
条件概率和全概率略
贝叶斯
$$\begin{aligned} P(B_i|A) &= \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_j)P(B_j)} \\ \\ &= \frac{P(A|B_i)P(B_i)}{P(A)} \end{aligned}$$
分母是全概率公式, 分子是全概率公式的某一项. 移项可以得到, 其实就是条件概率公式:
$$P(B_i|A)P(A) = P(A|B_i)P(B_i) = P(AB_i)$$
有关二维连续随机变量需要记一下的
独立 $\Longleftrightarrow$ $f(x, y) = f_X(x)f_Y(y)$
若 $Z = g(x, y)$ 可写成 $x = h(z, y)$, 有:
$$f_Z(z) = \int_{-\infty}^{+\infty}f(h(z, y), y) \mathrm dy$$
分布
数字特征
一维
- $EX = \int_{-\infty}^{+\infty} xf(x) \mathrm dx$
- $E(g(X)) = \int_{-\infty}^{+\infty} g(x)f(x) \mathrm dx$
- $DX = E(X - EX)^2 = EX^2 - (EX)^2$
二维
- $E(g(X, Y)) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} g(x, y)f(x, y) \mathrm dx \mathrm dy$
- $cov(X, Y) = E((X - EX)(Y - EY))$
- $\rho_{XY} = \frac{cov(X, Y)}{\sqrt{DX}\sqrt{DY}}$
性质
- 期望的线性性质
- $D(\sum a_iX_i) = \sum a_i^2DX_i$
- $DkX = k^2DX$
- $D(X \pm Y) = DX + DY \pm 2cov(X, Y)$
- $EXY = EXEY + cov(X, Y)$
- $(EXY)^2 \le EX^2EY^2$
- $cov(aX + b, cY + d) = accov(X, Y)$
- $cov(X_1 + X_2, Y) = cov(X_1, Y) + cov(X_2, Y)$ (可用定义推 $-$, 这里没推)
相关 vs 独立
相关是 线性相关, 独立是没有任何相关.
(X, Y) $\sim$ N, 不相关 $\Leftrightarrow$ 独立
- 问是否相关, 算协方差. 可以用 $EXY = EXEY$
- 问是否独立, 看 $P(A, B) = P(A)P(B)$. 不独立一般举反例, 独立一般都是离散可枚举的, 枚举一遍. 或者是连续可以得到 $P(A, B)$, $P(A)$, $P(B)$, 然后直接算出相等
正态分布相关性质
若 $X_i \sim N(\mu_i, \sigma_i^2)$ 相互独立, 则 $$\sum a_iX_i \sim N(\sum a_i\mu_i, \sum a_i^2\sigma_i^2)$$
用上 $DkX = k^2DX$, 可得: $$\overline X \sim N(\overline\mu, \frac{\overline{\sigma_i^2}}{n})$$
若还有同分布条件, 即 $X_i$ 独立同分布, $X_i \sim N(\mu, \sigma^2)$, 则有: $$\overline X \sim N(\mu, \frac{\sigma_i^2}{n})$$
大数定律
切比雪夫 Chebyshev 不等式
$$P(|X - EX| \ge \epsilon) \le \frac{DX}{\epsilon^2}$$
$P$ 里面的意思是 $X$ 和 $EX$ 的距离. 右边和方差有关, 方差的量纲带个平方, 所以分母是 $\epsilon^2$. 令 $\epsilon = \sigma$ 判断两个大于小于号.
切比雪夫大数定律
期望 相同, 方差 有界
独立同分布大数定律
即切比雪夫限制独立同分布, 同样满足切比雪夫的条件
辛钦 Khintchine
独立同分布, 对方差无要求, 方差可以无界
伯努力
非常直观, 频率趋近于概率, 不解释
结论
$$\overline X \stackrel P \longrightarrow \mu$$
中心极限定理
一般会考服从哪个定理, 直接根据直觉用就行了.
独立同分布 Lindeberg - Levy
独立同分布
$\sum X_i$ 近似服从 $N(n\mu, n\sigma^2)$, $N$ 中的参数就是 $\sum X_i$ 的期望和方差, $E\sum X_i = \sum EX_i = n\mu$, $D\sum X_i = \sum DX_i = n\sigma^2$.
根据正态分布的性质, 有推论: $\overline X$ 近似服从 $N(\mu, \frac{\sigma^2}{n})$
Lyapunov
独立, 不需要同分布, 不需要方差期望相同
$\sum X_i$ 近似服从 $N(\sum\mu, \sum\sigma^2)$.
根据正态分布的性质, 有推论: $\overline X$ 近似服从 $N(\overline\mu, \frac{\overline{\sigma^2}}{n})$
独立同分布可以看作 Lyapunov 的特殊情况. 所以记 Lyapunov 就好, 只不过独立同分布用得多.
样本量
均方差 就是 标准差…
样本均值 $\overline X$, 样本方差 $S^2 = \frac{1}{n-1} (X - \overline X)^2$.
样本 独立同分布, 同 总体的分布. 固由 大数定理 得: $$E\overline X = \mu, D\overline X = \frac{\sigma^2}{n}$$
样本方差值等于总体的方差, 即 $$ES^2 = \sigma^2$$
四大分布
$N$ 太熟悉了, $F$ 貌似不考
$\chi^2$
$X_i$ 独立 同标准正态分布. 一定是标准, 下面用 $N$ 来表示服从标准正态分布的随机变量 (其他分布同理).
$$\chi^2 = \sum N_i^2 \sim \chi^2(n)$$
很好记, 卡方带方.
性质
根据定义, $\chi_1^2$, $\chi_2^2$ 独立, 有 $$\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)$$
- $E\chi^2 = n$
- $D\chi^2 = 2n$
$T$
$$T = \frac{N}{\sqrt\frac{\chi^2}{n}} \sim t(n)$$
也比较好记忆, 开根是统一量纲, 除以 $n$ 是消除数量影响.
点估计
矩估计
$EX^k = \overline{X^k}$
待定系数的思想.
一般只考 1 和 2.
$EX$ 可由定义求, $EX^2 = DX + (EX)^2$.
最大似然估计
令人大为震撼的思想. 样本是随机抽的, 从 总体中取出样本的概率 应该是最大的.
求 $\hat \theta$, 使得 $L(\theta) = \prod P(X = x_i)$ 最大. 步骤是取对数然后求导. $\prod P(X = x_i)$ 里面一般会有 $\sum x_i$, 或者 $\prod x_i$. 不要紧, 一般来说 $\prod x_i$ 会没掉, $\sum x_i$ 可以由 $\overline X$ 替代. (或者其实有 $\prod x_i$ 可以保留? 没遇到过这样的题.)
八大分布之前四大
对象: 样本, 即随机变量独立同总体分布
因为后四个不考…
用 $\sigma^2$ | 用 $S^2$, 因为 $S^2$ 定义有 $n-1$, 所以自由度为 $n-1$ | |
---|---|---|
标准化形式 | $$\frac{\overline X - \mu}{\sqrt{\sigma^2/n}} \sim N(0, 1)$$ | $$\frac{\overline X - \mu}{\sqrt{S^2/n}} \sim t(n-1)$$ |
卡方, 分母是 $\sigma^2$ | $$\frac{\sum (X_i - \mu)^2}{\sigma^2} \sim \chi^2(n)$$ | $$\frac{(n-1)S^2}{\sigma^2} = \frac{\sum (X_i - \overline X)^2}{\sigma^2} \sim \chi^2(n-1)$$ |
置信区间
置信水平 $1 - \alpha$, $\alpha$ 是容许犯错的概率. 一般题目告诉的是 置信水平, 需要求一下 $\alpha$
对 $\mu$: 上述表格第一行, 将 $\sim$ 变为 $=$, 将 $N$ 变为 $z$. $\overline X$ 不看, 得到 $\sqrt \frac{\sigma^2}{n} z$. 双边 $(\overline X \pm \sqrt \frac{\sigma^2}{n} z_{\frac\alpha 2})$, 左边 $(\overline X - \sqrt \frac{\sigma^2}{n} z_\alpha, +\infty)$, 右边 $(-\infty, \overline X + \sqrt \frac{\sigma^2}{n} z_\alpha)$. 双边下标 $\frac \alpha 2$, 单边下标 $\alpha$. $S^2$ 的那个同理.
对 $\sigma^2$: 和上述差不多, 只不过由于卡方不是对称的, 就不是正负号的关系了, 而是一个下标是 $\alpha$($\frac \alpha 2$), 另一个是 $1 - \alpha$($1 - \frac \alpha 2$). 算出来边界, 看大小就行. 左边的和双边左边的形式一样, 右边的的和双边右边的形式一样.
假设检验
显著性检验
$\alpha$ 为犯错的概率, 错误为 “$H_0$ 成立, 但是我认为他不成立”. 即:
$$P(\text{拒绝} H_0 | H_0 \text{为真} ) = \alpha$$
检验的统计量对应上述表格. 比如检验均值用的第一行第二列, 检验方差用的就是第二行第二列(因为仅能得到统计量 $S^2$).
临界点和 $t$, $\chi^2$ 的下标和置信区间的一样. $\chi^2$ 的直接看大小, 单边的和双边左右一致.