概率论与数理统计

本文最后更新于：2024年3月7日下午

序言

这里记录了一些关于概率论的学习总结，目的是为了加深记忆以及提升Latex编辑技巧

预备知识

一些基础的比较重要的但是没啥可说的都放到这里，想到啥写啥。

排列数

从n个不同的元素中，任取其中m个元素按照一定的顺序排成一列，叫做从n个不同元素中取出m个元素的一个排列。从n个不同的元素中，任取其中m个元素组成的排列的个数，叫做 从n个不同元素中取出m个元素的排列数，用符号 $P^m_n或 A^m_n$表示。
计算公式 $A^m_n=n(n-1)…(n-m+1)=\frac{n!}{(n-m)!}$. 规定 0!=1;

注意：
当m = n时，称$A^m_n$为全排列;当m < n时，称$A^m_n$为选排列
全排列$A^n_n=n!$

组合数

从n个不同的元素中，任取其中m个元素构成一组，叫做从n个不同元素中取出m个元素的一个组合。从n个不同的元素中，任取其中m个元素组成的组合的个数，叫做 从n个不同元素中取出m个元素的组合数，用符号$C^{m}_{n}$或$(^m_n)$表示。
计算公式 $C^m_n = \frac{A^m_n}{m!}= \frac{n!}{m!(n-m)!}$.

基本的组合恒等式

$\begin{align*} & C^{r}_{n} = C^{n-r}_n \\ & C_{n+1}^{r+1} = C_n^{r+1} + C_{n}^{r} \\ & k \times C_{n}^{k}=n\times C^{k-1}_{n-1} \\ & \sum_{k=0}^n C^{k}_{n_1} * C^{n-k}_{n_2}=C^{n}_{n_1+n_2} \\ & C_{n}^{r} * C_r^m =C_{n}^{m}*C_{n-m}^{r-m} \\ & \sum_{k=0}^n C^{k}_{n}=2^{n} \\ & \sum_{k=0}^n (-1)^{k} * C^{k}_{n}=0 (由对称性易得)\\ & \sum_{k=r}^n C_{k}^{r}=C^{r+1}_{k+1} \end{align*}$

第一章随机事件与概率

这一章大多数内容都是高中知识，简单记一下知识点就可以了~~(bushi)~~

事件之间的关系与运算

包含 A发生必然导致 B发生. $A \subset B$
互斥 A 和 B 不可能同时发生. $A \cap B= \emptyset$
独立两事件相互独立与两事件互斥二者之间没有必然联系,满足 $P(A)P(B)=P(AB)$

注意，ABC两两独立推不出来ABC相互独立，即$P(A)P(B)=P(AB);P(B)P(C)=P(BC);P(C)P(A)=P(CA)$无法推出$P(A)P(B)P(C)=P(ABC)$

并事件(和事件) A 与 B 至少有一发生. $A \cup B$
积事件(交事件) A 与 B 同时发生. $A \cap B$
逆事件(对立事件) A 和 B 满足 $A \cup B = \Omega$ 且 $AB= \emptyset , B= \overline{A}$
差事件 A 发生，B 不发生. $A-B=A \cap \overline{B}=A \overline{B}$

事件的运算律
交换律 $A \cap B =B\cap A ; A \cup B =B\cup A$ ;
结合律 $A \cup (B \cup C)=(A \cup B)\cup C ; A \cap (B \cap C)=(A \cap B)\cap C$ ;
分配律 $A \cup (B \cap C)=(A \cup B)\cap (A \cup C) ; A \cap (B \cup C)=(A \cap B)\cup (A \cap C)$ ;
德摩根律 $\overline{A \cup B} = \overline{A} \cap \overline{B} ; \overline{A \cap B} = \overline{A} \cup \overline{B}$

奇怪的概型

古典概型
有限元素，可能性相同，概率为$P(A)=\frac{事件A中样本点数目}{样本点总数}$
超几何分布共有N个样本点，其中有D个标记点，从中任取n件，其中恰有k个标记点的概率
$P(X=k)=\frac{C^{n-k}_{N-D}C^k_D}{C^n_N}$

几何概型

设 $\Omega$ 是欧氏空间的有限区域，样本空间的每个点取到是有可能的，这样的概型为几何概型。

伯努利概型
伯努利试验E：只有两个结果的试验。（例：正反、黑白球、成败等。）
n重伯努利试验: n次独立重复的伯努里试验。(相同条件,各次试验每个结果概率不变,各次试验结果独立)
定理(二项概率公式)：设事件A在一次实验中出现的概率为p，则在n重伯努利试验中A恰好出现k次的概率为$P_n(k)= C^k_n p^k(1-p)^{n-k} (k=0,1…n)$

公式

乘法公式 由条件概率定义可得$P(AB)=P(B)P(A|B)$
全概率公式 假如 $A_1,A_2...A_n$ 为 $\Omega$ 的一个划分，则对任一随机事件B有 $P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i)$
贝叶斯公式 B为 $\Omega$ 中的一个事件， $A_1,A_2...A_n为\Omega$ 的一个有穷剖分,

$P(A_i|B)= \frac{P(A_i) P(B|A_i)}{ \sum^n_{i=1}P(A_i)P(B|A_i)}(i=1,2...n)$

乘法公式是求“几个事件同时发生”的概率；
全概率公式可看作是求“最后结果”的概率；
贝叶斯公式可看作是已知“最后结果” ，求“原因”的概率.

第二章一维随机变量及分布

随机变量分布函数 $F(x)=P(X(\omega) \leq x)$ 的性质
1.F(x)单调非降 $F(x_2)-F(x_1)=P(x_1 < X(\omega) < x_2 ) \geq 0$
2. $0 \leq F(x) \leq 1, F(- \infty)=lim_{x \rightarrow -\infty}F(x)=0,F(+ \infty)=lim_{x \rightarrow +\infty}F(x)=1$
3.F(x)在任何一点都是右连续的 $F(x+0)=F(x)$
任何随机变量的额分布满足这一性质(无论是连续还是离散)，具有这些性质的函数必为某一随机变量的分布函数。
边沿分布概率函数

分布类型

分布类型	记号	密度函数	期望	方差
离散型随机变量的分布
伯努利分布/0-1分布	$$X \sim 0-1(p)$$	$$P(x=1)=p$$	$$p$$	$$p(1-p)$$
二项分布/n重伯努利分布	$$X \sim B(n,p)$$	$$P(X=k)=C_n^k p^k(1-p)^{n-k}$$	$$np$$	$$np(1-p)$$
几何分布	$$X \sim G(p)$$	$$P(x=k)=p(1-p)^{k-1}$$	$$1/p$$	$$(1-p)/p^2$$
泊松分布	$$X \sim \pi(\lambda)$$	$$P(x=k)=\frac{\lambda^{k} e^{- \lambda}}{k!}$$	$$\lambda$$	$$\lambda$$
连续型随机变量的分布
均匀分布	$$X \sim U(a,b)$$	$$f(x)=\frac{1}{b-a} x\in (a,b)$$ $$f(x)=0 其他$$	$$\frac{a+b}{2}$$	$$\frac{(b-a)^2}{12}$$
指数分布	$$X \sim E(\lambda)$$	$$f(x)=\lambda e^{-\lambda x},x>0$$ $$f(x)=0,其他$$	$$\frac{1}{\lambda}$$	$$\frac{1}{\lambda^2}$$
正态分布	$$X \sim N(\mu,\sigma^2)$$	$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$	$$\mu$$	$$\sigma^2$$
标准正态分布	$$X \sim N(0,1)$$	$\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ 正态分布转标准正态分布的公式为$Z=\frac{X-\mu}{\sigma}$	$$0$$	$$1$$
$$ \mathcal{X}^2分布 $$	$$Z \sim \mathcal{X}^2(n)$$	设$(X_1,X_2,...,X_n)$均满足标准正态分布，令$Z=\sum_{i=1}^n X_i^2$，则Z服从的分布为$ \mathcal{X}^2 $ 分布满足$\frac{(n-1)S^2}{\sigma ^2}=\sim \mathcal{X}^2(n-1)$的性质	$$E \mathcal{X}^2(n)=n$$	$$D \mathcal{X}^2(n)=2n$$
t分布	$$Z \sim t(n)$$	若$X\sim N(0,1),Y\sim \mathcal{X}^2(n)$，令$Z=\frac{X}{\sqrt{Y}/n}$，则Z服从的分布为t分布满足$\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\sim t(n-1)$的性质	$$EZ=0$$	$$DZ=\frac{n}{n-2}$$

第三章分布函数

概率密度函数

就是取到该点的概率。
没啥可说的

边缘密度函数

实际上有很多种算法，举个例子，
关于x的边缘密度函数 $Fx(x)=$ $\begin{cases} F(x,+\infty)=lim_{y\to \infty}F(x,y) \\ \int_{-\infty}^{x}f(x,y)dy \end{cases}$
也就是对概率密度函数求正积分，对概率分布函数求歪导，就是某一个为变量时求以（它，另一个坐标无穷）为坐标为右上角的区块面积。

第四章随机变量的数字特征

数学期望

本质是概率分布的平均值

定义式：
离散型： $E(X)=\sum_k^n xp_k$
连续型： $E(X)=\int_{-\infty}^{\infty}xf(x)dx$

1. $E(c)=c$ (c是常数)
2. $E(aX+b)=aE(X)+b$ (ab是常数)
3. $E(X+Y)=E(X)+E(Y);E(X-Y)=E(X)-E(Y)$
4.当 $XY$ 独立时, $E(XY)=E(X)E(Y)$
5. $(EXY)^2 \leq EX^2 EY^2$

方差

本质是概率分布的离散程度

定义式：
离散型： $D(X)=\sum_k p_k(X_k-\mu)^2$
连续型： $D(X)=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx$

1. $D(x)=E(X^2)-(E(X))^2=(np)$
2. $D(c)=0$ (c是常数)
3. $D(aX+b)=a^2E(X)$ (ab是常数)
4.当 $XY$ 相互独立时, $D(\sum (X_i or -X_i))=\sum D(X_i)$ ,注意，无论和或是差的方差，均为方差的和。

切比雪夫不等式

前提 $D(x),E(x)$ 存在,呢么就有 $P(X-E(X)>=\Delta)<= \frac{D(X)}{\Delta^2}$ 。

协方差

衡量了随机变量XY之间的总体误差
由方差引申而来，若XY不独立，就会出现协方差项。

定义式：
离散型： $D(X)=\sum_k p_k(X_k-\mu)^2$
连续型： $D(X)=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx$

1. $Cov(x)=E(XY)-E(X)E(Y)$
由此我们可以知道，方差可以看作是协方差的推广
2. $Cov(X,Y)=Cov(Y,X)$
3. $Cov(aX,bY)=abCov(X,Y)$ (ab是常数)
4. $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
5.当 $XY$ 相互独立时, $Cov(X,Y)=0$
6. $Cov(X,X)=D(X)$
7. $D(X+Y)=D(X)+D(Y)+2Cov(X,Y)$
引申之后可得： $D(\sum X_i)=\sum D(X_i)+2\sum \sum_{i < j}Cov(X_i,X_j)$
8. $D(aX+bY)=a^2D(X)+b^2D(Y)+2abCov(X,Y)$
9. $D(aX-bY)=a^2D(X)+b^2D(Y)-2abCov(X,Y)$

矩

随机变量关于常数a的k阶矩： $E[(X-a)^k]$ ,其中k为正整数。
当a=O时的k阶矩称为k阶原点矩，记为 $v_k= E(X^k)$
当a=E(X)时的k阶矩称为k阶中心矩,记为 $\mu_k=E[(X-E(X))^k]$
数学期望是随机变量的一阶原点矩;方差是随机变量的二阶中心矩.

定理(高阶矩存在则必定低阶矩存在)

设随机变量X的s阶矩存在，若0 < k < s，则 $E(X^K)$ 也存在

定理（中心矩与原点矩的关系)

（这是防止公式渲染错误的头文字前缀请忽略） $\mu_k=\sum_{j=0}^k C_k^j v_j(-V_1)^{k-j}$ ,
（这是防止公式渲染错误的头文字前缀请忽略） $v_k=\sum_{j=0}^k C_k^j \mu_j V_1^{k-j}$ ,

第五章大数定律和中心极限定律

切比雪夫不等式

如果一个随机变量的方差非常小的话，那么这个随机变量取到远离均值$\mu$的概率也是非常小的，这个说实话也非常直观，同样有一个专门的不等式来描述他，就是切比雪夫不等式

$P(|X-\mu| \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}$

大数定律

指某个随机事件在单次试验中可能发生也可能不发生，但在大量重复实验中往往呈现出明显的规律性，即该随机事件发生的频率会向某个常数收敛，该常数值即该事件发生的概率。
就是能用频率近似代替概率；能用样本均值近似代替总体均值得意思。

大数定律发挥作用，是靠大数对小数的稀释作用。而不是依靠后面的失衡的出现去平衡前期的失衡！！！

切比雪夫大数定律

假设 $\xi_n$ 为一个随机变量序列， $E(X)=\mu,D(X)=\sigma^2$ .如果 $D(S_n) < o(n^2)$ ,呢么当 $n \rightarrow \infty,P(\omega:|\frac{1}{n}\sum_{k=1}^n X_i - \frac{1}{n}\sum_{k=1}^n \mu_k|>\varepsilon) \rightarrow 0$
适用条件： $D(S_n) < o(n^2)$

Levi-Lindeberg定理(中心极限定理)

不论 $X_i$ 属于什么分布类型， $\mu=EX_i,\sigma=DX_i \to \sum_{i=1}^n X_i \overset{n\to \infty}{\sim} N(n\mu,n\sigma^2)$ .
呢么， $\frac{\sum_{i=1}^n X_i -n\mu}{\sqrt{n}\sigma} \overset{n\to \infty}{\sim} N(0,1)$ ,即 $lim_{n \to \infty }P \left\{ \frac{\sum_{i=1}^n X_i -n\mu}{\sqrt{n}\sigma} \leq x \right\} =\Phi(x)$

本质上是在说一个随机数期望的分布是按照正态分布的，且与期望值和方差有关

数理统计

一些名词

联合分布函数：设总体X的分布函数为F(x)，则样本 $(X_1,X_2,...,X_n)$ 的分布函数为 $F(X_1,X_2,...,X_n)=\prod_{i=1}^n F(x_i)$
联合分布律：设总体X的概率分布律为P(X=x)=p(x)，则样本 $(X_1,X_2,...,X_n)$ 的分布函数为 $P(X_1,X_2,...,X_n)=\prod_{i=1}^n p(x_i)$
联合分布密度：设总体X的概率密度为f(x)，则样本 $(X_1,X_2,...,X_n)$ 的分布函数为 $f(X_1,X_2,...,X_n)=\prod_{i=1}^n f(x_i)$
样本均值： $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$
样本方差： $S_n^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2$
样本标准差： $S_n$
修正样本方差： $S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2$
样本矩：
k阶矩： $A_k=\frac{1}{n}\sum_{i=1}^n X_i^k$
k阶中心矩： $B_k=\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^k$
样本k阶原点矩： $A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k$
样本k阶中心矩： $B_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^k$

抽样分布

$\mathcal{X}^2分布$

t分布

大学课程

大学大学基础课程概率论

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

±1RMQ（约束RMQ）上一篇

概率论与数理统计

序言

预备知识

排列数

组合数

第一章 随机事件与概率

事件之间的关系与运算

奇怪的概型

公式

第二章 一维随机变量及分布

分布类型

第三章 分布函数

概率密度函数

边缘密度函数

第四章 随机变量的数字特征

数学期望

方差

切比雪夫不等式

协方差

相关系数

矩

定理(高阶矩存在则必定低阶矩存在)

定理（中心矩与原点矩的关系)

第五章 大数定律和中心极限定律

切比雪夫不等式

大数定律

切比雪夫大数定律

Levi-Lindeberg定理(中心极限定理)

数理统计

一些名词

抽样分布

\mathcal{X}^2分布

t分布

第一章随机事件与概率

第二章一维随机变量及分布

第三章分布函数

第四章随机变量的数字特征

第五章大数定律和中心极限定律

$\mathcal{X}^2分布$