概率论与数理统计

本文最后更新于:2024年3月7日 下午

序言

这里记录了一些关于概率论的学习总结,目的是为了加深记忆以及提升Latex编辑技巧

预备知识

一些基础的比较重要的但是没啥可说的都放到这里,想到啥写啥。

排列数

从n个不同的元素中,任取其中m个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列。从n个不同的元素中,任取其中m个元素组成的排列的个数,叫做 从n个不同元素中取出m个元素的排列数,用符号 $P^m_n或 A^m_n$表示。
计算公式 $A^m_n=n(n-1)…(n-m+1)=\frac{n!}{(n-m)!}$. 规定 0!=1;

注意:
当m = n时,称$A^m_n$为全排列;当m < n时,称$A^m_n$为选排列
全排列$A^n_n=n!$

组合数

从n个不同的元素中,任取其中m个元素构成一组,叫做从n个不同元素中取出m个元素的一个组合。从n个不同的元素中,任取其中m个元素组成的组合的个数,叫做 从n个不同元素中取出m个元素的组合数,用符号$C^{m}_{n}$或$(^m_n)$表示。
计算公式 $C^m_n = \frac{A^m_n}{m!}= \frac{n!}{m!(n-m)!}$.

基本的组合恒等式


第一章 随机事件与概率

这一章大多数内容都是高中知识,简单记一下知识点就可以了~~(bushi)~~

事件之间的关系与运算

包含 A发生必然导致 B发生. $A \subset B$
互斥 A 和 B 不可能同时发生.
独立 两事件相互独立与两事件互斥二者之间没有必然联系,满足

注意,ABC两两独立推不出来ABC相互独立,即$P(A)P(B)=P(AB);P(B)P(C)=P(BC);P(C)P(A)=P(CA)$无法推出$P(A)P(B)P(C)=P(ABC)$

并事件(和事件) A 与 B 至少有一发生. $A \cup B$
积事件(交事件) A 与 B 同时发生. $A \cap B$
逆事件(对立事件) A 和 B 满足
差事件 A 发生,B 不发生.


事件的运算律
交换律 ;
结合律 ;
分配律 ;
德摩根律


奇怪的概型

古典概型
有限元素,可能性相同,概率为$P(A)=\frac{事件A中样本点数目}{样本点总数}$
超几何分布 共有N个样本点,其中有D个标记点,从中任取n件,其中恰有k个标记点的概率
$P(X=k)=\frac{C^{n-k}_{N-D}C^k_D}{C^n_N}$

几何概型

设 $\Omega$ 是欧氏空间的有限区域,样本空间的每个点取到是有可能的,这样的概型为几何概型。

伯努利概型
伯努利试验E:只有两个结果的试验。(例:正反、黑白球、成败等。)
n重伯努利试验: n次独立重复的伯努里试验。(相同条件,各次试验每个结果概率不变,各次试验结果独立)
定理(二项概率公式):设事件A在一次实验中出现的概率为p,则在n重伯努利试验中A恰好出现k次的概率为$P_n(k)= C^k_n p^k(1-p)^{n-k} (k=0,1…n)$


公式

乘法公式 由条件概率定义可得$P(AB)=P(B)P(A|B)$
全概率公式 假如 的一个划分,则对任一随机事件B有
贝叶斯公式 B为中的一个事件,的一个有穷剖分,

乘法公式是求“几个事件同时发生”的概率;
全概率公式可看作是求“最后结果”的概率;
贝叶斯公式可看作是已知“最后结果” ,求“原因”的概率.

第二章 一维随机变量及分布

随机变量分布函数的性质
1.F(x)单调非降
2.
3.F(x)在任何一点都是右连续的
任何随机变量的额分布满足这一性质(无论是连续还是离散),具有这些性质的函数必为某一随机变量的分布函数。
边沿分布概率函数

分布类型

分布类型 记号 密度函数 期望 方差
离散型随机变量的分布
伯努利分布/0-1分布 $$X \sim 0-1(p)$$ $$P(x=1)=p$$ $$p$$ $$p(1-p)$$
二项分布/n重伯努利分布 $$X \sim B(n,p)$$ $$P(X=k)=C_n^k p^k(1-p)^{n-k}$$ $$np$$ $$np(1-p)$$
几何分布 $$X \sim G(p)$$ $$P(x=k)=p(1-p)^{k-1}$$ $$1/p$$ $$(1-p)/p^2$$
泊松分布 $$X \sim \pi(\lambda)$$ $$P(x=k)=\frac{\lambda^{k} e^{- \lambda}}{k!}$$ $$\lambda$$ $$\lambda$$
连续型随机变量的分布
均匀分布 $$X \sim U(a,b)$$ $$f(x)=\frac{1}{b-a} x\in (a,b)$$ $$f(x)=0 其他$$ $$\frac{a+b}{2}$$ $$\frac{(b-a)^2}{12}$$
指数分布 $$X \sim E(\lambda)$$ $$f(x)=\lambda e^{-\lambda x},x>0$$ $$f(x)=0,其他$$ $$\frac{1}{\lambda}$$ $$\frac{1}{\lambda^2}$$
正态分布 $$X \sim N(\mu,\sigma^2)$$ $$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ $$\mu$$ $$\sigma^2$$
标准正态分布 $$X \sim N(0,1)$$ $\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$
正态分布转标准正态分布的公式为$Z=\frac{X-\mu}{\sigma}$
$$0$$ $$1$$
$$ \mathcal{X}^2分布 $$ $$Z \sim \mathcal{X}^2(n)$$ 设$(X_1,X_2,...,X_n)$均满足标准正态分布,令$Z=\sum_{i=1}^n X_i^2$,则Z服从的分布为$ \mathcal{X}^2 $ 分布
满足$\frac{(n-1)S^2}{\sigma ^2}=\sim \mathcal{X}^2(n-1)$的性质
$$E \mathcal{X}^2(n)=n$$ $$D \mathcal{X}^2(n)=2n$$
t分布 $$Z \sim t(n)$$ 若$X\sim N(0,1),Y\sim \mathcal{X}^2(n)$,令$Z=\frac{X}{\sqrt{Y}/n}$,则Z服从的分布为t分布
满足$\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\sim t(n-1)$的性质
$$EZ=0$$ $$DZ=\frac{n}{n-2}$$

第三章 分布函数

概率密度函数

就是取到该点的概率。
没啥可说的

边缘密度函数

实际上有很多种算法,举个例子,
关于x的边缘密度函数
也就是对概率密度函数求正积分,对概率分布函数求歪导,就是某一个为变量时求以(它,另一个坐标无穷)为坐标为右上角的区块面积。

第四章 随机变量的数字特征

数学期望

本质是概率分布的平均值

定义式:
离散型:
连续型:

1.(c是常数)
2.(ab是常数)
3.
4.当独立时,
5.

方差

本质是概率分布的离散程度

定义式:
离散型:
连续型:

1.
2.(c是常数)
3.(ab是常数)
4.当相互独立时,,注意,无论和或是差的方差,均为方差的和。

切比雪夫不等式

前提存在,呢么就有

协方差

衡量了随机变量XY之间的总体误差
由方差引申而来,若XY不独立,就会出现协方差项。

定义式:
离散型:
连续型:

1.
由此我们可以知道,方差可以看作是协方差的推广
2.
3.(ab是常数)
4.
5.当相互独立时,
6.
7.
引申之后可得:
8.
9.

相关系数

反映了XY这两个变量之间的关系以及相关方向
实际上反应的是XY的线性相关程度,也就是说即使,也只能说明XY无线性相关关系,但是无法说明XY是否含有曲线相关关系(如)
即:若XY独立,则XY必不相关;若XY不相关,XY则不一定独立。(特例是二维正态分布,对于这个独立就是不相关)
定义式:
1.
2.当XY相互独立时,
3.成立的充分必要条件是存在常数,使得

注意,相关系数为零,只能说明XY不相关,无法说明XY独立!!
不相关和独立是两个概念。X与Y不相关是指X与Y之间不存在线性关系,不排除X与y之间存在某种曲线关系(如$X^2+Y^2=1$).若X和Y独立,则X与Y一定不相关;反之,若X与Y不相关,则X与Y未必独立.
既然是非线性关系,呢么对于 和差方差等于方差和 和 和差期望等于期望和差 来说不相关与独立体现是一样的,因此不相关这两个公式也能适用。
以及,(只)对于二维正态分布来说,不相关就是独立(必要充分条件)

随机变量关于常数a的k阶矩:,其中k为正整数。
当a=O时的k阶矩称为k阶原点矩,记为
当a=E(X)时的k阶矩称为k阶中心矩,记为
数学期望是随机变量的一阶原点矩;方差是随机变量的二阶中心矩.

定理(高阶矩存在则必定低阶矩存在)

设随机变量X的s阶矩存在,若0 < k < s,则也存在

定理(中心矩与原点矩的关系)

(这是防止公式渲染错误的头文字前缀请忽略),
(这是防止公式渲染错误的头文字前缀请忽略),

第五章 大数定律和中心极限定律

切比雪夫不等式

如果一个随机变量的方差非常小的话,那么这个随机变量取到远离均值$\mu$的概率也是非常小的,这个说实话也非常直观,同样有一个专门的不等式来描述他,就是切比雪夫不等式

大数定律

指某个随机事件在单次试验中可能发生也可能不发生,但在大量重复实验中往往呈现出明显的规律性,即该随机事件发生的频率会向某个常数收敛,该常数值即该事件发生的概率。
就是能用频率近似代替概率;能用样本均值近似代替总体均值得意思。

大数定律发挥作用,是靠大数对小数的稀释作用。而不是依靠后面的失衡的出现去平衡前期的失衡!!!

切比雪夫大数定律

假设为一个随机变量序列,.如果,呢么当
适用条件:

Levi-Lindeberg定理(中心极限定理)

不论属于什么分布类型,.
呢么,,即

本质上是在说一个随机数期望的分布是按照正态分布的,且与期望值和方差有关

数理统计

一些名词

  1. 联合分布函数:设总体X的分布函数为F(x),则样本的分布函数为
  2. 联合分布律:设总体X的概率分布律为P(X=x)=p(x),则样本的分布函数为
  3. 联合分布密度:设总体X的概率密度为f(x),则样本的分布函数为
  4. 样本均值:
  5. 样本方差:
    样本标准差:
  6. 修正样本方差:
  7. 样本矩:
    k阶矩:
    k阶中心矩:
  8. 样本k阶原点矩:
  9. 样本k阶中心矩:

抽样分布

t分布