概率论与数理统计
本文最后更新于:2024年9月13日 上午
序言
这里记录了一些关于概率论的学习总结,目的是为了加深记忆以及提升Latex编辑技巧
预备知识
一些基础的比较重要的但是没啥可说的都放到这里,想到啥写啥。
排列数
从n个不同的元素中,任取其中m个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列。从n个不同的元素中,任取其中m个元素组成的排列的个数,叫做 从n个不同元素中取出m个元素的排列数,用符号 $P^m_n或 A^m_n$表示。
计算公式 $A^m_n=n(n-1)…(n-m+1)=\frac{n!}{(n-m)!}$. 规定 0!=1;
注意:
当m = n时,称$A^m_n$为全排列;当m < n时,称$A^m_n$为选排列
全排列$A^n_n=n!$
组合数
从n个不同的元素中,任取其中m个元素构成一组,叫做从n个不同元素中取出m个元素的一个组合。从n个不同的元素中,任取其中m个元素组成的组合的个数,叫做 从n个不同元素中取出m个元素的组合数,用符号$C^{m}_{n}$或$(^m_n)$表示。
计算公式 $C^m_n = \frac{A^m_n}{m!}= \frac{n!}{m!(n-m)!}$.
基本的组合恒等式
第一章 随机事件与概率
这一章大多数内容都是高中知识,简单记一下知识点就可以了~~(bushi)~~
事件之间的关系与运算
包含 A发生必然导致 B发生. $A \subset B$
互斥 A 和 B 不可能同时发生.
独立 两事件相互独立与两事件互斥二者之间没有必然联系,满足
注意,ABC两两独立推不出来ABC相互独立,即$P(A)P(B)=P(AB);P(B)P(C)=P(BC);P(C)P(A)=P(CA)$无法推出$P(A)P(B)P(C)=P(ABC)$
并事件(和事件) A 与 B 至少有一发生. $A \cup B$
积事件(交事件) A 与 B 同时发生. $A \cap B$
逆事件(对立事件) A 和 B 满足 且
差事件 A 发生,B 不发生.
事件的运算律
交换律 ;
结合律 ;
分配律 ;
德摩根律
奇怪的概型
古典概型
有限元素,可能性相同,概率为$P(A)=\frac{事件A中样本点数目}{样本点总数}$
超几何分布 共有N个样本点,其中有D个标记点,从中任取n件,其中恰有k个标记点的概率
$P(X=k)=\frac{C^{n-k}_{N-D}C^k_D}{C^n_N}$
几何概型
设 $\Omega$ 是欧氏空间的有限区域,样本空间的每个点取到是有可能的,这样的概型为几何概型。
伯努利概型
伯努利试验E:只有两个结果的试验。(例:正反、黑白球、成败等。)
n重伯努利试验: n次独立重复的伯努里试验。(相同条件,各次试验每个结果概率不变,各次试验结果独立)
定理(二项概率公式):设事件A在一次实验中出现的概率为p,则在n重伯努利试验中A恰好出现k次的概率为$P_n(k)= C^k_n p^k(1-p)^{n-k} (k=0,1…n)$
公式
乘法公式 由条件概率定义可得$P(AB)=P(B)P(A|B)$
全概率公式 假如 为 的一个划分,则对任一随机事件B有
贝叶斯公式 B为中的一个事件,的一个有穷剖分,
乘法公式是求“几个事件同时发生”的概率;
全概率公式可看作是求“最后结果”的概率;
贝叶斯公式可看作是已知“最后结果” ,求“原因”的概率.
第二章 一维随机变量及分布
随机变量分布函数的性质
1.F(x)单调非降
2.
3.F(x)在任何一点都是右连续的
任何随机变量的额分布满足这一性质(无论是连续还是离散),具有这些性质的函数必为某一随机变量的分布函数。
边沿分布概率函数
分布类型
分布类型 | 记号 | 密度函数 | 期望 | 方差 |
---|---|---|---|---|
离散型随机变量的分布 | ||||
伯努利分布/0-1分布 | $$X \sim 0-1(p)$$ | $$P(x=1)=p$$ | $$p$$ | $$p(1-p)$$ |
二项分布/n重伯努利分布 | $$X \sim B(n,p)$$ | $$P(X=k)=C_n^k p^k(1-p)^{n-k}$$ | $$np$$ | $$np(1-p)$$ |
几何分布 | $$X \sim G(p)$$ | $$P(x=k)=p(1-p)^{k-1}$$ | $$1/p$$ | $$(1-p)/p^2$$ |
泊松分布 | $$X \sim \pi(\lambda)$$ | $$P(x=k)=\frac{\lambda^{k} e^{- \lambda}}{k!}$$ | $$\lambda$$ | $$\lambda$$ |
连续型随机变量的分布 | ||||
均匀分布 | $$X \sim U(a,b)$$ | $$f(x)=\frac{1}{b-a} x\in (a,b)$$ $$f(x)=0 其他$$ | $$\frac{a+b}{2}$$ | $$\frac{(b-a)^2}{12}$$ |
指数分布 | $$X \sim E(\lambda)$$ | $$f(x)=\lambda e^{-\lambda x},x>0$$ $$f(x)=0,其他$$ | $$\frac{1}{\lambda}$$ | $$\frac{1}{\lambda^2}$$ |
正态分布 | $$X \sim N(\mu,\sigma^2)$$ | $$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$ | $$\mu$$ | $$\sigma^2$$ |
标准正态分布 | $$X \sim N(0,1)$$ | $\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ 正态分布转标准正态分布的公式为$Z=\frac{X-\mu}{\sigma}$ |
$$0$$ | $$1$$ |
$$ \mathcal{X}^2分布 $$ | $$Z \sim \mathcal{X}^2(n)$$ | 设$(X_1,X_2,...,X_n)$均满足标准正态分布,令$Z=\sum_{i=1}^n X_i^2$,则Z服从的分布为$ \mathcal{X}^2 $ 分布 满足$\frac{(n-1)S^2}{\sigma ^2}=\sim \mathcal{X}^2(n-1)$的性质 |
$$E \mathcal{X}^2(n)=n$$ | $$D \mathcal{X}^2(n)=2n$$ |
t分布 | $$Z \sim t(n)$$ | 若$X\sim N(0,1),Y\sim \mathcal{X}^2(n)$,令$Z=\frac{X}{\sqrt{Y}/n}$,则Z服从的分布为t分布
满足$\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}=\sim t(n-1)$的性质 |
$$EZ=0$$ | $$DZ=\frac{n}{n-2}$$ |
第三章 分布函数
概率密度函数
就是取到该点的概率。
没啥可说的
边缘密度函数
实际上有很多种算法,举个例子,
关于x的边缘密度函数
也就是对概率密度函数求正积分,对概率分布函数求歪导,就是某一个为变量时求以(它,另一个坐标无穷)为坐标为右上角的区块面积。
第四章 随机变量的数字特征
数学期望
本质是概率分布的平均值
定义式:
离散型:
连续型:
1.(c是常数)
2.(ab是常数)
3.
4.当独立时,
5.
方差
本质是概率分布的离散程度
定义式:
离散型:
连续型:
1.
2.(c是常数)
3.(ab是常数)
4.当相互独立时,,注意,无论和或是差的方差,均为方差的和。
切比雪夫不等式
前提存在,呢么就有。
协方差
衡量了随机变量XY之间的总体误差
由方差引申而来,若XY不独立,就会出现协方差项。
定义式:
离散型:
连续型:
1.
由此我们可以知道,方差可以看作是协方差的推广
2.
3.(ab是常数)
4.
5.当相互独立时,
6.
7.
引申之后可得:
8.
9.
相关系数
反映了XY这两个变量之间的关系以及相关方向
实际上反应的是XY的线性相关程度,也就是说即使,也只能说明XY无线性相关关系,但是无法说明XY是否含有曲线相关关系(如)
即:若XY独立,则XY必不相关;若XY不相关,XY则不一定独立。(特例是二维正态分布,对于这个独立就是不相关)
定义式:
1.
2.当XY相互独立时,
3.成立的充分必要条件是存在常数,使得
注意,相关系数为零,只能说明XY不相关,无法说明XY独立!!
不相关和独立是两个概念。X与Y不相关是指X与Y之间不存在线性关系,不排除X与y之间存在某种曲线关系(如$X^2+Y^2=1$).若X和Y独立,则X与Y一定不相关;反之,若X与Y不相关,则X与Y未必独立.
既然是非线性关系,呢么对于 和差方差等于方差和 和 和差期望等于期望和差 来说不相关与独立体现是一样的,因此不相关这两个公式也能适用。
以及,(只)对于二维正态分布来说,不相关就是独立(必要充分条件)
矩
随机变量关于常数a的k阶矩:,其中k为正整数。
当a=O时的k阶矩称为k阶原点矩,记为
当a=E(X)时的k阶矩称为k阶中心矩,记为
数学期望是随机变量的一阶原点矩;方差是随机变量的二阶中心矩.
定理(高阶矩存在则必定低阶矩存在)
设随机变量X的s阶矩存在,若0 < k < s,则也存在
定理(中心矩与原点矩的关系)
(这是防止公式渲染错误的头文字前缀请忽略),
(这是防止公式渲染错误的头文字前缀请忽略),
第五章 大数定律和中心极限定律
切比雪夫不等式
如果一个随机变量的方差非常小的话,那么这个随机变量取到远离均值$\mu$的概率也是非常小的,这个说实话也非常直观,同样有一个专门的不等式来描述他,就是切比雪夫不等式
大数定律
指某个随机事件在单次试验中可能发生也可能不发生,但在大量重复实验中往往呈现出明显的规律性,即该随机事件发生的频率会向某个常数收敛,该常数值即该事件发生的概率。
就是能用频率近似代替概率;能用样本均值近似代替总体均值得意思。
大数定律发挥作用,是靠大数对小数的稀释作用。而不是依靠后面的失衡的出现去平衡前期的失衡!!!
切比雪夫大数定律
假设为一个随机变量序列,.如果,呢么当
适用条件:
Levi-Lindeberg定理(中心极限定理)
不论属于什么分布类型,.
呢么,,即
本质上是在说一个随机数期望的分布是按照正态分布的,且与期望值和方差有关
数理统计
一些名词
- 联合分布函数:设总体X的分布函数为F(x),则样本的分布函数为
- 联合分布律:设总体X的概率分布律为P(X=x)=p(x),则样本的分布函数为
- 联合分布密度:设总体X的概率密度为f(x),则样本的分布函数为
- 样本均值:
- 样本方差:
样本标准差: - 修正样本方差:
- 样本矩:
k阶矩:
k阶中心矩: - 样本k阶原点矩:
- 样本k阶中心矩:
抽样分布
t分布
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!