# Common Probability Distributions
## Learning outcomes
- define a probability distribution and compare and contrast discrete and continuous random variables and their probability functions
- calculate and interpret probabilities for a random variable given its cumulative distribution function
- describe the properties of a discrete uniform random variable, and calculate and interpret probabilities given the discrete uniform distribution function
- describe the properties of the continuous uniform distribution, and calculate and interpret probabilities given a continuous uniform distribution
- describe the properties of a Bernoulli random variable and a binomial random variable, and calculate and interpret probabilities given the binomial - distribution function
- explain the key properties of the normal distribution
- contrast a multivariate distribution and a univariate distribution, and explain the role of correlation in the multivariate normal distribution
- calculate the probability that a normally distributed random variable lies inside a given interval
- explain how to standardize a random variable
- calculate and interpret probabilities using the standard normal distribution
- describe the properties of the Student’s t-distribution, and calculate and interpret its degrees of freedom
- describe the properties of the chi-square distribution and the F-distribution, and calculate and interpret their degrees of freedom
## 基本概念
### 离散型随机变量与连续型随机变量(Discrete and Continuous Random Variables)
- 离散型随机变量(Discrete Random Variables):取有限个或可数个值的随机变量
- 连续型随机变量(Continuous Random Variables):取连续值的随机变量
- 取值范围通常为某一区间,即使区间存在上下界,可能取值仍然为无穷多个
- 由于连续性随机变量的可能取值无穷多,相应的每一点对应的概率近似为0
- 在研究一些问题时,可以把离散变量近似看成连续型随机变量。例如股票的报价,虽然有最小单位,但是可以近似看成连续型随机变量
### 分布函数(Distribution Function)
- 概率函数
- 概率密度函数(Probability Density Function, PDF):连续型随机变量的概率函数
- 通常使用 $f(x)$ 表示
- 累积分布函数(Cumulative Distribution Function, CDF)
- 离散型随机变量:$F(x) = P(X \leq x)$
- 性质
- 累积分布函数是有界的,且单调递增
- 呈阶梯状
## 离散分布
### 离散均匀分布(Discrete Uniform Distribution)
- 均匀分布是指在有限个数的取值中,每个取值的概率相等
### 二项分布(Binomial Distribution)
- 伯努利随机变量(Bernoulli Random Variable):只有两个可能取值的随机变量
- 例如:抛硬币
- 性质
- 期望:$E(X) = p$
- 方差:$Var(X) = p(1-p)$
- 二项随机变量(Binomial Random Variable):重复进行 $n$ 次独立的伯努利试验,每次试验成功的概率为常数 $p$,则 $X$ 表示成功的次数
- 例如:抛硬币 $n$ 次,成功的次数
- 公式:$P(X = k) = C_n^k p^k (1-p)^{n-k}$
- 性质
- 期望:$E(X) = np$
- 方差:$Var(X) = np(1-p)$
## 连续分布
### 连续均匀分布(Continuous Uniform Distribution)
- 均匀分布是指在一个区间内,每个取值的概率相等
- 概率密度函数:$f(x) = \frac{1}{b-a}$ for $a \leq x \leq b$ and $0$ otherwise
- 累积分布函数:$F(x) = \frac{x-a}{b-a}$ for $a \leq x \leq b$
### 正态分布(Normal Distribution)
- 性质
- 正态分布可由均值和方差完全描述,通常用 $N(\mu, \sigma^2)$ 表示
- $\mu$:均值
- $\sigma^2$:方差
- 根据PDF的图形,在均值 $\mu$ 处有一个峰值,两侧逐渐下降,呈钟形
- 正态分布的偏度为0,峰度为3
- 服从正态分布且相互独立的随机变量的线性组合仍然服从正态分布
- 如果随机变量 $X$ 服从正态分布,则有:
- $X$落在$[\mu - \sigma, \mu + \sigma]$的概率约为 $68\%$
- $X$落在$[\mu - 1.65\sigma, \mu + 1.65\sigma]$的概率约为 $90\%$
- $X$落在$[\mu - 1.96\sigma, \mu + 1.96\sigma]$的概率约为 $95\%$
- $X$落在$[\mu - 2.58\sigma, \mu + 2.58\sigma]$的概率约为 $99\%$
- 标准正态分布(Standard Normal Distribution)
- 如果随机变量 $X$ 服从正态分布 $N(\mu, \sigma^2)$,则 $Z = \frac{X - \mu}{\sigma}$ 服从标准正态分布 $N(0, 1)$
- 标准正态分布的累积分布函数通常用 $Z$ 表示
- 公式:$P(X \leq x) = P(\frac{X - \mu}{\sigma} \leq \frac{x - \mu}{\sigma}) = P(Z \leq \frac{x - \mu}{\sigma}) = \Phi(\frac{x - \mu}{\sigma})$
- $\Phi$:标准正态分布的累积分布函数(CDF)
- 亏空风险(Shortfall Risk)
- 有些情况下,投资者并不认为收益率高于均值的状况是风险,更想单独考查收益率低于某个特定水平的风险,这种风险称为亏空风险
- 亏空风险是指在一定置信水平下,投资组合的损失超过某一特定值的概率
- 例如:在 $95\%$ 的置信水平下,投资组合的损失超过 $2.33\sigma$ 的概率约为 $1\%$
- 罗伊安全第一比率(Roy's Safety-First Ratio)
- 罗伊安全第一比率是指在一定置信水平下,投资组合的收益率超过某一特定值的概率与投资组合的损失超过某一特定值的概率之比
- 公式:$SFR = \frac{E(R_p) - R_f}{\sigma_p}$
- $E(R_p)$:投资组合的期望收益率
- $R_f$:无风险利率
- $\sigma_p$:投资组合的标准差
- 对数正态分布(Lognormal Distribution)
- 正态分布并不适用于描述资产价格,因为正态分布的取值范围是 $(-\infty, +\infty)$,而资产价格的取值范围是 $(0, +\infty)$
- 性质
- 对数正态分布的概率密度函数取值范围是 $(0, +\infty)$
- 对数正态分布的累积分布函数是右偏(正偏)
- 对数正态分布用来衡量**资产价格**,正态分布主要用来衡量**收益率**
- 学生t分布(Student's t-Distribution)
- 性质
- 学生t分布是正态分布的一种推广
- 学生t分布的形状由自由度决定
- 当自由度趋于无穷大时,学生t分布趋于正态分布
- 自由度(Degrees of Freedom)
- 自由度是指用来估计总体参数的独立观测值的数量
- 自由度越大,学生t分布越接近正态分布
- 卡方分布(Chi-Square Distribution)
- 性质
- 概率密度函数是右偏的
- 取值范围是 $(0, +\infty)$
- F分布(F-Distribution)
- 性质
- F分布是两个卡方分布的比值
- F分布的取值范围是 $(0, +\infty)$
### 多元分布(Multivariate Distribution)
- 刻画多元正态分布的三类参数
- 资产组合中每个资产收益率的均值
- 资产组合中每个资产收益率的方差
- 资产组合中每两个资产收益率之间的相关系数。假设资产组合共有n个资产,那么需要知道的相关系数个数为:$C_n^2 = \frac{n(n-1)}{2}$
## 模拟
### 蒙特卡洛模拟(Monte Carlo Simulation)
- 考点: 描述蒙特卡洛模拟。
- 基本思想:假定与资产组合相关的各风险因子服从特定的概率分布,根据这些假定的概率分布进行抽样,模拟资产组合的收益率分布。
- 步骤
- 蒙特卡洛模拟将假设收益率r服从某个特定的分布,比如正态分布;
- 随后,依据正态分布的概率分布,对r的可能取值进行抽样;
- 根据抽样数计算出对应的资产终值$1000 \times (1 + r)$;
- 重复步骤1到3,共抽样N次,当N足够大时就可以画出资产终值在各个区间内的直方图,并用计算机模拟出资产终值的概率分布
- 缺点
- 蒙特卡洛模拟的缺点是计算量大,需要大量的计算机运算
- 结论的准确性极其依赖于假设分布。如果假设分布不准确,那么蒙特卡洛模拟的结果也不准确