思维导图 #
# Data visualization and description
## Learning outcomes
- identify and compare data types;
- describe how data are organized for quantitative analysis;
- interpret frequency and related distributions;
- interpret a contingency table;
- describe ways that data may be visualized and evaluate uses of specific visualizations;
- describe how to select among visualization types;
- calculate and interpret measures of central tendency;
- evaluate alternative definitions of mean to address an investment problem;
- calculate quantiles and interpret related visualizations;
- calculate and interpret measures of dispersion;
- calculate and interpret target downside deviation;
## 数据分类
### 数值型数据(Numerical Data)
- 连续型数据(Continuous Data)
- 离散型数据(Discrete Data)
### 分类型数据(Categorical Data)
- 名义型数据(Nominal Data)
- 有序型数据(Ordinal Data)
### 截面数据(Cross-Sectional Data)
### 时间序列数据(Time-Series Data)
### 面板数据(Panel Data)
### 结构化数据(Structured Data)
### 非结构化数据(Unstructured Data)
## 数据的整理和可视化
### 数据的整理
- 一维数组(One-Dimensional Arrays)
- 二维数组(Two-Dimensional Arrays):数据表(Data Tables)
- 频率分布(Frequency Distributions)
- 绝对频数(Absolute Frequency)
- 相对频率(Relative Frequency)
- 分析步骤:1. 排序;2. 计算分布范围;3. 决定频数区间个数;4. 决定区间宽度;5. 确定具体各组区间;6. 计算每个区间的数据个数;7. 构建频数分布表
- 列联表(Contingency Tables)
### 数据可视化(Data Visualization)
- 直方图和频数多边形(Histograms and Frequency Polygons)
- 条形图(Bar Charts)
- 树状图(Tree-Map)
- 词云(Word Cloud)
- 线图(Line Charts)
- 散点图(Scatter Plots)
- 热力图(Heat Maps)
- 箱线图(Box Plots)
- 饼图(Pie Charts)
## 数据的描述
### 均值(Mean)
- 算术平均(Arithmetic Mean)
- 公式:$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$
- 算数平均不适用于衡量多期(multi-period)的资产平均收益。容易受到极值现象的影响。
- 几何平均(Geometric Mean)
- 公式:$\bar{x} = \left( \prod_{i=1}^{n} x_i \right)^{1/n}$
- 调和平均(Harmonic Mean)
- 公式:$\bar{x} = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}$
- 主要用于计算“定投”的平均成本。
- 加权平均(Weighted Mean)
- 公式:$\bar{x_w} = \sum_{i=1}^{n} w_i \times x_i$
- 大小关系: 调和平均数 $\leq$ 几何平均数 $\leq$ 算术平均数
### 中位数(Median)
- 中位数是将数据按大小顺序排列后,若数据个数为奇数,则中位数是中间的数;若数据个数为偶数,则中位数是中间两个数的平均数。
### 众数(Mode)
- 众数是数据中出现次数最多的数。
### 离散程度
- 绝对离散程度(Absolute Dispersion)
- 分位数(Quantiles)
- 四分位数(Quartiles)
- 五分位数(Quintiles)
- 十分位数(Deciles)
- 百分位数(Percentiles)
- 公式:$L_y = (n+1) \times \frac{y}{100}$
- n是数据个数
- y是百分位点
- 四分位距(Interquartile Range, IQR):指的是第三四分位数与第一四分位数之间的距离。
- 公式:$IQR = Q_3 - Q_1$
- 极差(Range)
- 公式:$R = X_{max} - X_{min}$
- 平均绝对离差(Mean Absolute Deviation, MAD)
- 公式:$MAD = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}$
- 方差(Variance)
- 总体方差(Population Variance):$\sigma^2 = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}$
- 样本方差(Sample Variance):$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$
- 标准差(Standard Deviation)
- 总体标准差(Population Standard Deviation):$\sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}}$
- 样本标准差(Sample Standard Deviation):$s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}$
- 下行标准差(Downside Deviation)
- 公式:$DD = \sqrt{\sum_{for\ all\ x_i \leq B}^n \frac{(x_i - B)^2}{n-1}}$
- B是基准值
- 相对离散程度(Relative Dispersion):用于比较不同随机变量之间的离散程度。
- 变异系数(Coefficient of Variation, CV):衡量单位收益下的风险。
- 在对比不同资产时,对于风险厌恶的投资者而言,变异系数越低越好。
- 公式:$CV = \frac{s}{\bar{x}} \times 100\%$
- s:标准差
- $\bar{x}$:均值
- 夏普比率(Sharpe Ratio):衡量单位风险下的超额收益。
- 公式:$SR = \frac{R_p - R_f}{\sigma_p}$
- $R_p$:投资组合的预期收益率
- $R_f$:无风险利率
- $\sigma_p$:投资组合的标准差
### 偏度(Skewness)
- 偏度公式:$Sample skewness(S_k) \approx \frac{\sum_{i=1}^{n} (x_i - \bar{x})^3}{n \times s^3}$
- 正偏态(Positive Skewness)OR 右偏态(Right Skewness):偏度大于0
- 负偏态(Negative Skewness)OR 左偏态(Left Skewness):偏度小于0
### 峰度(Kurtosis)
- *样本峰度(大样本n>=100)*
- 公式:$Sample Kurtosis(K) \approx \frac{\sum_{i=1}^{n} (x_i - \bar{x})^4}{n \times s^4} $
- 正常峰度(Mesokurtic):峰度等于3
- 正常分布(Normal Distribution)
- 尖峰(Leptokurtic):峰度大于3
- 尖峰肥尾(more peak and fat tail)
- 低峰(Platykurtic):峰度小于3
- 矮峰瘦尾(less peak and thin tail)
### 两个变量的相关性(Correlation)
- 协方差(Covariance):衡量两个变量的总体相关性
- 总体协方差(Population Covariance):$\sigma_{xy} = \frac{\sum_{i=1}^{n} (x_i - \mu_x)(y_i - \mu_y)}{n}$
- 样本协方差(Sample Covariance):$s_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{n-1}$
- 取值范围:$-\infty \leq \sigma_{xy} \leq \infty$
- 相关系数(Correlation Coefficient):衡量两个变量的线性相关性
- 总体相关系数(Population Correlation Coefficient):$\rho_{xy} = \frac{\sigma_{xy}}{\sigma_x \times \sigma_y}$
- 样本相关系数(Sample Correlation Coefficient):$r_{xy} = \frac{s_{xy}}{s_x \times s_y}$
- 相关系数的取值范围:$-1 \leq r \leq 1$
- $r = 1$:完全正相关
- $r = -1$:完全负相关
- $r = 0$:不相关
相关词汇 #
- 一维数组(One-Dimensional Arrays)
- 二维数组(Two-Dimensional Arrays):数据表(Data Tables)
- 频率分布(Frequency Distributions)
- 绝对频数(Absolute Frequency)
- 相对频率(Relative Frequency)
- 列联表(Contingency Tables)
- 直方图和频数多边形(Histograms and Frequency Polygons)
- 条形图(Bar Charts)
- 树状图(Tree-Map)
- 词云(Word Cloud)
- 线图(Line Charts)
- 散点图(Scatter Plots)
- 热力图(Heat Maps)
- 箱线图(Box Plots)
- 饼图(Pie Charts)
- 算术平均(Arithmetic Mean)
- 几何平均(Geometric Mean)
- 调和平均(Harmonic Mean)
- 加权平均(Weighted Mean)
- 中位数(Median)
- 众数(Mode)
- 绝对离散程度(Absolute Dispersion)
- 分位数(Quantiles)
- 四分位距(Interquartile Range, IQR)
- 极差(Range)
- 平均绝对离差(Mean Absolute Deviation, MAD)
- 方差(Variance)
- 标准差(Standard Deviation)
- 下行标准差(Downside Deviation)
- 相对离散程度(Relative Dispersion)
- 变异系数(Coefficient of Variation, CV)
- 夏普比率(Sharpe Ratio)
- 偏度(Skewness)
- 峰度(Kurtosis)
- 协方差(Covariance)
- 相关系数(Correlation Coefficient)