期望值、變異數、偏峰態與動差

期望值

定義

離散型隨機變數 \(X\) ,其期望值為

\[ \mu = \mathbb{E}(X) = \sum_{x \in R_X} x \cdot f_X(x) \]

其中 \(R_X\) 為隨機變數 \(X\) 的值域,而 \(f_X(x)\)\(X\)機率質量函數

定義

連續型隨機變數 \(X\) ,其期望值為

\[ \mu = \mathbb{E}(X) = \int_{x \in R_X} x f_X(x) dx \]

其中 \(R_X\) 為隨機變數 \(X\) 的值域,而 \(f_X(x)\)\(X\)機率密度函數

期望值目的在於衡量一個機率分配的中心,可以想像在機率分配的中間點畫一條垂直線,就是這個機率分配的期望值。

以數學上的定義來看,就是把隨機變數 \(X\) 所有可能出現的,與這個值出現的機率相乘以後再加總,這其實就是加權平均的概念。

以我們之前舉到的一些分配為例

import numpy as np
import scipy.stats as stats
from plotly.subplots import make_subplots
import plotly.graph_objects as go

fig = make_subplots(rows=2, cols=2)

# 資料
data = {
    'discrete': {
        'bernoulli': {
            'x': [0, 1],
            'y': [stats.bernoulli.pmf(x, p=0.5) for x in [0, 1]],
            'mean': stats.bernoulli.mean(p=0.5),
            'label': '$X \sim \mathcal{Ber}(p=0.5)$',
        },
        'binomial': {
            'x': [i for i in range(0, 11)],
            'y': [stats.binom.pmf(x, n=10, p=0.5) for x in range(0, 11)],
            'mean': stats.binom.mean(n=10, p=0.5),
            'label': '$X \sim \mathcal{Binom}(n=10, p=0.5)$',
        },
    },
    'continuous': {
        'normal': {
            'x': np.linspace(-5, 5, 100),
            'y': [stats.norm.pdf(x) for x in np.linspace(-5, 5, 100)],
            'mean': stats.norm.mean(),
            'label': '$X \sim \mathcal{N}(\mu=0, \sigma^2=1)$',
        },
        'uniform': {
            'x': np.linspace(-1, 2, 100),
            'y': [stats.uniform.pdf(x) for x in np.linspace(-1, 2, 100)],
            'mean': stats.uniform.mean(),
            'label': '$X \sim \mathcal{U}(0, 1)$',
        },
    },
}

# 離散型
for i, col in enumerate(['bernoulli', 'binomial'], start=1):
    fig.add_trace(
        go.Bar(
            x=data['discrete'][col]['x'],
            y=data['discrete'][col]['y'],
            name=data['discrete'][col]['label'],
        ),
        row=1,
        col=i,
    )
    fig.add_vline(
        x=data['discrete'][col]['mean'],
        row=1,
        col=i,
        line_color='red',
    )

# 連續型
for i, col in enumerate(['normal', 'uniform'], start=1):
    fig.add_trace(
        go.Scatter(
            x=data['continuous'][col]['x'],
            y=data['continuous'][col]['y'],
            name=data['continuous'][col]['label'],
        ),
        row=2,
        col=i,
    )
    fig.add_vline(
        x=data['continuous'][col]['mean'],
        row=2,
        col=i,
        line_color='red',
    )

fig.update_layout(title={'text': '常見分配的期望值'})
fig

變異數

定義

離散型隨機變數 \(X\) ,其變異數為

\[\begin{split} \sigma^2 = Var(X) & = \sum_{x \in R_X} (x - \mathbb{E}(X))^2 f_X(x) \\ & = \sum_{x \in R_X} x^2 f_X(x) - \mathbb{E}(X)^2 \\ & = \mathbb{E}(X^2) - \mathbb{E}(X)^2 \end{split}\]

其中 \(R_X\) 為隨機變數 \(X\) 的值域,而 \(f_X(x)\)\(X\)機率質量函數

定義

連續型隨機變數 \(X\) ,其變異數為

\[\begin{split} \begin{split} \sigma^2 = Var(X) & = \int_{x \in R_X} (x - \mathbb{E}(X))^2 f_X(x) dx \\ & = \int_{x \in R_X} x^2 f_X(x) dx - \mathbb{E}(X)^2 \\ & = \mathbb{E}(X^2) - \mathbb{E}(X)^2 \end{split} \end{split}\]

其中 \(R_X\) 為隨機變數 \(X\) 的值域,而 \(f_X(x)\)\(X\)機率密度函數

偏態

定義

離散型隨機變數 \(X\) 的峰態,其定義為

\[ S(X) = \sum_{x \in R_X} (x - \mathbb{E}(X))^3 f_X(x) \]

定義

連續型隨機變數 \(X\) 的峰態,其定義為

\[ S(X) = \int_{x \in R_X} (x - \mathbb{E}(X))^3 f_X(x) dx \]

峰態

定義

離散型隨機變數 \(X\) 的峰態,其定義為

\[ K(X) = \sum_{x \in R_X} (x - \mathbb{E}(X))^4 f_X(x) \]

定義

連續型隨機變數 \(X\) 的峰態,其定義為

\[ K(X) = \int_{x \in R_X} (x - \mathbb{E}(X))^4 f_X(x) dx \]

動差

定義

連續型隨機變數 \(X\)\(n\) 階動差,其定義為

\[ \mu_n = \int_{x \in R_X} (x - c)^n f_X(x) dx \]

其中 \(R_X\)\(X\) 的值域, \(f_X(x)\)\(X\) 的機率密度函數。

主動差

主動差就是動差函數的 \(c\) 以隨機變數 \(X\) 的期望值 \(\mathbb{E}(X)\) 取代。

定義

連續型隨機變數 \(X\)\(k\) 階主動差,其定義為

\[ \mu_k = \int_{x \in R_X} (x - \mathbb{E}(X))^k f_X(x) dx \]

其中 \(R_X\)\(X\) 的值域, \(f_X(x)\)\(X\) 的機率密度函數。

  • \(k = 0\) 時, \(\mu_0 = 1\)

  • \(k = 1\) 時, \(\mu_1 = 0\)

  • \(k = 2\) 時, \(\mu_2 = Var(X)\)

  • \(k = 3\) 時, \(\mu_3\) 可用於定義偏度

  • \(k = 4\) 時, \(\mu_4\) 可用於定義峰度

動差母函數