常用统计检验 Python 代码！ - 涛哥聊Python涛哥聊Python

统计检验是数据分析中的重要工具，用于检验数据集中的差异、关联和分布等统计性质。Python 提供了丰富的库和函数，用于执行各种统计检验。本文将介绍常见的统计检验方法，并提供详细的示例代码，帮助大家了解如何在 Python 中执行这些检验。

t 检验

t 检验是一种用于比较两组数据均值是否存在显著差异的方法。在 Python 中，可以使用 scipy.stats 模块进行 t 检验。

import scipy.stats as stats

# 生成两组样本数据
data1 = [25, 30, 35, 40, 45]
data2 = [30, 32, 35, 38, 42]

# 执行独立样本 t 检验
t_stat, p_value = stats.ttest_ind(data1, data2)
print("t 统计量:", t_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中，生成了两组样本数据 data1 和 data2，然后使用 ttest_ind 函数执行独立样本 t 检验。最后，根据 p 值的大小判断差异是否显著。

卡方检验

卡方检验用于比较观察频数与期望频数之间的差异，通常用于分析分类数据。在 Python 中，可以使用 scipy.stats 模块执行卡方检验。

import scipy.stats as stats

# 创建观察频数表
observed = [[30, 15], [25, 20]]

# 执行卡方检验
chi2, p_value, _, _ = stats.chi2_contingency(observed)
print("卡方统计量:", chi2)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中，创建了一个观察频数表 observed，然后使用 chi2_contingency 函数执行卡方检验。最后，根据 p 值的大小判断差异是否显著。

Pearson 相关系数

Pearson 相关系数用于衡量两个连续变量之间的线性相关性。在 Python 中，可以使用 scipy.stats 模块计算 Pearson 相关系数。

import scipy.stats as stats

# 创建两组连续变量数据
x = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 6]

# 计算 Pearson 相关系数
correlation, _ = stats.pearsonr(x, y)
print("Pearson 相关系数:", correlation)

if abs(correlation) > 0.7:
    print("线性相关性强")
else:
    print("线性相关性弱")

在上面的示例中，创建了两组连续变量数据 x 和 y，然后使用 pearsonr 函数计算它们之间的 Pearson 相关系数。最后，根据相关系数的大小判断线性相关性的强弱。

单样本 t 检验

单样本 t 检验用于比较单个样本的均值与已知均值之间是否存在显著差异。在 Python 中，可以使用 scipy.stats 模块执行单样本 t 检验。

import scipy.stats as stats

# 单样本数据
data = [28, 30, 29, 32, 31]

# 已知均值
known_mean = 30

# 执行单样本 t 检验
t_stat, p_value = stats.ttest_1samp(data, known_mean)
print("t 统计量:", t

_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中，有一个单样本数据集 data 和一个已知的均值 known_mean，然后使用 ttest_1samp 函数执行单样本 t 检验，判断样本均值是否显著不同于已知均值。

Wilcoxon 符号秩检验

Wilcoxon 符号秩检验用于比较两组配对样本的差异，通常用于非正态分布数据。在 Python 中，可以使用 scipy.stats 模块执行 Wilcoxon 符号秩检验。

import scipy.stats as stats

# 创建两组配对样本数据
before = [28, 30, 29, 32, 31]
after = [27, 29, 28, 31, 30]

# 执行 Wilcoxon 符号秩检验
w_stat, p_value = stats.wilcoxon(before, after)
print("Wilcoxon 符号秩统计量:", w_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中，创建了两组配对样本数据 before 和 after，然后使用 wilcoxon 函数执行 Wilcoxon 符号秩检验，判断两组样本的差异是否显著。

ANOVA

ANOVA（方差分析）用于比较多组样本均值之间是否存在显著差异。在 Python 中，可以使用 scipy.stats 模块执行单因素 ANOVA。

import scipy.stats as stats

# 创建多组样本数据
group1 = [65, 68, 72, 70, 74]
group2 = [58, 63, 65, 61, 59]
group3 = [72, 70, 75, 71, 73]

# 执行单因素 ANOVA
f_stat, p_value = stats.f_oneway(group1, group2, group3)
print("F 统计量:", f_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中，创建了三组样本数据 group1、group2 和 group3，然后使用 f_oneway 函数执行单因素 ANOVA，判断多组样本均值是否存在显著差异。

Kolmogorov-Smirnov 检验

Kolmogorov-Smirnov 检验用于比较两组数据的分布是否相同。在 Python 中，可以使用 scipy.stats 模块执行 Kolmogorov-Smirnov 检验。

import scipy.stats as stats

# 创建两组数据
data1 = [0.1, 0.2, 0.3, 0.4, 0.5]
data2 = [0.2, 0.3, 0.4, 0.5, 0.6]

# 执行 Kolmogorov-Smirnov 检验
ks_stat, p_value = stats.ks_2samp(data1, data2)
print("KS 统计量:", ks_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中，创建了两组数据 data1 和 data2，然后使用 ks_2samp 函数执行 Kolmogorov-Smirnov 检验，判断两组数据的分布是否相同。

Shapiro-Wilk 正态性检验

Shapiro-Wilk 正态性检验用于检验数据是否符合正态分布。在 Python 中，可以使用 scipy.stats 模块执行 Shapiro-Wilk 正态性检验。

import scipy.stats as stats

# 创建样本数据
data = [2.3, 3.```python
7, 4.5, 6.8, 5.1, 8.2]

# 执行 Shapiro-Wilk 正态性检验
statistic, p_value = stats.shapiro(data)
print("Shapiro-Wilk 统计量:", statistic)
print("p 值:", p_value)

if p_value < 0.05:
    print("不符合正态分布")
else:
    print("符合正态分布")

在上面的示例中，创建了一个样本数据集 data，然后使用 shapiro 函数执行 Shapiro-Wilk 正态性检验，判断数据是否符合正态分布。

线性回归

线性回归用于建立连续自变量与连续因变量之间的线性关系模型。在 Python 中，可以使用 scipy.stats 模块执行线性回归分析。

import scipy.stats as stats

# 创建自变量和因变量数据
x = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 6]

# 执行线性回归分析
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
print("斜率:", slope)
print("截距:", intercept)
print("相关系数:", r_value)
print("p 值:", p_value)

if p_value < 0.05:
    print("回归模型显著")
else:
    print("回归模型不显著")

在上面的示例中，创建了自变量数据 x 和因变量数据 y，然后使用 linregress 函数执行线性回归分析，得到回归方程的斜率、截距、相关系数和 p 值。

分位数回归

分位数回归用于建立分位数与自变量之间的关系模型，通常用于处理异方差性或离群值较多的数据。在 Python 中，可以使用 statsmodels 库执行分位数回归分析。

import statsmodels.api as sm

# 创建自变量和因变量数据
x = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 6]

# 添加常数项
x = sm.add_constant(x)

# 执行分位数回归分析
quantiles = [0.25, 0.5, 0.75]
for q in quantiles:
    model = sm.QuantReg(y, x)
    result = model.fit(q=q)
    print(f"分位数 {q}:")
    print(result.summary())

在上面的示例中，创建了自变量数据 x 和因变量数据 y，然后使用 sm.QuantReg 类执行分位数回归分析，得到不同分位数下的回归结果。

这些是常见的统计检验方法和回归分析方法的示例代码，可以帮助进行数据分析和统计建模。根据不同的需求和数据类型，选择合适的方法进行分析和假设检验，以获得有意义的结果。