欢迎来到我的个人博客,有Python技术,自媒体,创业,APP开发问题随时讨论交流

常用统计检验 Python 代码!

Python sitin 8个月前 (01-23) 218次浏览 已收录 0个评论
常用统计检验 Python 代码!

统计检验是数据分析中的重要工具,用于检验数据集中的差异、关联和分布等统计性质。Python 提供了丰富的库和函数,用于执行各种统计检验。本文将介绍常见的统计检验方法,并提供详细的示例代码,帮助大家了解如何在 Python 中执行这些检验。

t 检验

t 检验是一种用于比较两组数据均值是否存在显著差异的方法。在 Python 中,可以使用 scipy.stats 模块进行 t 检验。

import scipy.stats as stats

# 生成两组样本数据
data1 = [2530354045]
data2 = [3032353842]

# 执行独立样本 t 检验
t_stat, p_value = stats.ttest_ind(data1, data2)
print("t 统计量:", t_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中,生成了两组样本数据 data1data2,然后使用 ttest_ind 函数执行独立样本 t 检验。最后,根据 p 值的大小判断差异是否显著。

卡方检验

卡方检验用于比较观察频数与期望频数之间的差异,通常用于分析分类数据。在 Python 中,可以使用 scipy.stats 模块执行卡方检验。

import scipy.stats as stats

# 创建观察频数表
observed = [[3015], [2520]]

# 执行卡方检验
chi2, p_value, _, _ = stats.chi2_contingency(observed)
print("卡方统计量:", chi2)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中,创建了一个观察频数表 observed,然后使用 chi2_contingency 函数执行卡方检验。最后,根据 p 值的大小判断差异是否显著。

Pearson 相关系数

Pearson 相关系数用于衡量两个连续变量之间的线性相关性。在 Python 中,可以使用 scipy.stats 模块计算 Pearson 相关系数。

import scipy.stats as stats

# 创建两组连续变量数据
x = [12345]
y = [24546]

# 计算 Pearson 相关系数
correlation, _ = stats.pearsonr(x, y)
print("Pearson 相关系数:", correlation)

if abs(correlation) > 0.7:
    print("线性相关性强")
else:
    print("线性相关性弱")

在上面的示例中,创建了两组连续变量数据 xy,然后使用 pearsonr 函数计算它们之间的 Pearson 相关系数。最后,根据相关系数的大小判断线性相关性的强弱。

单样本 t 检验

单样本 t 检验用于比较单个样本的均值与已知均值之间是否存在显著差异。在 Python 中,可以使用 scipy.stats 模块执行单样本 t 检验。

import scipy.stats as stats

# 单样本数据
data = [2830293231]

# 已知均值
known_mean = 30

# 执行单样本 t 检验
t_stat, p_value = stats.ttest_1samp(data, known_mean)
print("t 统计量:", t

_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中,有一个单样本数据集 data 和一个已知的均值 known_mean,然后使用 ttest_1samp 函数执行单样本 t 检验,判断样本均值是否显著不同于已知均值。

Wilcoxon 符号秩检验

Wilcoxon 符号秩检验用于比较两组配对样本的差异,通常用于非正态分布数据。在 Python 中,可以使用 scipy.stats 模块执行 Wilcoxon 符号秩检验。

import scipy.stats as stats

# 创建两组配对样本数据
before = [2830293231]
after = [2729283130]

# 执行 Wilcoxon 符号秩检验
w_stat, p_value = stats.wilcoxon(before, after)
print("Wilcoxon 符号秩统计量:", w_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中,创建了两组配对样本数据 beforeafter,然后使用 wilcoxon 函数执行 Wilcoxon 符号秩检验,判断两组样本的差异是否显著。

ANOVA

ANOVA(方差分析)用于比较多组样本均值之间是否存在显著差异。在 Python 中,可以使用 scipy.stats 模块执行单因素 ANOVA。

import scipy.stats as stats

# 创建多组样本数据
group1 = [6568727074]
group2 = [5863656159]
group3 = [7270757173]

# 执行单因素 ANOVA
f_stat, p_value = stats.f_oneway(group1, group2, group3)
print("F 统计量:", f_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中,创建了三组样本数据 group1group2group3,然后使用 f_oneway 函数执行单因素 ANOVA,判断多组样本均值是否存在显著差异。

Kolmogorov-Smirnov 检验

Kolmogorov-Smirnov 检验用于比较两组数据的分布是否相同。在 Python 中,可以使用 scipy.stats 模块执行 Kolmogorov-Smirnov 检验。

import scipy.stats as stats

# 创建两组数据
data1 = [0.10.20.30.40.5]
data2 = [0.20.30.40.50.6]

# 执行 Kolmogorov-Smirnov 检验
ks_stat, p_value = stats.ks_2samp(data1, data2)
print("KS 统计量:", ks_stat)
print("p 值:", p_value)

if p_value < 0.05:
    print("差异显著")
else:
    print("差异不显著")

在上面的示例中,创建了两组数据 data1data2,然后使用 ks_2samp 函数执行 Kolmogorov-Smirnov 检验,判断两组数据的分布是否相同。

Shapiro-Wilk 正态性检验

Shapiro-Wilk 正态性检验用于检验数据是否符合正态分布。在 Python 中,可以使用 scipy.stats 模块执行 Shapiro-Wilk 正态性检验。

import scipy.stats as stats

# 创建样本数据
data = [2.33.```python
74.56.85.18.2]

# 执行 Shapiro-Wilk 正态性检验
statistic, p_value = stats.shapiro(data)
print("Shapiro-Wilk 统计量:", statistic)
print("p 值:", p_value)

if p_value < 0.05:
    print("不符合正态分布")
else:
    print("符合正态分布")

在上面的示例中,创建了一个样本数据集 data,然后使用 shapiro 函数执行 Shapiro-Wilk 正态性检验,判断数据是否符合正态分布。

线性回归

线性回归用于建立连续自变量与连续因变量之间的线性关系模型。在 Python 中,可以使用 scipy.stats 模块执行线性回归分析。

import scipy.stats as stats

# 创建自变量和因变量数据
x = [12345]
y = [24546]

# 执行线性回归分析
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
print("斜率:", slope)
print("截距:", intercept)
print("相关系数:", r_value)
print("p 值:", p_value)

if p_value < 0.05:
    print("回归模型显著")
else:
    print("回归模型不显著")

在上面的示例中,创建了自变量数据 x 和因变量数据 y,然后使用 linregress 函数执行线性回归分析,得到回归方程的斜率、截距、相关系数和 p 值。

分位数回归

分位数回归用于建立分位数与自变量之间的关系模型,通常用于处理异方差性或离群值较多的数据。在 Python 中,可以使用 statsmodels 库执行分位数回归分析。

import statsmodels.api as sm

# 创建自变量和因变量数据
x = [12345]
y = [24546]

# 添加常数项
x = sm.add_constant(x)

# 执行分位数回归分析
quantiles = [0.250.50.75]
for q in quantiles:
    model = sm.QuantReg(y, x)
    result = model.fit(q=q)
    print(f"分位数 {q}:")
    print(result.summary())

在上面的示例中,创建了自变量数据 x 和因变量数据 y,然后使用 sm.QuantReg 类执行分位数回归分析,得到不同分位数下的回归结果。

这些是常见的统计检验方法和回归分析方法的示例代码,可以帮助进行数据分析和统计建模。根据不同的需求和数据类型,选择合适的方法进行分析和假设检验,以获得有意义的结果。

喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址