sktime，一个高级的 Python 库！ - 涛哥聊Python涛哥聊Python

大家好，今天为大家分享一个高级的 Python 库 – sktime。

Github地址：https://github.com/sktime/sktime

Python sktime库是一个专门用于时间序列数据处理和机器学习的库，它建立在scikit-learn库的基础上，提供了丰富的时间序列分析工具和算法，适用于各种时间序列数据的建模和预测任务。

安装

可以使用pip工具来安装Python sktime库：

pip install sktime

安装完成后，就可以开始使用sktime库进行时间序列数据分析了。

特性

支持多种时间序列数据类型，包括单变量时间序列和多变量时间序列。
提供了多种时间序列分析和预测算法，如时间序列特征提取、时间序列回归、时间序列分类等。
支持时间序列交叉验证和模型评估。

基本功能

1. 加载和预处理时间序列数据

import pandas as pd
from sktime.utils.load_data import load_airline

# 加载示例数据集（航空乘客数量）
y = load_airline()

# 查看数据前几行
print(y.head())

这个示例展示了如何使用sktime库加载和预处理时间序列数据。

2. 时间序列特征提取

from sktime.feature_extraction import FeatureUnion
from sktime.feature_extraction.compose import ColumnTransformer
from sktime.feature_extraction.statistics import Mean, Variance

# 创建特征提取器
transformer = ColumnTransformer([
    ("mean", Mean(), ["feature1", "feature2"]),
    ("variance", Variance(), ["feature1", "feature2"])
])

# 应用特征提取器
X_features = transformer.fit_transform(X_train)

print("特征提取后的数据：")
print(X_features.head())

这个示例展示了如何使用sktime库进行时间序列特征提取。

高级功能

1. 时间序列特征提取

在时间序列分析中，特征提取是一个关键的步骤，它可以从原始的时间序列数据中提取有用的特征，用于建模和预测。sktime库提供了丰富的特征提取方法，例如统计特征、频域特征等。

from sktime.feature_extraction import FeatureUnion
from sktime.feature_extraction.compose import ColumnTransformer
from sktime.feature_extraction.statistics import Mean, Variance

# 创建特征提取器
transformer = ColumnTransformer([
    ("mean", Mean(), ["feature1", "feature2"]),
    ("variance", Variance(), ["feature1", "feature2"])
])

# 应用特征提取器
X_features = transformer.fit_transform(X_train)

print("特征提取后的数据：")
print(X_features.head())

在这个示例中，使用sktime库的特征提取器来从时间序列数据中提取均值和方差等统计特征。

2. 时间序列回归分析

在时间序列预测任务中，常常需要进行时间序列回归分析，即预测时间序列的连续数值。sktime库提供了多种时间序列回归模型，例如指数平滑法、ARIMA模型等。

from sktime.forecasting.compose import TransformedTargetForecaster
from sktime.forecasting.exp_smoothing import ExponentialSmoothing

# 创建时间序列回归模型
forecaster = TransformedTargetForecaster(
    forecaster=ExponentialSmoothing(trend="add", seasonal="additive", sp=12),
    transformer=None
)

# 拟合模型
forecaster.fit(y_train)

# 预测未来时间点
y_pred = forecaster.predict(fh)

print("未来时间点的预测结果：")
print(y_pred)

在这个示例中，使用sktime库创建了一个指数平滑法的时间序列回归模型，并进行了未来时间点的预测。

3. 时间序列交叉验证

为了评估时间序列模型的性能，常常需要进行时间序列交叉验证。sktime库提供了方便的交叉验证方法，例如滑动窗口交叉验证。

from sktime.forecasting.model_selection import temporal_train_test_split
from sktime.forecasting.model_selection import SlidingWindowSplitter

# 划分训练集和测试集
y_train, y_test = temporal_train_test_split(y, test_size=10)

# 创建时间序列交叉验证分割器
cv = SlidingWindowSplitter(window_length=5)

# 进行交叉验证
for train, test in cv.split(y_train):
    print("训练集：", train)
    print("测试集：", test)

在这个示例中，使用sktime库进行了滑动窗口交叉验证，评估了时间序列模型的性能。

实际应用场景

1. 股票价格预测

在金融领域，股票价格预测是一个重要的任务。sktime库可以用于分析历史股票价格数据，并预测未来的股票价格走势。

import pandas as pd
from sktime.datasets import load_airline
from sktime.forecasting.model_selection import temporal_train_test_split
from sktime.forecasting.compose import ReducedRegressionForecaster
from sktime.forecasting.arima import ARIMA

# 加载示例数据集（航空乘客数量）
y = load_airline()

# 划分训练集和测试集
y_train, y_test = temporal_train_test_split(y, test_size=36)

# 创建ARIMA时间序列回归模型
forecaster = ReducedRegressionForecaster(
    regressor=ARIMA(order=(1, 1, 1)),
    window_length=12
)

# 拟合模型
forecaster.fit(y_train)

# 预测未来时间点
y_pred = forecaster.predict(fh)

print("未来时间点的股票价格预测：")
print(y_pred)

这个示例展示了如何使用sktime库进行股票价格预测任务。

2. 交通流量预测

在城市交通管理中，交通流量预测是一项重要的任务。sktime库可以用于分析历史交通流量数据，并预测未来的交通状况。

import pandas as pd
from sktime.datasets import load_longley
from sktime.forecasting.model_selection import temporal_train_test_split
from sktime.forecasting.compose import ReducedRegressionForecaster
from sktime.forecasting.arima import ARIMA

# 加载示例数据集（长利经济模型）
y = load_longley()

# 划分训练集和测试集
y_train, y_test = temporal_train_test_split(y, test_size=10)

# 创建ARIMA时间序列回归模型
forecaster = ReducedRegressionForecaster(
    regressor=ARIMA(order=(1, 1, 1)),
    window_length=4
)

# 拟合模型
forecaster.fit(y_train)

# 预测未来时间点
y_pred = forecaster.predict(fh)

print("未来时间点的交通流量预测：")
print(y_pred)

这个示例展示了如何使用sktime库进行交通流量预测任务。

3. 医疗数据分析

在医疗领域，时间序列数据分析可以用于疾病趋势预测、医疗资源需求预测等任务。sktime库可以帮助医疗专业人士对时间序列数据进行分析和预测。

import pandas as pd
from sktime.datasets import load_italy_power_demand
from sktime.forecasting.model_selection import temporal_train_test_split
from sktime.forecasting.compose import ReducedRegressionForecaster
from sktime.forecasting.arima import ARIMA

# 加载意大利电力需求数据集
y = load_italy_power_demand()

# 划分训练集和测试集
y_train, y_test = temporal_train_test_split(y, test_size=24)

# 创建ARIMA时间序列回归模型
forecaster = ReducedRegressionForecaster(
    regressor=ARIMA(order=(1, 1, 1)),
    window_length=12
)

# 拟合模型
forecaster.fit(y_train)

# 预测未来时间点
y_pred = forecaster.predict(fh)

print("未来时间点的医疗数据预测：")
print(y_pred)

这个示例展示了如何使用sktime库进行医疗数据分析任务。

总结

Python sktime库是一个强大的时间序列分析工具，建立在scikit-learn库之上，提供了丰富的功能和算法，适用于各种时间序列数据的建模和预测任务。通过 sktime，用户可以进行时间序列特征提取、时间序列回归和时间序列交叉验证等高级功能操作，帮助用户处理复杂的时间序列分析任务。sktime在实际应用中具有广泛的应用场景，如股票价格预测、交通流量预测、医疗数据分析等。总体而言，sktime库为时间序列数据的分析和预测提供了全面的工具支持，是Python中优秀的时间序列分析库之一。

安装

特性