tslearn，一个实用的 Python 库！

大家好，今天为大家分享一个实用的 Python 库 – tslearn。

Github地址：https://github.com/tslearn-team/tslearn

在数据科学领域，时间序列分析是一项至关重要的任务，涵盖了诸多领域，如金融、气象、生物学、工业生产等。Python 中的 tslearn 库为时间序列分析提供了丰富的工具和功能，使得用户能够轻松地处理、分析和建模时间序列数据。本文将深入探讨 tslearn 库的特性、用法以及应用场景，并提供丰富的示例代码，帮助更好地理解和应用这一强大工具。

tslearn 是什么？

tslearn 是一个专注于时间序列分析的 Python 库，提供了一系列用于处理时间序列数据的工具和算法。

tslearn 主要特点包括：

提供了丰富的时间序列处理和分析工具，包括距离度量、时间序列降维、时间序列分类和聚类等功能。
支持多种时间序列数据类型和格式，包括等长时间序列、不等长时间序列、多变量时间序列等。
提供了高效的实现和并行计算功能，使得用户能够快速处理大规模时间序列数据。

安装 tslearn 库

要开始使用 tslearn 库，首先需要安装它。

可以通过 pip 来进行安装：

pip install tslearn

安装完成后，就可以开始使用 tslearn 来进行时间序列分析了。

使用示例

1. 加载和可视化时间序列数据

import numpy as np
from tslearn.datasets import UCR_UEA_datasets
import matplotlib.pyplot as plt

# 加载数据集
X_train, y_train, X_test, y_test = UCR_UEA_datasets().load_dataset("TwoPatterns")

# 可视化部分时间序列数据
plt.figure(figsize=(10, 6))
for i in range(5):
    plt.subplot(5, 1, i+1)
    plt.plot(X_train[i].ravel())
    plt.title("Class: {}".format(y_train[i]))
plt.tight_layout()
plt.show()

2. 时间序列降维和可视化

from tslearn.preprocessing import TimeSeriesScalerMeanVariance
from tslearn.shapelets import ShapeletModel
from tslearn.shapelets import grabocka_params_to_shapelet_size_dict

# 时间序列标准化
scaler = TimeSeriesScalerMeanVariance(mu=0., std=1.)  # 标准化
X_train_std = scaler.fit_transform(X_train)

# 训练形状模型
shapelet_sizes = grabocka_params_to_shapelet_size_dict(n_ts=X_train_std.shape[0],
                                                       ts_sz=X_train_std.shape[1],
                                                       n_classes=len(set(y_train)),
                                                       l=0.1, r=1)
shp_clf = ShapeletModel(n_shapelets_per_size=shapelet_sizes,
                        optimizer="sgd", weight_regularizer=0.01,
                        max_iter=200, verbose_level=0)
shp_clf.fit(X_train_std, y_train)

# 可视化形状模型
plt.figure(figsize=(10, 6))
for i, sz in enumerate(shapelet_sizes.keys()):
    plt.subplot(len(shapelet_sizes), 1, i + 1)
    plt.title("%d shapelets of size %d" % (shapelet_sizes[sz], sz))
for shp in shp_clf.shapelets_:
if tslearn.utils.common.num_cuts(shp) == sz:
            plt.plot(shp.ravel())
plt.tight_layout()
plt.show()

3. 时间序列分类

from sklearn.metrics import accuracy_score
from tslearn.neighbors import KNeighborsTimeSeriesClassifier

# K最近邻分类器
knn = KNeighborsTimeSeriesClassifier(n_neighbors=1, metric="dtw")
knn.fit(X_train, y_train)

# 预测并评估分类器性能
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

tslearn 库的应用场景

Python tslearn 库是一个专门用于处理时间序列数据的强大工具，提供了丰富的功能和算法，适用于多种应用场景。

1. 时间序列分类

时间序列分类是识别时间序列数据中的不同类别或模式的任务，例如识别运动传感器数据中的不同运动类型。

from tslearn.datasets import CachedDatasets
from tslearn.preprocessing import TimeSeriesScalerMeanVariance
from tslearn.shapelets import ShapeletModel, grabocka_params_to_shapelet_size_dict
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
X_train, y_train, X_test, y_test = CachedDatasets().load_dataset("Trace")
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.2)

# 标准化时间序列
scaler = TimeSeriesScalerMeanVariance()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)

# 训练形状模型
shapelet_sizes = grabocka_params_to_shapelet_size_dict(n_ts=X_train.shape[0],
                                                       ts_sz=X_train.shape[1],
                                                       n_classes=len(set(y_train)),
                                                       l=0.1, r=1)
shp_clf = ShapeletModel(n_shapelets_per_size=shapelet_sizes,
                        optimizer="sgd", weight_regularizer=0.01,
                        max_iter=200, verbose_level=0)
shp_clf.fit(X_train, y_train)

# 预测并评估分类器性能
y_pred = shp_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

2. 时间序列聚类

时间序列聚类是将相似的时间序列数据聚集到一起，发现数据中的群集结构和模式的任务，例如识别用户行为数据中的不同行为簇。

from tslearn.clustering import TimeSeriesKMeans
from tslearn.datasets import CachedDatasets

# 加载数据集
X_train, y_train, X_test, y_test = CachedDatasets().load_dataset("Trace")

# 使用 TimeSeriesKMeans 聚类器
km = TimeSeriesKMeans(n_clusters=3, metric="dtw", verbose=True)
y_pred = km.fit_predict(X_train)

# 可视化聚类结果
import matplotlib.pyplot as plt
plt.figure()
for cl in range(3):
    plt.subplot(3, 1, cl + 1)
for i in range(len(X_train[y_pred == cl])):
        plt.plot(X_train[y_pred == cl][i].ravel(), "k-", alpha=0.3)
    plt.title("Cluster %d" % (cl + 1))
plt.tight_layout()
plt.show()

3. 时间序列降维

时间序列降维是将高维的时间序列数据降低到低维空间的任务，例如可视化高维传感器数据。

from tslearn.datasets import CachedDatasets
from tslearn.preprocessing import TimeSeriesScalerMeanVariance
from tslearn.utils import to_time_series_dataset
from tslearn.shapelets import ShapeletTransform
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

# 加载数据集
X_train, y_train, X_test, y_test = CachedDatasets().load_dataset("Trace")

# 时间序列标准化
scaler = TimeSeriesScalerMeanVariance()
X_train_scaled = scaler.fit_transform(X_train)

# 将数据转换为时间序列数据集
X_train_ts = to_time_series_dataset(X_train_scaled)

# 应用形状转换器
st = ShapeletTransform(n_shapelets_per_size={20: 5},
                       time_contract_in_mins=0.5)
st.fit(X_train_ts, y_train)

# 降维并可视化
X_train_transformed = st.transform(X_train_ts)
X_embedded = TSNE(n_components=2).fit_transform(X_train_transformed)
plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y_train)
plt.colorbar()
plt.title("Shapelet transform of the Trace dataset")
plt.show()

总结

通过本文的介绍，对 tslearn 库有了更深入的了解。tslearn 提供了丰富的功能和工具，使得用户能够轻松地处理和分析时间序列数据。无论是在时间序列分类、聚类、降维还是预测方面，tslearn 都能够为用户提供强大的支持，成为时间序列分析的得力助手。希望本文能够帮助大家更好地掌握 tslearn 库的用法，并将其应用到实际的时间序列分析和建模工作中。