大家好,今天为大家分享一个实用的 Python 库 – tslearn。
Github地址:https://github.com/tslearn-team/tslearn
在数据科学领域,时间序列分析是一项至关重要的任务,涵盖了诸多领域,如金融、气象、生物学、工业生产等。Python 中的 tslearn 库为时间序列分析提供了丰富的工具和功能,使得用户能够轻松地处理、分析和建模时间序列数据。本文将深入探讨 tslearn 库的特性、用法以及应用场景,并提供丰富的示例代码,帮助更好地理解和应用这一强大工具。
tslearn 是什么?
tslearn 是一个专注于时间序列分析的 Python 库,提供了一系列用于处理时间序列数据的工具和算法。
tslearn 主要特点包括:
-
提供了丰富的时间序列处理和分析工具,包括距离度量、时间序列降维、时间序列分类和聚类等功能。 -
支持多种时间序列数据类型和格式,包括等长时间序列、不等长时间序列、多变量时间序列等。 -
提供了高效的实现和并行计算功能,使得用户能够快速处理大规模时间序列数据。
安装 tslearn 库
要开始使用 tslearn 库,首先需要安装它。
可以通过 pip 来进行安装:
pip install tslearn
安装完成后,就可以开始使用 tslearn 来进行时间序列分析了。
使用示例
1. 加载和可视化时间序列数据
import numpy as np
from tslearn.datasets import UCR_UEA_datasets
import matplotlib.pyplot as plt
# 加载数据集
X_train, y_train, X_test, y_test = UCR_UEA_datasets().load_dataset("TwoPatterns")
# 可视化部分时间序列数据
plt.figure(figsize=(10, 6))
for i in range(5):
plt.subplot(5, 1, i+1)
plt.plot(X_train[i].ravel())
plt.title("Class: {}".format(y_train[i]))
plt.tight_layout()
plt.show()
2. 时间序列降维和可视化
from tslearn.preprocessing import TimeSeriesScalerMeanVariance
from tslearn.shapelets import ShapeletModel
from tslearn.shapelets import grabocka_params_to_shapelet_size_dict
# 时间序列标准化
scaler = TimeSeriesScalerMeanVariance(mu=0., std=1.) # 标准化
X_train_std = scaler.fit_transform(X_train)
# 训练形状模型
shapelet_sizes = grabocka_params_to_shapelet_size_dict(n_ts=X_train_std.shape[0],
ts_sz=X_train_std.shape[1],
n_classes=len(set(y_train)),
l=0.1, r=1)
shp_clf = ShapeletModel(n_shapelets_per_size=shapelet_sizes,
optimizer="sgd", weight_regularizer=0.01,
max_iter=200, verbose_level=0)
shp_clf.fit(X_train_std, y_train)
# 可视化形状模型
plt.figure(figsize=(10, 6))
for i, sz in enumerate(shapelet_sizes.keys()):
plt.subplot(len(shapelet_sizes), 1, i + 1)
plt.title("%d shapelets of size %d" % (shapelet_sizes[sz], sz))
for shp in shp_clf.shapelets_:
if tslearn.utils.common.num_cuts(shp) == sz:
plt.plot(shp.ravel())
plt.tight_layout()
plt.show()
3. 时间序列分类
from sklearn.metrics import accuracy_score
from tslearn.neighbors import KNeighborsTimeSeriesClassifier
# K最近邻分类器
knn = KNeighborsTimeSeriesClassifier(n_neighbors=1, metric="dtw")
knn.fit(X_train, y_train)
# 预测并评估分类器性能
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
tslearn 库的应用场景
Python tslearn 库是一个专门用于处理时间序列数据的强大工具,提供了丰富的功能和算法,适用于多种应用场景。
1. 时间序列分类
时间序列分类是识别时间序列数据中的不同类别或模式的任务,例如识别运动传感器数据中的不同运动类型。
from tslearn.datasets import CachedDatasets
from tslearn.preprocessing import TimeSeriesScalerMeanVariance
from tslearn.shapelets import ShapeletModel, grabocka_params_to_shapelet_size_dict
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 加载数据集
X_train, y_train, X_test, y_test = CachedDatasets().load_dataset("Trace")
X_train, X_valid, y_train, y_valid = train_test_split(X_train, y_train, test_size=0.2)
# 标准化时间序列
scaler = TimeSeriesScalerMeanVariance()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)
# 训练形状模型
shapelet_sizes = grabocka_params_to_shapelet_size_dict(n_ts=X_train.shape[0],
ts_sz=X_train.shape[1],
n_classes=len(set(y_train)),
l=0.1, r=1)
shp_clf = ShapeletModel(n_shapelets_per_size=shapelet_sizes,
optimizer="sgd", weight_regularizer=0.01,
max_iter=200, verbose_level=0)
shp_clf.fit(X_train, y_train)
# 预测并评估分类器性能
y_pred = shp_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
2. 时间序列聚类
时间序列聚类是将相似的时间序列数据聚集到一起,发现数据中的群集结构和模式的任务,例如识别用户行为数据中的不同行为簇。
from tslearn.clustering import TimeSeriesKMeans
from tslearn.datasets import CachedDatasets
# 加载数据集
X_train, y_train, X_test, y_test = CachedDatasets().load_dataset("Trace")
# 使用 TimeSeriesKMeans 聚类器
km = TimeSeriesKMeans(n_clusters=3, metric="dtw", verbose=True)
y_pred = km.fit_predict(X_train)
# 可视化聚类结果
import matplotlib.pyplot as plt
plt.figure()
for cl in range(3):
plt.subplot(3, 1, cl + 1)
for i in range(len(X_train[y_pred == cl])):
plt.plot(X_train[y_pred == cl][i].ravel(), "k-", alpha=0.3)
plt.title("Cluster %d" % (cl + 1))
plt.tight_layout()
plt.show()
3. 时间序列降维
时间序列降维是将高维的时间序列数据降低到低维空间的任务,例如可视化高维传感器数据。
from tslearn.datasets import CachedDatasets
from tslearn.preprocessing import TimeSeriesScalerMeanVariance
from tslearn.utils import to_time_series_dataset
from tslearn.shapelets import ShapeletTransform
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
# 加载数据集
X_train, y_train, X_test, y_test = CachedDatasets().load_dataset("Trace")
# 时间序列标准化
scaler = TimeSeriesScalerMeanVariance()
X_train_scaled = scaler.fit_transform(X_train)
# 将数据转换为时间序列数据集
X_train_ts = to_time_series_dataset(X_train_scaled)
# 应用形状转换器
st = ShapeletTransform(n_shapelets_per_size={20: 5},
time_contract_in_mins=0.5)
st.fit(X_train_ts, y_train)
# 降维并可视化
X_train_transformed = st.transform(X_train_ts)
X_embedded = TSNE(n_components=2).fit_transform(X_train_transformed)
plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y_train)
plt.colorbar()
plt.title("Shapelet transform of the Trace dataset")
plt.show()
总结
通过本文的介绍,对 tslearn 库有了更深入的了解。tslearn 提供了丰富的功能和工具,使得用户能够轻松地处理和分析时间序列数据。无论是在时间序列分类、聚类、降维还是预测方面,tslearn 都能够为用户提供强大的支持,成为时间序列分析的得力助手。希望本文能够帮助大家更好地掌握 tslearn 库的用法,并将其应用到实际的时间序列分析和建模工作中。