欢迎来到我的个人博客,有Python技术,自媒体,创业,APP开发问题随时讨论交流

Python 处理 Excel 的14个常用操作详解

Python sitin 10个月前 (12-19) 200次浏览 已收录 0个评论
Python 处理 Excel 的14个常用操作详解

在数据处理和分析的领域中,Excel是一种被广泛使用的工具。然而,通过Python处理Excel,能够更好地实现自动化和批量处理。本文将深入探讨Python中处理Excel的14个常用操作,并提供详尽的示例代码,以助您更全面地掌握这些技能。

1. 读取 Excel 文件

使用 pandas 库读取 Excel 文件是一种常见的数据处理操作,它能够快速加载 Excel 中的表格数据,并将其转换为数据框架(DataFrame)。以下是一个简单的示例代码,演示如何使用 pandas 读取 Excel 文件。

import pandas as pd

# 读取 Excel 文件
file_path = 'example_data.xlsx'
df = pd.read_excel(file_path)

# 打印读取的数据框架
print("读取的数据框架:")
print(df)

在这个例子中,使用 pd.read_excel 函数读取了一个名为 ‘example_data.xlsx’ 的 Excel 文件。读取后,数据被存储在一个 pandas 数据框架中。

2. 写入 Excel 文件

在处理数据后,将结果写入新的 Excel 文件是一项常见的任务。使用 pandas 库,可以将处理过的数据写入新的 Excel 文件。以下是一个简单的示例代码,演示如何使用 pandas 将数据写入 Excel 文件。

import pandas as pd

# 创建示例数据框架
data = {
    'Product': ['A''B''C'],
    'Price': [25.530.215.8],
    'Quantity': [1084]
}

df = pd.DataFrame(data)

# 将数据框架写入 Excel 文件
df.to_excel('output_data.xlsx', index=False)

在这个例子中,使用 to_excel 函数将数据框架写入 Excel 文件。参数 index=False 表示不包含行索引信息。生成的 Excel 文件名为 ‘output_data.xlsx’。

3. 数据筛选与过滤

在数据分析中,经常需要根据特定条件筛选和过滤数据,以便只保留感兴趣的部分。使用 pandas 库,可以进行数据筛选和过滤。以下是一个简单的示例代码,演示如何使用 pandas 进行数据筛选与过滤。

import pandas as pd

# 创建示例数据框架
data = {
    'Product': ['A''B''C''A''B'],
    'Price': [25.530.215.822.018.5],
    'Quantity': [108462]
}

df = pd.DataFrame(data)

# 筛选 Price 大于 20 的数据
filtered_data = df[df['Price'] > 20]

# 打印筛选后的数据框架
print("Price 大于 20 的数据:")
print(filtered_data)

在这个例子中,使用了条件筛选,保留了 ‘Price’ 列大于 20 的行数据。你可以根据实际需求定义不同的筛选条件,以过滤符合条件的数据。

4. 数据排序

在 Excel 中,数据排序是一种常见的操作,可以更好地理解数据的结构和趋势。使用 pandas 库,可以对数据进行排序。以下是一个简单的示例代码,演示如何使用 pandas 对数据进行排序。

import pandas as pd

# 创建示例数据框架
data = {
    'Product': ['B''A''C''D''A'],
    'Price': [30.225.515.840.020.5],
    'Quantity': [810426]
}

df = pd.DataFrame(data)

# 按 'Product' 列升序排序
df_sorted = df.sort_values(by='Product')

# 打印排序后的数据框架
print("按 'Product' 列升序排序:")
print(df_sorted)

在这个例子中,使用 sort_values 函数按 ‘Product’ 列的值进行升序排序。也可以通过指定 ascending=False 参数来实现降序排序。这种排序方式使可以更容易地观察数据的特征和趋势。

5. 数据统计与汇总

通过pandas的统计函数,可以快速了解数据的统计信息,如均值、中位数等。

假设有一个包含销售数据的数据框架sales_data,其中包括产品销售额(sales_amount)、销售数量(quantity)和单价(unit_price)等列。我们将使用这个数据框架来演示如何进行全面的数据统计与汇总。

import pandas as pd

# 假设我们有一个包含销售数据的数据框架
data = {
    'Product': ['A''B''C''A''B''A'],
    'Sales_Amount': [100150200120180130],
    'Quantity': [534625],
    'Unit_Price': [205050209026]
}

sales_data = pd.DataFrame(data)

# 打印原始数据
print("原始数据:")
print(sales_data)

# 统计与汇总
mean_sales_amount = sales_data['Sales_Amount'].mean()
median_quantity = sales_data['Quantity'].median()
mode_product = sales_data['Product'].mode().values[0]
std_unit_price = sales_data['Unit_Price'].std()
min_sales_amount = sales_data['Sales_Amount'].min()
max_quantity = sales_data['Quantity'].max()

# 打印统计结果
print("\n统计与汇总结果:")
print(f"平均销售额:{mean_sales_amount}")
print(f"销售数量中位数:{median_quantity}")
print(f"产品销售频率最高的是:{mode_product}")
print(f"单价标准差:{std_unit_price}")
print(f"最小销售额:{min_sales_amount}")
print(f"最大销售数量:{max_quantity}")

这个例子中,使用了均值、中位数、众数、标准差、最小值和最大值等统计方法来全面了解销售数据的特征。通过运用这些统计函数,可以更好地理解数据的分布、趋势和离散程度,为进一步的数据分析和决策提供了基础。

6. 单元格格式设置

在处理 Excel 数据时,自定义单元格格式是提高数据可读性和呈现效果的关键步骤。使用 openpyxl 库,可以轻松地对 Excel 单元格进行格式设置。下面是一些常见的单元格格式设置的例子。

from openpyxl import Workbook
from openpyxl.styles import Font, Alignment, PatternFill

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 示例数据
data = [
    ["Product""Price""Quantity"],
    ["A"25.510],
    ["B"30.28],
    ["C"15.815],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 单元格格式设置
# 设置标题行的字体为粗体、字号14、颜色为蓝色
sheet['A1'].font = Font(bold=True, size=14, color="0000FF")

# 设置数据区域的对齐方式为居中
for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=1, max_col=sheet.max_column):
    for cell in row:
        cell.alignment = Alignment(horizontal='center', vertical='center')

# 设置价格列的数值格式为货币格式
for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=2, max_col=2):
    for cell in row:
        cell.number_format = '"$"#,##0.00'

# 设置数量列的背景颜色为浅黄色
for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, min_col=3, max_col=3):
    for cell in row:
        cell.fill = PatternFill(start_color="FFFF99", end_color="FFFF99", fill_type="solid")

# 保存工作簿
workbook.save("formatted_excel.xlsx")

在这个例子中,通过 FontAlignmentPatternFill 类来设置单元格的字体、对齐方式和背景颜色。这种格式设置使得 Excel 表格更加美观、易读,有助于突出数据的重要性和结构。可以根据实际需求调整这些设置,以满足特定的数据展示要求。

7. 插入行与列

在处理 Excel 数据时,插入新的行和列是保持数据整洁和有序的关键步骤。使用 openpyxl 库,可以轻松地在 Excel 表格中插入新的行和列。以下是一些插入行和列的示例代码。

插入新的行

from openpyxl import Workbook

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 原始数据
data = [
    ["Name""Age""Country"],
    ["Alice"25"USA"],
    ["Bob"30"Canada"],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 打印原始数据
print("原始数据:")
for row in sheet.iter_rows(values_only=True):
    print(row)

# 插入新的行(在第二行之后插入)
new_row_data = ["Charlie"28"UK"]
sheet.insert_rows(new_row_data, row_idx=2)

# 打印插入新行后的数据
print("\n插入新行后的数据:")
for row in sheet.iter_rows(values_only=True):
    print(row)

# 保存工作簿
workbook.save("inserted_row.xlsx")

插入新的列

from openpyxl import Workbook

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 原始数据
data = [
    ["Name""Age""Country"],
    ["Alice"25"USA"],
    ["Bob"30"Canada"],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 打印原始数据
print("原始数据:")
for row in sheet.iter_rows(values_only=True):
    print(row)

# 插入新的列(在第二列之后插入)
new_column_data = ["Female""Male""Female"]
sheet.insert_cols(values=new_column_data, col_idx=2)

# 打印插入新列后的数据
print("\n插入新列后的数据:")
for row in sheet.iter_rows(values_only=True):
    print(row)

# 保存工作簿
workbook.save("inserted_column.xlsx")

这些示例代码演示了如何使用 insert_rowsinsert_cols 方法在 Excel 表格中插入新的行和列。

8. 合并单元格

在 Excel 中,合并单元格是一种常用的操作,用于创建更复杂的表格结构或突出某些信息。使用 openpyxl 库,可以实现合并和取消合并单元格的操作。以下是一些合并单元格的示例代码。

合并单元格

from openpyxl import Workbook

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 原始数据
data = [
    ["Name""Age""Country"],
    ["Alice"25"USA"],
    ["Bob"30"Canada"],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 合并 A1 到 C1 的单元格
sheet.merge_cells('A1:C1')

# 在合并的单元格中写入标题
sheet['A1'] = 'Personal Information'

# 保存工作簿
workbook.save("merged_cells.xlsx")

取消合并单元格

from openpyxl import load_workbook

# 加载已存在的工作簿
workbook = load_workbook("merged_cells.xlsx")
sheet = workbook.active

# 取消合并 A1 到 C1 的单元格
sheet.unmerge_cells('A1:C1')

# 保存工作簿
workbook.save("unmerged_cells.xlsx")

在这个示例中,首先合并了 A1 到 C1 的单元格,创建了一个包含标题的大标题单元格。然后,演示了如何取消合并这些单元格。这种操作使得表格的布局更加灵活,可以根据实际需要进行定制。

9. 公式计算

在 Excel 中添加公式是一种常见的操作,可以实现自动计算,并随着数据的更新而动态调整。使用 openpyxl 库,可以轻松地在 Excel 中插入公式。以下是一个添加公式的示例代码。

from openpyxl import Workbook

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 原始数据
data = [
    ["Product""Price""Quantity""Total"],
    ["A"25.510None],
    ["B"30.28None],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 添加公式计算 Total 列,Total = Price * Quantity
for row in range(2, sheet.max_row + 1):
    sheet[f'D{row}'] = f'B{row} * C{row}'

# 保存工作簿
workbook.save("formulas.xlsx")

在这个例子中,通过循环遍历数据行,使用 Excel 公式 B(row) * C(row) 来计算 Total 列的值。这样,无论数据如何变化,Total 列都会自动更新。这种功能使得在 Excel 中进行复杂的数据计算变得更加方便和灵活。

10. 图表绘制

在 Excel 中插入图表是一种直观且生动的方式,可以更清晰地展示数据的趋势和关系。使用 openpyxlmatplotlib 库,可以将数据可视化为图表,并插入到 Excel 工作表中。以下是一个插入柱状图的示例代码。

from openpyxl import Workbook
from openpyxl.chart import BarChart, Reference
import matplotlib.pyplot as plt
from io import BytesIO

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 原始数据
data = [
    ["Category""Value"],
    ["A"25],
    ["B"30],
    ["C"20],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 创建柱状图
chart = BarChart()
chart.title = "Category vs Value"
chart.x_axis.title = "Category"
chart.y_axis.title = "Value"

# 数据范围
data_range = Reference(sheet, min_col=2, min_row=1, max_col=2, max_row=sheet.max_row)

# 设置图表数据
chart.add_data(data_range, titles_from_data=True)

# 将图表插入到工作表中
sheet.add_chart(chart, "D2")

# 保存工作簿
workbook.save("chart_example.xlsx")

在这个示例中,创建了一个包含柱状图的 Excel 工作表。首先,使用 BarChart 创建一个柱状图对象,然后设置图表的标题、X轴标题和Y轴标题。接着,通过 Reference 定义数据范围,并使用 add_data 将数据添加到图表中。最后,使用 add_chart 将图表插入到工作表中。这样,就能够在 Excel 中通过图表直观地展示数据的分布和关系。

11. 数据透视表

数据透视表是一种强大的数据分析工具,可以帮助我们快速透视和汇总数据。使用 pandaspivot_table 函数,可以在 Python 中轻松创建数据透视表。以下是一个简单的示例代码。

import pandas as pd

# 创建示例数据框架
data = {
    'Category': ['A''B''A''B''A''B'],
    'Value': [101520253035],
    'Quantity': [234567]
}

df = pd.DataFrame(data)

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='Value', index='Category', columns='Quantity', aggfunc='sum', fill_value=0)

# 打印数据透视表
print("数据透视表:")
print(pivot_table)

在这个例子中,我们使用 pivot_table 函数根据 ‘Category’ 和 ‘Quantity’ 列创建了一个数据透视表。我们指定了值列为 ‘Value’,使用 ‘sum’ 函数进行汇总,如果某些组合不存在则用 0 填充。最后,打印了生成的数据透视表。

12. 数据验证

在 Excel 中设置数据验证规则是一种有效的方式,可以确保用户输入的数据符合预期的范围或格式。使用 openpyxl 库,可以添加数据验证规则。以下是一个简单的示例代码,演示如何在 Excel 中设置数据验证规则。

from openpyxl import Workbook
from openpyxl.worksheet.datavalidation import DataValidation

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 原始数据
data = [
    ["Name""Age""Country"],
    ["Alice"25"USA"],
    ["Bob"30"Canada"],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 创建数据验证规则(Age 列只允许输入 18 到 60 之间的整数)
dv = DataValidation(type="whole", operator="between", formula1=18, formula2=60)
dv.errorTitle = "Invalid Input"
dv.error = "Age must be between 18 and 60."
dv.add("B2:B1048576")  # 应用规则到整个 B 列

# 添加数据验证规则到工作表
sheet.add_data_validation(dv)

# 保存工作簿
workbook.save("data_validation_example.xlsx")

在这个例子中,使用 DataValidation 类创建了一个数据验证规则,要求在 ‘B’ 列(Age 列)中输入整数,并且范围必须在 18 到 60 之间。然后,将这个规则应用到整个 ‘B’ 列。这样,用户在输入数据时,将受到相应范围和格式的限制,提高了数据的准确性。

13. 批量操作

批量操作是在 Excel 中处理大量数据时提高效率的关键。使用循环和函数,可以对数据进行批量处理。以下是一个简单的示例代码,演示如何使用循环和函数批量操作 Excel 数据。

from openpyxl import Workbook

# 创建一个工作簿和工作表
workbook = Workbook()
sheet = workbook.active

# 原始数据
data = [
    ["Product""Price""Quantity""Total"],
    ["A"25.510None],
    ["B"30.28None],
]

# 将数据写入工作表
for row in data:
    sheet.append(row)

# 批量计算 Total 列的值(Total = Price * Quantity)
for row in range(2, sheet.max_row + 1):
    price = sheet[f'B{row}'].value
    quantity = sheet[f'C{row}'].value
    total = price * quantity
    sheet[f'D{row}'] = total

# 打印批量计算后的数据
print("批量计算后的数据:")
for row in sheet.iter_rows(values_only=True):
    print(row)

# 保存工作簿
workbook.save("batch_operations.xlsx")

在这个例子中,使用循环遍历数据行,并批量计算了 ‘Total’ 列的值。通过使用循环,可以对整个数据集进行高效的操作,而不需要逐个手动处理每一行数据。

14. 错误处理

在处理 Excel 数据时,错误是不可避免的。为了提高代码的健壮性,可以使用异常处理机制来处理可能出现的错误。以下是一个简单的示例代码,演示如何使用异常处理来处理 Excel 操作中的错误。

from openpyxl import Workbook

try:
    # 创建一个工作簿和工作表
    workbook = Workbook()
    sheet = workbook.active

    # 原始数据
    data = [
        ["Product""Price""Quantity""Total"],
        ["A"25.510None],
        ["B"30.28None],
    ]

    # 将数据写入工作表
    for row in data:
        sheet.append(row)

    # 尝试计算 Total 列的值,但存在空值导致的错误
    for row in range(2, sheet.max_row + 1):
        try:
            price = sheet[f'B{row}'].value
            quantity = sheet[f'C{row}'].value
            total = price * quantity
            sheet[f'D{row}'] = total
        except TypeError as e:
            print(f"Error in row {row}{e}")

    # 打印处理后的数据
    print("处理后的数据:")
    for row in sheet.iter_rows(values_only=True):
        print(row)

    # 保存工作簿
    workbook.save("error_handling_example.xlsx")

except Exception as e:
    print(f"An error occurred: {e}")

在这个例子中,使用了两层异常处理。外层的异常处理捕获了可能发生的任何异常,而内层的异常处理仅捕获特定的 TypeError,这是由于在计算 ‘Total’ 列时可能遇到的错误类型。

总结

在这篇博客中,分享了使用 Python 处理 Excel 数据的各种技巧和方法。首先,学习了如何使用 pandas 库读取 Excel 文件,将表格数据转换为数据框架,为后续处理打下了基础。接着,介绍了数据筛选与过滤的方法,利用条件筛选功能,轻松地过滤和保留感兴趣的数据。然后,学习了数据排序的操作,通过 pandas 的排序功能,使数据更具可读性,更容易理解数据的结构和趋势。

还分享了数据的批量操作,通过循环和函数,高效地对 Excel 数据进行批量处理,提高了代码的复用性和效率。学习了如何利用 pandas 的数据透视表功能,轻松进行数据透视和汇总,以及如何通过数据验证规则提高数据的准确性。

进一步,了解了如何处理 Excel 中的错误,通过异常处理机制提高代码的健壮性,确保在面对异常情况时程序能够正常执行。最后,学习了如何将处理过的数据写入新的 Excel 文件,为数据的分享和进一步分析提供了便捷的方式。

通过这些技巧和方法,我们能够在 Python 中更灵活、高效地处理和分析 Excel 数据,为数据科学和数据处理工作提供了丰富的工具和思路。无论是初学者还是有经验的开发者,这些技能都将为处理实际工作中的 Excel 数据提供强大的支持。

喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址