使用 Python 和 Pandas 读取 XLSX 文件

Vaibhav Vaibhav 2021年12月4日 Python Python Excel

Pandas 是一个非常强大和优化的库，它有助于有效地处理数据，轻松地对该数据执行操作，并使用各种绘图和图形对其进行分析。使用 Pandas 可以非常轻松地执行诸如合并、连接和重塑等常见操作。

Pandas 还支持读取文件并将文件中的数据存储到各种对象中，例如数组和 DataFrames。一个这样的文件是 .xlsx。.xlsx 文件是 Microsoft Excel Open XML 格式电子表格文件，这些文件经过压缩并基于 XML。本文将讨论如何使用 Pandas 读取 .xlsx 文件。

在 Python 中使用 `pandas` 读取 `.xlsx` 文件

要使用 pandas 读取 .xlsx 文件，我们可以使用 read_excel() 函数。此函数将 excel 文件读入 pandas Dataframe。并且，我们可以使用这个函数来读取 xlsx、xls、xlsm、xlsb、odf、ods 和 odt 文件。由于 excel 文件可以包含多个工作表，因此此功能可以读取单个和多个工作表。

read_excel() 函数有几个参数。我们将讨论一些主要的。

io：该参数可以是 str、bytes、ExcelFile、xlrd.Book、path object 或 file-like object。它本质上是必须读取的文件或对象。还可以将字符串形式的有效文件路径传递给此参数。
sheet_name：该参数可以是 str、int、list 或 None。默认值为 0。由于 excel 文件是由工作表组成的，我们可以指定要读取的单个工作表或一堆工作表。我们不仅可以使用整数索引 (2, 0, [1, 3, 7]) 还可以使用字符串名称来指定工作表 (Sheet1, Sheet3, ["Sheet4", "Sheet5", "Sheet8"])。
header：应被视为 Excel 文件标题的行。默认值为 0，因为第一行通常是标题并考虑从零开始索引。如果没有标题，请将其设置为 None。
names：我们可以指定我们希望从 Excel 文件中读取哪些列。它接受一个列名列表。默认值为 None。由于列名位于标题内，因此该文件应该有一个。否则，只需设置 header = None。

现在让我们看看如何使用这个函数来读取 .xlxs 文件。参考以下代码。

file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header

Enjoying our tutorials? Subscribe to DelftStack on YouTube to support us in creating more high-quality video guides. Subscribe

作者： Vaibhav Vaibhav

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

在 Python 中使用 pandas 读取 .xlsx 文件

相关文章 - Python Excel

在 Python 中使用 `pandas` 读取 `.xlsx` 文件