使用 Python 和 Pandas 读取 XLSX 文件

Vaibhav Vaibhav 2021年12月4日
使用 Python 和 Pandas 读取 XLSX 文件

Pandas 是一个非常强大和优化的库,它有助于有效地处理数据,轻松地对该数据执行操作,并使用各种绘图和图形对其进行分析。使用 Pandas 可以非常轻松地执行诸如合并、连接和重塑等常见操作。

Pandas 还支持读取文件并将文件中的数据存储到各种对象中,例如数组和 DataFrames。一个这样的文件是 .xlsx.xlsx 文件是 Microsoft Excel Open XML 格式电子表格文件,这些文件经过压缩并基于 XML。本文将讨论如何使用 Pandas 读取 .xlsx 文件。

在 Python 中使用 pandas 读取 .xlsx 文件

要使用 pandas 读取 .xlsx 文件,我们可以使用 read_excel() 函数。此函数将 excel 文件读入 pandas Dataframe。并且,我们可以使用这个函数来读取 xlsxxlsxlsmxlsbodfodsodt 文件。由于 excel 文件可以包含多个工作表,因此此功能可以读取单个和多个工作表。

read_excel() 函数有几个参数。我们将讨论一些主要的。

  • io:该参数可以是 strbytesExcelFilexlrd.Bookpath objectfile-like object。它本质上是必须读取的文件或对象。还可以将字符串形式的有效文件路径传递给此参数。
  • sheet_name:该参数可以是 strintlistNone。默认值为 0。由于 excel 文件是由工作表组成的,我们可以指定要读取的单个工作表或一堆工作表。我们不仅可以使用整数索引 (2, 0, [1, 3, 7]) 还可以使用字符串名称来指定工作表 (Sheet1, Sheet3, ["Sheet4", "Sheet5", "Sheet8"])。
  • header:应被视为 Excel 文件标题的行。默认值为 0,因为第一行通常是标题并考虑从零开始索引。如果没有标题,请将其设置为 None
  • names:我们可以指定我们希望从 Excel 文件中读取哪些列。它接受一个列名列表。默认值为 None。由于列名位于标题内,因此该文件应该有一个。否则,只需设置 header = None

现在让我们看看如何使用这个函数来读取 .xlxs 文件。参考以下代码。

file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header
作者: Vaibhav Vaibhav
Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

相关文章 - Python Excel