使用 Python 和 Pandas 读取 XLSX 文件
Vaibhav Vaibhav
2021年12月4日
Python
Python Excel
Pandas 是一个非常强大和优化的库,它有助于有效地处理数据,轻松地对该数据执行操作,并使用各种绘图和图形对其进行分析。使用 Pandas 可以非常轻松地执行诸如合并、连接和重塑等常见操作。
Pandas 还支持读取文件并将文件中的数据存储到各种对象中,例如数组和 DataFrames。一个这样的文件是 .xlsx。.xlsx 文件是 Microsoft Excel Open XML 格式电子表格文件,这些文件经过压缩并基于 XML。本文将讨论如何使用 Pandas 读取 .xlsx 文件。
在 Python 中使用 pandas 读取 .xlsx 文件
要使用 pandas 读取 .xlsx 文件,我们可以使用 read_excel() 函数。此函数将 excel 文件读入 pandas Dataframe。并且,我们可以使用这个函数来读取 xlsx、xls、xlsm、xlsb、odf、ods 和 odt 文件。由于 excel 文件可以包含多个工作表,因此此功能可以读取单个和多个工作表。
read_excel() 函数有几个参数。我们将讨论一些主要的。
io:该参数可以是str、bytes、ExcelFile、xlrd.Book、path object或file-like object。它本质上是必须读取的文件或对象。还可以将字符串形式的有效文件路径传递给此参数。sheet_name:该参数可以是str、int、list或None。默认值为0。由于 excel 文件是由工作表组成的,我们可以指定要读取的单个工作表或一堆工作表。我们不仅可以使用整数索引 (2,0,[1, 3, 7]) 还可以使用字符串名称来指定工作表 (Sheet1,Sheet3,["Sheet4", "Sheet5", "Sheet8"])。header:应被视为 Excel 文件标题的行。默认值为0,因为第一行通常是标题并考虑从零开始索引。如果没有标题,请将其设置为None。names:我们可以指定我们希望从 Excel 文件中读取哪些列。它接受一个列名列表。默认值为None。由于列名位于标题内,因此该文件应该有一个。否则,只需设置header = None。
现在让我们看看如何使用这个函数来读取 .xlxs 文件。参考以下代码。
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header
Enjoying our tutorials? Subscribe to DelftStack on YouTube to support us in creating more high-quality video guides. Subscribe
作者: Vaibhav Vaibhav
