使用 Python 和 Pandas 讀取 XLSX 檔案
Vaibhav Vaibhav
2021年12月4日
Python
Python Excel
Pandas 是一個非常強大和優化的庫,它有助於有效地處理資料,輕鬆地對該資料執行操作,並使用各種繪圖和圖形對其進行分析。使用 Pandas 可以非常輕鬆地執行諸如合併、連線和重塑等常見操作。
Pandas 還支援讀取檔案並將檔案中的資料儲存到各種物件中,例如陣列和 DataFrames。一個這樣的檔案是 .xlsx。.xlsx 檔案是 Microsoft Excel Open XML 格式電子表格檔案,這些檔案經過壓縮並基於 XML。本文將討論如何使用 Pandas 讀取 .xlsx 檔案。
在 Python 中使用 pandas 讀取 .xlsx 檔案
要使用 pandas 讀取 .xlsx 檔案,我們可以使用 read_excel() 函式。此函式將 excel 檔案讀入 pandas Dataframe。並且,我們可以使用這個函式來讀取 xlsx、xls、xlsm、xlsb、odf、ods 和 odt 檔案。由於 excel 檔案可以包含多個工作表,因此此功能可以讀取單個和多個工作表。
read_excel() 函式有幾個引數。我們將討論一些主要的。
io:該引數可以是str、bytes、ExcelFile、xlrd.Book、path object或file-like object。它本質上是必須讀取的檔案或物件。還可以將字串形式的有效檔案路徑傳遞給此引數。sheet_name:該引數可以是str、int、list或None。預設值為0。由於 excel 檔案是由工作表組成的,我們可以指定要讀取的單個工作表或一堆工作表。我們不僅可以使用整數索引 (2,0,[1, 3, 7]) 還可以使用字串名稱來指定工作表 (Sheet1,Sheet3,["Sheet4", "Sheet5", "Sheet8"])。header:應被視為 Excel 檔案標題的行。預設值為0,因為第一行通常是標題並考慮從零開始索引。如果沒有標題,請將其設定為None。names:我們可以指定我們希望從 Excel 檔案中讀取哪些列。它接受一個列名列表。預設值為None。由於列名位於標題內,因此該檔案應該有一個。否則,只需設定header = None。
現在讓我們看看如何使用這個函式來讀取 .xlxs 檔案。參考以下程式碼。
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header
Enjoying our tutorials? Subscribe to DelftStack on YouTube to support us in creating more high-quality video guides. Subscribe
作者: Vaibhav Vaibhav
