使用 Python 和 Pandas 讀取 XLSX 檔案

Vaibhav Vaibhav 2021年12月4日
使用 Python 和 Pandas 讀取 XLSX 檔案

Pandas 是一個非常強大和優化的庫,它有助於有效地處理資料,輕鬆地對該資料執行操作,並使用各種繪圖和圖形對其進行分析。使用 Pandas 可以非常輕鬆地執行諸如合併、連線和重塑等常見操作。

Pandas 還支援讀取檔案並將檔案中的資料儲存到各種物件中,例如陣列和 DataFrames。一個這樣的檔案是 .xlsx.xlsx 檔案是 Microsoft Excel Open XML 格式電子表格檔案,這些檔案經過壓縮並基於 XML。本文將討論如何使用 Pandas 讀取 .xlsx 檔案。

在 Python 中使用 pandas 讀取 .xlsx 檔案

要使用 pandas 讀取 .xlsx 檔案,我們可以使用 read_excel() 函式。此函式將 excel 檔案讀入 pandas Dataframe。並且,我們可以使用這個函式來讀取 xlsxxlsxlsmxlsbodfodsodt 檔案。由於 excel 檔案可以包含多個工作表,因此此功能可以讀取單個和多個工作表。

read_excel() 函式有幾個引數。我們將討論一些主要的。

  • io:該引數可以是 strbytesExcelFilexlrd.Bookpath objectfile-like object。它本質上是必須讀取的檔案或物件。還可以將字串形式的有效檔案路徑傳遞給此引數。
  • sheet_name:該引數可以是 strintlistNone。預設值為 0。由於 excel 檔案是由工作表組成的,我們可以指定要讀取的單個工作表或一堆工作表。我們不僅可以使用整數索引 (2, 0, [1, 3, 7]) 還可以使用字串名稱來指定工作表 (Sheet1, Sheet3, ["Sheet4", "Sheet5", "Sheet8"])。
  • header:應被視為 Excel 檔案標題的行。預設值為 0,因為第一行通常是標題並考慮從零開始索引。如果沒有標題,請將其設定為 None
  • names:我們可以指定我們希望從 Excel 檔案中讀取哪些列。它接受一個列名列表。預設值為 None。由於列名位於標題內,因此該檔案應該有一個。否則,只需設定 header = None

現在讓我們看看如何使用這個函式來讀取 .xlxs 檔案。參考以下程式碼。

file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header
作者: Vaibhav Vaibhav
Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

相關文章 - Python Excel