Leia arquivos XLSX usando Python e Pandas

Vaibhav Vaibhav 20 dezembro 2021
Leia arquivos XLSX usando Python e Pandas

Pandas é uma biblioteca muito robusta e otimizada que ajuda a lidar com dados de forma eficiente, realizar operações sobre esses dados com facilidade e analisá-los com todos os tipos de plotagens e gráficos. Operações comuns como mesclar, concatenar e remodelar podem ser realizadas facilmente usando o pandas.

Pandas também suporta a leitura de arquivos e armazenamento de dados dentro dos arquivos em vários objetos, como matrizes e DataFrames. Um desses arquivos é .xlsx. Os arquivos .xlsx são arquivos de planilha no formato XML aberto do Microsoft Excel compactados e baseados em XML. Este artigo falará sobre como ler arquivos .xlsx usando o pandas.

Lendo arquivos .xlsx usando pandas em Python

Para ler arquivos .xlsx usando pandas, podemos usar a função read_excel(). Esta função lê um arquivo excel em um pandas Dataframe. E podemos usar esta função para ler arquivos xlsx, xls, xlsm, xlsb, odf, ods e odt. Como os arquivos do Excel podem conter várias planilhas, esta função pode ler uma única e várias planilhas.

A função read_excel() tem alguns parâmetros. Vamos discutir alguns dos principais.

  • io: Este parâmetro pode ser str, bytes, ExcelFile, xlrd.Book, path object ou file-like object. É essencialmente o arquivo ou o objeto que deve ser lido. Também se pode passar um caminho de arquivo válido na forma de uma string para este parâmetro.
  • sheet_name: Este parâmetro pode ser str, int, list ou None. O valor padrão é 0. Como os arquivos do Excel são compostos de planilhas, podemos especificar uma única planilha ou um monte de planilhas para ler. Não podemos apenas usar índices inteiros (2, 0, [1, 3, 7]), mas também nomes de string para especificar as folhas (Sheet1, Sheet3, ["Sheet4", "Sheet5", "Sheet8"]).
  • header: a linha que deve ser considerada como cabeçalho do arquivo excel. O valor padrão é 0 porque a primeira linha geralmente é o cabeçalho e considera a indexação baseada em zero. Se não houver cabeçalho, defina-o como None.
  • names: podemos especificar quais colunas desejamos ler do arquivo excel. Ele aceita uma lista de nomes de colunas. O valor padrão é nenhum". Como os nomes das colunas são encontrados dentro do cabeçalho, o arquivo deve ter um. Caso contrário, apenas defina header = None.

Agora vamos ver como podemos usar esta função para ler um arquivo .xlxs. Consulte o código a seguir.

file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header
Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.