Leia arquivos XLSX usando Python e Pandas

Vaibhav Vaibhav 20 dezembro 2021 Python Python Excel

Pandas é uma biblioteca muito robusta e otimizada que ajuda a lidar com dados de forma eficiente, realizar operações sobre esses dados com facilidade e analisá-los com todos os tipos de plotagens e gráficos. Operações comuns como mesclar, concatenar e remodelar podem ser realizadas facilmente usando o pandas.

Pandas também suporta a leitura de arquivos e armazenamento de dados dentro dos arquivos em vários objetos, como matrizes e DataFrames. Um desses arquivos é .xlsx. Os arquivos .xlsx são arquivos de planilha no formato XML aberto do Microsoft Excel compactados e baseados em XML. Este artigo falará sobre como ler arquivos .xlsx usando o pandas.

Lendo arquivos `.xlsx` usando `pandas` em Python

Para ler arquivos .xlsx usando pandas, podemos usar a função read_excel(). Esta função lê um arquivo excel em um pandas Dataframe. E podemos usar esta função para ler arquivos xlsx, xls, xlsm, xlsb, odf, ods e odt. Como os arquivos do Excel podem conter várias planilhas, esta função pode ler uma única e várias planilhas.

A função read_excel() tem alguns parâmetros. Vamos discutir alguns dos principais.

io: Este parâmetro pode ser str, bytes, ExcelFile, xlrd.Book, path object ou file-like object. É essencialmente o arquivo ou o objeto que deve ser lido. Também se pode passar um caminho de arquivo válido na forma de uma string para este parâmetro.
sheet_name: Este parâmetro pode ser str, int, list ou None. O valor padrão é 0. Como os arquivos do Excel são compostos de planilhas, podemos especificar uma única planilha ou um monte de planilhas para ler. Não podemos apenas usar índices inteiros (2, 0, [1, 3, 7]), mas também nomes de string para especificar as folhas (Sheet1, Sheet3, ["Sheet4", "Sheet5", "Sheet8"]).
header: a linha que deve ser considerada como cabeçalho do arquivo excel. O valor padrão é 0 porque a primeira linha geralmente é o cabeçalho e considera a indexação baseada em zero. Se não houver cabeçalho, defina-o como None.
names: podemos especificar quais colunas desejamos ler do arquivo excel. Ele aceita uma lista de nomes de colunas. O valor padrão é nenhum". Como os nomes das colunas são encontrados dentro do cabeçalho, o arquivo deve ter um. Caso contrário, apenas defina header = None.

Agora vamos ver como podemos usar esta função para ler um arquivo .xlxs. Consulte o código a seguir.

file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header

Está gostando dos nossos tutoriais? Inscreva-se no DelftStack no YouTube para nos apoiar na criação de mais vídeos tutoriais de alta qualidade. Inscrever-se

Autor: Vaibhav Vaibhav

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

Lendo arquivos .xlsx usando pandas em Python

Lendo arquivos `.xlsx` usando `pandas` em Python