Leia arquivos XLSX usando Python e Pandas
Pandas é uma biblioteca muito robusta e otimizada que ajuda a lidar com dados de forma eficiente, realizar operações sobre esses dados com facilidade e analisá-los com todos os tipos de plotagens e gráficos. Operações comuns como mesclar, concatenar e remodelar podem ser realizadas facilmente usando o pandas.
Pandas também suporta a leitura de arquivos e armazenamento de dados dentro dos arquivos em vários objetos, como matrizes e DataFrames. Um desses arquivos é .xlsx. Os arquivos .xlsx são arquivos de planilha no formato XML aberto do Microsoft Excel compactados e baseados em XML. Este artigo falará sobre como ler arquivos .xlsx usando o pandas.
Lendo arquivos .xlsx usando pandas em Python
Para ler arquivos .xlsx usando pandas, podemos usar a função read_excel(). Esta função lê um arquivo excel em um pandas Dataframe. E podemos usar esta função para ler arquivos xlsx, xls, xlsm, xlsb, odf, ods e odt. Como os arquivos do Excel podem conter várias planilhas, esta função pode ler uma única e várias planilhas.
A função read_excel() tem alguns parâmetros. Vamos discutir alguns dos principais.
io: Este parâmetro pode serstr,bytes,ExcelFile,xlrd.Book,path objectoufile-like object. É essencialmente o arquivo ou o objeto que deve ser lido. Também se pode passar um caminho de arquivo válido na forma de uma string para este parâmetro.sheet_name: Este parâmetro pode serstr,int,listouNone. O valor padrão é0. Como os arquivos do Excel são compostos de planilhas, podemos especificar uma única planilha ou um monte de planilhas para ler. Não podemos apenas usar índices inteiros (2,0,[1, 3, 7]), mas também nomes de string para especificar as folhas (Sheet1,Sheet3,["Sheet4", "Sheet5", "Sheet8"]).header: a linha que deve ser considerada como cabeçalho do arquivo excel. O valor padrão é0porque a primeira linha geralmente é o cabeçalho e considera a indexação baseada em zero. Se não houver cabeçalho, defina-o comoNone.names: podemos especificar quais colunas desejamos ler do arquivo excel. Ele aceita uma lista de nomes de colunas. O valor padrão é nenhum". Como os nomes das colunas são encontrados dentro do cabeçalho, o arquivo deve ter um. Caso contrário, apenas definaheader = None.
Agora vamos ver como podemos usar esta função para ler um arquivo .xlxs. Consulte o código a seguir.
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header
