Leia arquivos XLSX usando Python e Pandas
 
Pandas é uma biblioteca muito robusta e otimizada que ajuda a lidar com dados de forma eficiente, realizar operações sobre esses dados com facilidade e analisá-los com todos os tipos de plotagens e gráficos. Operações comuns como mesclar, concatenar e remodelar podem ser realizadas facilmente usando o pandas.
Pandas também suporta a leitura de arquivos e armazenamento de dados dentro dos arquivos em vários objetos, como matrizes e DataFrames. Um desses arquivos é .xlsx. Os arquivos .xlsx são arquivos de planilha no formato XML aberto do Microsoft Excel compactados e baseados em XML. Este artigo falará sobre como ler arquivos .xlsx usando o pandas.
Lendo arquivos .xlsx usando pandas em Python
Para ler arquivos .xlsx usando pandas, podemos usar a função read_excel(). Esta função lê um arquivo excel em um pandas Dataframe. E podemos usar esta função para ler arquivos xlsx, xls, xlsm, xlsb, odf, ods e odt. Como os arquivos do Excel podem conter várias planilhas, esta função pode ler uma única e várias planilhas.
A função read_excel() tem alguns parâmetros. Vamos discutir alguns dos principais.
- io: Este parâmetro pode ser- str,- bytes,- ExcelFile,- xlrd.Book,- path objectou- file-like object. É essencialmente o arquivo ou o objeto que deve ser lido. Também se pode passar um caminho de arquivo válido na forma de uma string para este parâmetro.
- sheet_name: Este parâmetro pode ser- str,- int,- listou- None. O valor padrão é- 0. Como os arquivos do Excel são compostos de planilhas, podemos especificar uma única planilha ou um monte de planilhas para ler. Não podemos apenas usar índices inteiros (- 2,- 0,- [1, 3, 7]), mas também nomes de string para especificar as folhas (- Sheet1,- Sheet3,- ["Sheet4", "Sheet5", "Sheet8"]).
- header: a linha que deve ser considerada como cabeçalho do arquivo excel. O valor padrão é- 0porque a primeira linha geralmente é o cabeçalho e considera a indexação baseada em zero. Se não houver cabeçalho, defina-o como- None.
- names: podemos especificar quais colunas desejamos ler do arquivo excel. Ele aceita uma lista de nomes de colunas. O valor padrão é nenhum". Como os nomes das colunas são encontrados dentro do cabeçalho, o arquivo deve ter um. Caso contrário, apenas defina- header = None.
Agora vamos ver como podemos usar esta função para ler um arquivo .xlxs. Consulte o código a seguir.
file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header
