Python: Coleta e organização dos dados com Pandas
O pandas é uma das bibliotecas mais populares no ecossistema Python para manipulação e análise de dados. Ele é amplamente utilizado por cientistas de dados, analistas e desenvolvedores que precisam trabalhar com dados de forma eficiente e intuitiva. O principal objetivo desse artigo é que através dos conceitos básicos de coleta e organização de dados usando o pandas, de uma maneira que qualquer iniciante possa entender e aplicar.
E, para facilitar o entendimento, vamos dividir o artigo em três etapas principais:
1. Coletar e carregar dados usando pandas.
2. Limpar e organizar os dados para garantir sua integridade e consistência.
3. Realizar uma análise exploratória básica para entender o conjunto de dados.
Para ilustrar esses conceitos, usaremos um arquivo CSV fictício chamado
dados.csv
, que contém informações sobre pessoas, como Nome, Idade, Gênero e Salário.1. Coletando e carregando dados
A primeira etapa ao trabalhar com pandas é carregar dados em um DataFrame, que é uma estrutura de dados bidimensional (como uma planilha ou uma tabela SQL). O pandas facilita a leitura de dados de arquivos CSV, Excel, bancos de dados e outras fontes.
Exemplo de Código:
import pandas as pd # Lendo um arquivo CSV com especificação de codificação df = pd.read_csv('exemplo_dados.csv', encoding='ISO-8859-1') # Mostrando as primeiras 5 linhas do DataFrame print("Dados Carregados:") print(df.head())
O que o código faz:
- Importa a biblioteca pandas.
- Lê o arquivo CSV
exemplo_dados.csv
usando o métodoread_csv()
e especifica a codificação de caracteres (ISO-8859-1
) para evitar problemas de leitura.
- Exibe as primeiras 5 linhas do DataFrame usando
head()
.
2. Limpando e organizando dados
Depois de carregar os dados, geralmente é necessário limpá-los e organizá-los. Isso pode incluir a remoção de valores ausentes, a renomeação de colunas para maior clareza e o filtro de dados com base em critérios específicos.
Exemplo de Código:
# Removendo linhas com valores ausentes df_limpo = df.dropna() # Renomeando a coluna 'Nome' para 'Nome_Completo' df_limpo.rename(columns={'Nome': 'Nome_Completo'}, inplace=True) # Filtrando dados para mostrar apenas pessoas com idade maior que 30 df_filtrado = df_limpo[df_limpo['Idade'] > 30] print("\nDados Limpos e Filtrados:") print(df_filtrado)
O que o código faz:
- Remove todas as linhas que contêm valores ausentes usando
dropna()
.
- Renomeia a coluna 'Nome' para 'Nome_Completo' para maior clareza usando
rename()
.
- Filtra o DataFrame para mostrar apenas as pessoas com idade maior que 30.
3. Análise exploratória de dados
Com os dados organizados, podemos começar a realizar uma análise exploratória para entender melhor o conjunto de dados. Isso pode incluir a geração de estatísticas descritivas, contagem de valores únicos e agregação de dados.
Exemplo de Código:
# Estatísticas descritivas dos dados numéricos estatisticas = df_filtrado.describe() # Contagem de valores únicos na coluna 'Gênero' contagem_genero = df_filtrado['Gênero'].value_counts() # Agrupando dados por 'Gênero' e calculando a média salarial media_salarial = df_filtrado.groupby('Gênero')['Salário'].mean() print("\nEstatísticas Descritivas:") print(estatisticas) print("\nContagem de Gêneros:") print(contagem_genero) print("\nMédia Salarial por Gênero:") print(media_salarial)
O que o Código Faz:
- Gera estatísticas descritivas para as colunas numéricas, como média, desvio padrão e valores mínimos e máximos, usando
describe()
.
- Conta o número de ocorrências de cada valor único na coluna 'Gênero' usando
value_counts()
.
- Agrupa os dados por 'Gênero' e calcula a média salarial para cada grupo usando
groupby()
emean()
.
Resultados Esperados
Após executar o código acima, você verá:
1. Estatísticas Descritivas: Informações como média, desvio padrão e valores mínimos/máximos para idade e salário.
2. Contagem de Gêneros: Número de pessoas por gênero.
3. Média Salarial por Gênero: Salário médio de cada grupo de gênero.
Esses resultados fornecem uma visão clara dos dados e ajudam a identificar padrões e tendências.
Acesse o código completo aqui 👉 Coleta e organização dos dados com Pandas
Neste artigo, você aprendeu os fundamentos da manipulação de dados com pandas, desde a coleta e carregamento até a limpeza, organização e análise exploratória. O pandas é uma ferramenta poderosa que permite que você transforme e analise dados de maneira eficiente, facilitando a tomada de decisões informadas.
Para continuar explorando o pandas, você pode adicionar visualizações de dados com bibliotecas como Matplotlib e Seaborn, ou integrar os resultados com sistemas de aprendizado de máquina usando bibliotecas como scikit-learn.