Python: Coleta e organização dos dados com Pandas
python
O pandas é uma das bibliotecas mais populares no ecossistema Python para manipulação e análise de dados. Ele é amplamente utilizado por cientistas de dados, analistas e desenvolvedores que precisam trabalhar com dados de forma eficiente e intuitiva. O principal objetivo desse artigo é que através dos conceitos básicos de coleta e organização de dados usando o pandas, de uma maneira que qualquer iniciante possa entender e aplicar.

E, para facilitar o entendimento, vamos dividir o artigo em três etapas principais:

1. Coletar e carregar dados usando pandas.
2. Limpar e organizar os dados para garantir sua integridade e consistência.
3. Realizar uma análise exploratória básica para entender o conjunto de dados.
Para ilustrar esses conceitos, usaremos um arquivo CSV fictício chamado dados.csv, que contém informações sobre pessoas, como Nome, Idade, Gênero e Salário.

1. Coletando e carregando dados

A primeira etapa ao trabalhar com pandas é carregar dados em um DataFrame, que é uma estrutura de dados bidimensional (como uma planilha ou uma tabela SQL). O pandas facilita a leitura de dados de arquivos CSV, Excel, bancos de dados e outras fontes.
Exemplo de Código:
import pandas as pd # Lendo um arquivo CSV com especificação de codificação df = pd.read_csv('exemplo_dados.csv', encoding='ISO-8859-1') # Mostrando as primeiras 5 linhas do DataFrame print("Dados Carregados:") print(df.head())
O que o código faz:
  • Importa a biblioteca pandas.
  • Lê o arquivo CSV exemplo_dados.csv usando o método read_csv() e especifica a codificação de caracteres (ISO-8859-1) para evitar problemas de leitura.
  • Exibe as primeiras 5 linhas do DataFrame usando head().

2. Limpando e organizando dados

Depois de carregar os dados, geralmente é necessário limpá-los e organizá-los. Isso pode incluir a remoção de valores ausentes, a renomeação de colunas para maior clareza e o filtro de dados com base em critérios específicos.
Exemplo de Código:
# Removendo linhas com valores ausentes df_limpo = df.dropna() # Renomeando a coluna 'Nome' para 'Nome_Completo' df_limpo.rename(columns={'Nome': 'Nome_Completo'}, inplace=True) # Filtrando dados para mostrar apenas pessoas com idade maior que 30 df_filtrado = df_limpo[df_limpo['Idade'] > 30] print("\nDados Limpos e Filtrados:") print(df_filtrado)
O que o código faz:
  • Remove todas as linhas que contêm valores ausentes usando dropna().
  • Renomeia a coluna 'Nome' para 'Nome_Completo' para maior clareza usando rename().
  • Filtra o DataFrame para mostrar apenas as pessoas com idade maior que 30.

3. Análise exploratória de dados

Com os dados organizados, podemos começar a realizar uma análise exploratória para entender melhor o conjunto de dados. Isso pode incluir a geração de estatísticas descritivas, contagem de valores únicos e agregação de dados.
Exemplo de Código:
# Estatísticas descritivas dos dados numéricos estatisticas = df_filtrado.describe() # Contagem de valores únicos na coluna 'Gênero' contagem_genero = df_filtrado['Gênero'].value_counts() # Agrupando dados por 'Gênero' e calculando a média salarial media_salarial = df_filtrado.groupby('Gênero')['Salário'].mean() print("\nEstatísticas Descritivas:") print(estatisticas) print("\nContagem de Gêneros:") print(contagem_genero) print("\nMédia Salarial por Gênero:") print(media_salarial)
O que o Código Faz:
  • Gera estatísticas descritivas para as colunas numéricas, como média, desvio padrão e valores mínimos e máximos, usando describe().
  • Conta o número de ocorrências de cada valor único na coluna 'Gênero' usando value_counts().
  • Agrupa os dados por 'Gênero' e calcula a média salarial para cada grupo usando groupby() e mean().

Resultados Esperados

Após executar o código acima, você verá:
notion image
1. Estatísticas Descritivas: Informações como média, desvio padrão e valores mínimos/máximos para idade e salário.
2. Contagem de Gêneros: Número de pessoas por gênero.
3. Média Salarial por Gênero: Salário médio de cada grupo de gênero.
Esses resultados fornecem uma visão clara dos dados e ajudam a identificar padrões e tendências.
📌
Acesse o código completo aqui 👉 Coleta e organização dos dados com Pandas
Neste artigo, você aprendeu os fundamentos da manipulação de dados com pandas, desde a coleta e carregamento até a limpeza, organização e análise exploratória. O pandas é uma ferramenta poderosa que permite que você transforme e analise dados de maneira eficiente, facilitando a tomada de decisões informadas.
Para continuar explorando o pandas, você pode adicionar visualizações de dados com bibliotecas como Matplotlib e Seaborn, ou integrar os resultados com sistemas de aprendizado de máquina usando bibliotecas como scikit-learn.
 

Aprenda programação do zero e DE GRAÇA

No Discover você vai descomplicar a programação, aprender a criar seu primeiro site com a mão na massa e iniciar sua transição de carreira.

COMECE A ESTUDAR AGORA