Inteligência Artificial modelos de ia overfitting Como treinar modelos de ia IA

Otimização de modelos de IA: evite overfitting agora mesmo

Rocketseat

5 min de leitura

Navegação Rápida:

O que é overfitting, underfitting e balanced fit?

Técnicas essenciais para reduzir overfitting

Conclusão

Já treinou um modelo de IA que parecia perfeito nos seus testes, mas falhou miseravelmente em produção? Você não está sozinho! O overfitting é um dos maiores desafios para desenvolvedores de IA, mas a boa notícia é que existem soluções eficazes. Neste guia, você aprenderá técnicas essenciais para otimizar seus modelos, reduzir o overfitting e turbinar o desempenho dos seus projetos. Tudo isso com exemplos práticos em Python que você pode aplicar agora mesmo!

Cérebro digital abstrato com efeitos luminosos, representando o aprendizado de máquina e o processamento de dados na Inteligência Artificial.

O que é overfitting, underfitting e balanced fit?

Imagine ensinar um cachorro a reconhecer gatos. Se você mostrar apenas fotos de gatos siameses, ele provavelmente não reconheceria outras raças. Isso é overfitting: o modelo aprende tão bem os detalhes específicos dos dados de treinamento que falha ao generalizar para novos dados.

Por outro lado, se você mostrar pouquíssimas fotos de gatos, de qualquer raça, o cachorro pode ter dificuldade em identificar qualquer gato. Isso é underfitting: o modelo é simples demais para capturar a complexidade dos dados.

O ideal é encontrar o ajuste balanceado (ou balanced fit): mostrar uma variedade suficiente de gatos, de diferentes raças e poses, para que o cachorro aprenda a identificar as características essenciais de um gato, sem se prender a detalhes irrelevantes.

Gráfico ilustrando os três cenários de ajuste de um modelo de machine learning: underfitting (linha reta), ajuste ideal (curva suave) e overfitting (curva irregular). Fonte: AWS Machine Learning Documentation.

Técnicas essenciais para reduzir overfitting

1. Regularização L1 e L2

Imagine que você está construindo um castelo de cartas. Quanto mais alto e complexo ele for, maior a chance de desabar. Com modelos de machine learning, acontece algo parecido: modelos muito complexos, com muitos parâmetros (pesos), tendem a se ajustar demais aos dados de treinamento (overfitting) e falhar em dados novos.

A regularização é como uma regra que você impõe na construção do castelo: "Para cada andar extra, você precisa usar cartas mais leves". Essa regra evita que o castelo fique grande demais e desmorone. Em machine learning, a regularização adiciona uma penalidade à função de custo do modelo. A função de custo mede o quão "errado" o modelo está. A penalidade aumenta quanto maiores forem os pesos do modelo.

Função de custo (sem regularização): mede o erro do modelo nos dados de treinamento.

Função de custo (com regularização): erro do modelo + penalidade pelos pesos grandes.

O modelo, ao tentar minimizar a função de custo total, precisa encontrar um equilíbrio: ajustar-se bem aos dados, mas sem usar pesos muito grandes.

L1 (Lasso) vs. L2 (Ridge): a diferença na penalidade

A diferença entre L1 e L2 está no tipo de penalidade:

L1 (Lasso): penaliza o valor absoluto dos pesos. É como dizer: "Para cada andar extra, você precisa usar algumas cartas muito leves, quase transparentes". Essa penalidade forte pode zerar alguns pesos, o que é equivalente a remover cartas do castelo. Isso torna o modelo mais simples e seleciona automaticamente as características (features) mais importantes (as que têm pesos diferentes de zero).

L2 (Ridge): penaliza o quadrado dos pesos. É como dizer: "Para cada andar extra, tente usar cartas um pouco mais leves". Essa penalidade é mais suave e distribui a penalidade entre todos os pesos, reduzindo seus valores, mas raramente zerando-os completamente.

Exemplo em Python:


from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_regression
import numpy as np
import matplotlib.pyplot as plt

# Gerar um conjunto de dados sintético com múltiplas features
X, y = make_regression(n_samples=200, n_features=10, noise=15, random_state=42)

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalonar os dados (boa prática essencial para regularização)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Treinar modelos
modelo_sem = LinearRegression().fit(X_train_scaled, y_train)
modelo_l1 = Lasso(alpha=0.5).fit(X_train_scaled, y_train)
modelo_l2 = Ridge(alpha=0.5).fit(X_train_scaled, y_train)

# Comparar coeficientes
coeficientes = np.vstack([
    modelo_sem.coef_,
    modelo_l1.coef_,
    modelo_l2.coef_
])

# Visualizar o impacto das regularizações nos coeficientes
plt.figure(figsize=(12, 6))
x = np.arange(coeficientes.shape[1])
largura_barra = 0.25

plt.bar(x - largura_barra, coeficientes[0], largura_barra, label='Sem Regularização')
plt.bar(x, coeficientes[1], largura_barra, label='L1 (Lasso)')
plt.bar(x + largura_barra, coeficientes[2], largura_barra, label='L2 (Ridge)')

plt.xlabel('Índice das Features')
plt.ylabel('Valor dos Coeficientes')
plt.title('Comparação dos Coeficientes com Regularização (L1 e L2)')
plt.xticks(x)
plt.legend()
plt.grid(axis='y')
plt.tight_layout()
plt.show()

# Exibir coeficientes numericamente para maior clareza
print("Coeficientes (Sem Regularização):", modelo_sem.coef_)
print("Coeficientes (L1 - Lasso):", modelo_l1.coef_)
print("Coeficientes (L2 - Ridge):", modelo_l2.coef_)

Esse código gera dados artificiais para treinar três modelos de regressão linear:

Sem Regularização

Regularização L1 (Lasso)

Regularização L2 (Ridge)

Ele divide os dados em treino e teste, aplica escalonamento (uma boa prática importante) e compara como cada técnica afeta os coeficientes do modelo:

A L1 (Lasso) zera coeficientes menos importantes, ajudando na seleção de variáveis.

A L2 (Ridge) diminui os coeficientes, evitando que o modelo se ajuste excessivamente aos dados.

Por fim, o código exibe graficamente e numericamente essas diferenças, ilustrando claramente como essas técnicas ajudam a evitar o overfitting.

👉

Teste agora no Google Colab! Basta copiar e colar o código em um novo notebook no Google Colab e clicar em executar!

2. Dropout

O Dropout é uma técnica poderosa para combater o overfitting em redes neurais profundas. Ele funciona "desligando" aleatoriamente neurônios durante o treinamento. Mas por que isso é útil?

Imagine um time de futebol onde, durante os treinos, o técnico decide aleatoriamente quais jogadores ficarão de fora de cada jogada. Isso força os jogadores restantes a se adaptarem e a trabalharem melhor em conjunto, evitando que o time se torne excessivamente dependente de um único craque. Além disso, cada jogador precisa desenvolver a capacidade de jogar em diferentes posições e com diferentes companheiros de equipe.

O Dropout faz algo semelhante com os neurônios de uma rede neural. Ao desativar aleatoriamente uma porcentagem dos neurônios em cada etapa do treinamento, ele impede que a rede se vicie em padrões específicos dos dados de treinamento. Cada neurônio precisa aprender a ser útil independentemente dos outros, o que torna a rede mais robusta e capaz de generalizar para novos dados.

Ilustração do efeito do Dropout em uma rede neural. À esquerda, a rede completa antes do Dropout; à direita, a rede com neurônios desativados aleatoriamente (Dropout).

Exemplo com TensorFlow/Keras:


import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.datasets import mnist
import matplotlib.pyplot as plt

# 🔹 Carregar o conjunto de dados MNIST (imagens de dígitos 0-9)
(X_train, y_train), (X_test, y_test) = mnist.load_data()

# 🔹 Normalizar os dados (para valores entre 0 e 1)
X_train, X_test = X_train / 255.0, X_test / 255.0

# 🔹 Achatando as imagens (de 28x28 para 784 pixels)
X_train = X_train.reshape(-1, 784)
X_test = X_test.reshape(-1, 784)

# 🔹 Criando o modelo com Dropout para evitar overfitting
modelo = keras.Sequential([
    Dense(128, activation='relu', input_shape=(784,)),  # Camada oculta com ReLU
    Dropout(0.5),  # Desativa 50% dos neurônios durante o treinamento
    Dense(10, activation='softmax')  # Camada de saída com 10 classes
])

# 🔹 Compilar o modelo (define otimização e função de perda)
modelo.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 🔹 Treinar o modelo por 10 épocas
history = modelo.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))

# 🔹 Avaliar o modelo no conjunto de teste
loss, accuracy = modelo.evaluate(X_test, y_test)
print(f"\n🔹 Acurácia no conjunto de teste: {accuracy:.4f}")

# 🔹 Plotar gráfico do histórico de treinamento
plt.plot(history.history['accuracy'], label='Acurácia Treino')
plt.plot(history.history['val_accuracy'], label='Acurácia Validação')
plt.xlabel('Épocas')
plt.ylabel('Acurácia')
plt.title('Impacto do Dropout no Treinamento')
plt.legend()
plt.show()

Este código constrói uma rede neural usando TensorFlow/Keras para classificar imagens do conjunto MNIST (dígitos manuscritos). Ele normaliza e achata as imagens, aplica uma camada oculta seguida de Dropout (para evitar overfitting ao desativar aleatoriamente parte dos neurônios durante o treinamento), e então treina o modelo por 10 épocas. Ao final, ele avalia a performance no conjunto de teste e exibe um gráfico comparando a evolução da acurácia em treino e validação, mostrando claramente o efeito positivo do Dropout.

👉

Teste agora no Google Colab! Basta copiar e colar o código em um novo notebook no Google Colab e clicar em executar!

3. Early stopping

Early stopping é como parar de estudar quando você percebe que já absorveu todo o conteúdo necessário. Ele interrompe o treinamento quando o desempenho deixa de melhorar.

Exemplo com gráfico em TensorFlow/Keras:


import numpy as np
import matplotlib.pyplot as plt
from tensorflow import keras
from tensorflow.keras.layers import Dense

# Gerando dados sintéticos
np.random.seed(42)
X_train = np.random.rand(100, 1) * 10
y_train = 2.5 * X_train + np.random.randn(100, 1) * 2

X_val = np.random.rand(20, 1) * 10  # Conjunto de validação
y_val = 2.5 * X_val + np.random.randn(20, 1) * 2

# Criando um modelo simples de rede neural
modelo = keras.Sequential([
    Dense(10, activation='relu', input_shape=(1,)), 
    Dense(1)  # Camada de saída para regressão
])

# Compilando o modelo
modelo.compile(optimizer='adam', loss='mse')

# Configurando Early Stopping
early_stopping = keras.callbacks.EarlyStopping(
    monitor='val_loss', 
    patience=10, 
    restore_best_weights=True
)

# Treinando o modelo
history = modelo.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=100, callbacks=[early_stopping])

# Plotando histórico de treinamento
plt.plot(history.history['loss'], label='Treino')
plt.plot(history.history['val_loss'], label='Validação')
plt.xlabel('Época')
plt.ylabel('Perda (Loss)')
plt.title('Early Stopping em Ação')
plt.legend()
plt.show()

Este código treina uma rede neural simples em Keras para um problema de regressão e utiliza Early Stopping para evitar overfitting. Ele gera dados sintéticos, define um modelo com uma camada oculta, treina usando Adam e MSE, e interrompe automaticamente o treinamento se a perda na validação parar de melhorar. No final, exibe um gráfico mostrando a evolução da perda.

👉

Teste agora no Google Colab! Basta copiar e colar o código em um novo notebook no Google Colab e clicar em executar!

4. Ajuste de hiperparâmetros

Encontrar os hiperparâmetros ideais, como taxa de aprendizado (learning rate), profundidade de árvores e quantidade de camadas, é crucial. Uma taxa muito alta pode impedir o modelo de convergir corretamente, enquanto uma muito baixa pode tornar o treinamento muito lento ou ficar preso em mínimos locais. A busca por hiperparâmetros pode ajudar a encontrar esses valores ideais automaticamente.

Exemplo com Grid Search (scikit-learn):


from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

# 🔹 Carregar um conjunto de dados (dígitos escritos à mão - MNIST reduzido)
digits = load_digits()
X, y = digits.data, digits.target

# 🔹 Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 🔹 Definir a grade de hiperparâmetros para testar
parametros = {
    'n_estimators': [100, 200],  # Número de árvores na floresta
    'max_depth': [5, 10]  # Profundidade máxima das árvores
}

# 🔹 Criar o modelo Random Forest com busca de hiperparâmetros
modelo = GridSearchCV(RandomForestClassifier(), parametros, cv=5, scoring='accuracy')
modelo.fit(X_train, y_train)  # Treinar o modelo testando os hiperparâmetros

# 🔹 Exibir os melhores hiperparâmetros e a melhor pontuação encontrada
print("🔹 Melhores hiperparâmetros:", modelo.best_params_)
print("🔹 Melhor score:", modelo.best_score_)

# 🔹 Avaliar o melhor modelo encontrado no conjunto de teste
melhor_modelo = modelo.best_estimator_
acuracia_teste = melhor_modelo.score(X_test, y_test)
print(f"\n🔹 Acurácia no conjunto de teste: {acuracia_teste:.4f}")

Este código utiliza Grid Search para encontrar os melhores hiperparâmetros de um modelo Random Forest. Ele testa diferentes configurações (número de árvores e profundidade máxima) e escolhe a melhor combinação usando validação cruzada.

👉

Teste agora no Google Colab! Basta copiar e colar o código em um novo notebook no Google Colab e clicar em executar!

Conclusão

Dominar a otimização de modelos é essencial para qualquer projeto de IA. Regularização, dropout, early stopping e ajuste de hiperparâmetros são técnicas que previnem o overfitting e elevam seu desempenho.

Experimente aplicar essas técnicas em um dos seus projetos e compartilhe os resultados em nossa comunidade! Qual técnica achou mais interessante?

🚀

Quer se aprofundar ainda mais e virar especialista em IA? Conheça a Formação em Inteligência Artificial da Rocketseat com aulas práticas, desafios reais e suporte de uma comunidade apaixonada por tecnologia.

Artigos_