Guia Técnico: Desenvolvendo agentes de IA com Python

Paulo Clemente

2 min de leitura

Os agentes de IA (Inteligência Artificial) são entidades autônomas que percebem seu ambiente, processam informações e executam ações para alcançar objetivos específicos. Eles são amplamente utilizados em diversas áreas, como assistentes virtuais, veículos autônomos, robótica, jogos e aplicações financeiras. Esses agentes podem variar em complexidade, desde simples sistemas baseados em regras até sofisticados modelos de aprendizado de máquina que se adaptam com base em experiências passadas.

Neste guia técnico, você aprenderá a desenvolver agentes de IA utilizando Python, começando com conceitos básicos e evoluindo para a implementação de agentes que utilizam técnicas de aprendizado por reforço. Em cada etapa, avaliaremos o desempenho do agente para observar as melhorias obtidas.

Antes de tudo você precisa intalas as ferramentas:


!pip install gym numpy

Passo 1: Compreendendo o Ambiente

Um agente de IA interage com um ambiente definido por estados, ações e recompensas. Vamos utilizar o OpenAI Gym, uma biblioteca que fornece uma variedade de ambientes prontos para treinamento de agentes. Neste exemplo, usaremos o ambiente CartPole-v1, onde o objetivo do agente é equilibrar um pêndulo em cima de um carrinho em movimento.


import gym

# Criando o ambiente
env = gym.make('CartPole-v1')
state = env.reset()

print("Estado inicial:", state)

O que esse código faz:

Importa a biblioteca gym.

Cria o ambiente CartPole-v1, onde o agente tentará manter o pêndulo equilibrado.

Reseta o ambiente para o estado inicial e imprime esse estado.

Passo 2: Implementando um Agente Aleatório

Começamos criando um agente básico que executa ações aleatórias, sem qualquer inteligência. Esse agente servirá como ponto de referência para as melhorias subsequentes.


# Avaliação do agente aleatório
total_rewards = []
for episode in range(100):
    state = env.reset()
    total_reward = 0

    for _ in range(1000):
        action = env.action_space.sample()  # Ação aleatória
        state, reward, done, info = env.step(action)
        total_reward += reward

        if done:
            break

    total_rewards.append(total_reward)

average_reward = np.mean(total_rewards)
print(f"Recompensa média do agente aleatório: {average_reward}")
env.close()

O que esse código faz:

O agente executa ações aleatórias em 100 episódios.

Calcula e imprime a recompensa média do agente aleatório.

Resultados Esperados:

A recompensa média do agente aleatório será baixa, refletindo a falta de inteligência no processo de tomada de decisões.

📌

Acesse e teste o código aqui 👉 Agente Simples Aleatório

Passo 3: Agora vamos criar um Agente baseado em regras

Agora, vamos implementar um agente que usa uma política simples: mover o carrinho para a esquerda se o pêndulo inclinar para a esquerda, e para a direita se inclinar para a direita. Essa abordagem é chamada de política baseada em regras.


def basic_policy(state):
    angle = state[2]  # O terceiro valor do estado é o ângulo do pêndulo
    return 0 if angle < 0 else 1  # Retorna 0 (esquerda) se o ângulo for negativo, caso contrário, 1 (direita)

# Avaliação do agente baseado em regras
total_rewards = []
for episode in range(100):
    state = env.reset()
    total_reward = 0

    for _ in range(1000):
        action = basic_policy(state)  # Política baseada em regras
        state, reward, done, info = env.step(action)
        total_reward += reward

        if done:
            break

    total_rewards.append(total_reward)

average_reward = np.mean(total_rewards)
print(f"Recompensa média do agente baseado em regras: {average_reward}")
env.close()

O que esse código faz:

Define uma política simples onde o agente se move para a direção oposta da inclinação do pêndulo.

Avalia o agente ao longo de 100 episódios e imprime a recompensa média.

Resultados Esperados:

A recompensa média deve ser maior do que a do agente aleatório, mostrando que decisões simples baseadas em regras podem melhorar o desempenho.

📌

Acesse e teste o código aqui 👉 Agente baseado em regras

Passo 4: Desenvolvendo um Agente inteligente com Q-Learning

Finalmente, vamos implementar um agente que aprende usando Q-Learning, uma técnica de aprendizado

Q-Learning é uma técnica de aprendizado por reforço onde o agente aprende a tomar decisões baseadas na maximização da recompensa a longo prazo. Diferente do agente baseado em regras, um agente com Q-Learning não segue regras fixas, mas sim aprende uma política de ações com base em experiências passadas.

Conceitos Fundamentais de Q-Learning

Q-Table: É uma tabela onde cada linha representa um estado e cada coluna uma ação. O valor na interseção entre um estado e uma ação (valor Q) representa a recompensa esperada se a ação for tomada naquele estado.

Atualização da Q-Table: Após cada ação, a Q-Table é atualizada com base na recompensa recebida e na estimativa da recompensa futura.

Como o espaço de estados no CartPole-v1 é contínuo, precisamos discretizar esses estados para aplicar Q-Learning.


import numpy as np

# Configurações do ambiente e Q-Learning
env = gym.make('CartPole-v1')
n_actions = env.action_space.n

# Discretização dos espaços de estado
state_bins = [
    np.linspace(-4.8, 4.8, 10),  # bins para a posição do carrinho
    np.linspace(-4, 4, 10),      # bins para a velocidade do carrinho
    np.linspace(-0.418, 0.418, 10),  # bins para o ângulo do pêndulo
    np.linspace(-4, 4, 10)       # bins para a velocidade angular do pêndulo
]

# Inicializando a Q-table
q_table = np.zeros([10, 10, 10, 10, n_actions])

# Hiperparâmetros
alpha = 0.1  # Taxa de aprendizado
gamma = 0.99  # Fator de desconto
epsilon = 0.1  # Fator de exploração

def discretize_state(state, state_bins):
    """Converte um estado contínuo em um índice discreto."""
    state_idx = []
    for i in range(len(state)):
        state_idx.append(np.digitize(state[i], state_bins[i]) - 1)
    return tuple(state_idx)

# Treinando o agente usando Q-Learning
for episode in range(100):
    state = discretize_state(env.reset(), state_bins)
    total_reward = 0

    for _ in range(1000):
        if np.random.rand() < epsilon:
            action = env.action_space.sample()  # Escolhe ação aleatória (exploração)
        else:
            action = np.argmax(q_table[state])  # Escolhe ação com melhor valor Q (exploração)

        next_state, reward, done, info = env.step(action)
        next_state = discretize_state(next_state, state_bins)

        # Atualização da Q-table
        q_value = q_table[state][action]
        max_q_value_next = np.max(q_table[next_state])
        new_q_value = q_value + alpha * (reward + gamma * max_q_value_next - q_value)
        q_table[state][action] = new_q_value

        state = next_state
        total_reward += reward

        if done:
            break

    print(f"Episódio {episode + 1}: Recompensa Total = {total_reward}")

env.close()

# Avaliação do agente treinado com Q-Learning
total_rewards = []
for episode in range(100):
    state = discretize_state(env.reset(), state_bins)
    total_reward = 0

    for _ in range(1000):
        action = np.argmax(q_table[state])
        next_state, reward, done, info = env.step(action)
        state = discretize_state(next_state, state_bins)
        total_reward += reward

        if done:
            break

    total_rewards.append(total_reward)

average_reward = np.mean(total_rewards)
print(f"Recompensa média do agente treinado com Q-Learning: {average_reward}")
env.close()

O que esse código faz:

Discretiza o espaço de estados contínuos em bins.

Treina o agente utilizando Q-Learning, atualizando a Q-table ao longo dos episódios.

Avalia o agente treinado ao longo de 100 episódios e imprime a recompensa média.

Resultados Esperados:

O agente treinado com Q-Learning deve apresentar uma recompensa média significativamente maior, indicando que ele aprendeu a maximizar as recompensas ao longo do tempo.

📌

Acesse e teste o código aqui 👉 Agente Q-Learning