Fazendo um LLM do Zero — Sessão 04: A Arquitetura da Mente (Construindo o Corpo do GPT) 🏗️🤖

#llms #python #genai #gpt

Fazendo um LLM do Zero — Sessão 04: A Arquitetura da Mente (Construindo o Corpo do GPT) 🏗️🤖 Até agora, nossa jornada foi sobre coletar os materiais básicos.

Aprendemos a transformar palavras em números.

Entendemos como a Atenção permite que esses números se conectem.

Mas ter tijolos e cimento não é o mesmo que ter uma casa. Você precisa de uma planta, de engenharia e de estrutura.

Na Sessão 04, deixamos de olhar para as peças isoladas e começamos a construir o edifício. É aqui que o GPT deixa de ser uma ideia matemática e se torna um modelo funcional. Como Sebastian Raschka detalha no Capítulo 4 de seu livro Build a Large Language Model (From Scratch), o segredo da inteligência desses modelos não está em uma única peça mágica, mas na forma como empilhamos blocos simples de forma repetitiva e organizada.

1. O Bloco Fundamental: O Módulo Transformer

Um GPT não é uma massa única de código. Ele é modular. Imagine que estamos construindo um arranha-céu onde cada andar é idêntico. Se você souber construir um andar perfeitamente, você pode construir cem.

No mundo dos LLMs, esse andar é o Bloco Transformer.

Cada um bloco desses contém os órgãos vitais do modelo: a Atenção (para olhar o contexto) e a Rede Feedforward (para processar o que viu).

2. A Esteira de Produção (O Fluxo de Dados)

Quando um token entra no modelo, ele não é processado de qualquer jeito. Existe uma ordem rigorosa. Como Sebastian Raschka descreve, a informação passa por uma espécie de esteira de produção dentro de cada bloco.

A informação entra, é refinada pela atenção, estabilizada por normalizações, processada pela rede neural e entregue para o próximo bloco. Esse fluxo garante que o modelo não se perca no meio do caminho.

3. A Refinaria de Conhecimento (Feedforward Network)

Se a Atenção é o “olhar” do modelo, a rede Feedforward é o pensar.

Enquanto a Atenção decide quais palavras são importantes entre si, a rede Feedforward processa cada palavra individualmente para extrair significados mais profundos.

É como se a Atenção trouxesse as matérias-primas e a Feedforward fosse a refinaria que transforma aquilo em conhecimento útil.

Join Medium for free to get updates from this writer.

4. Redes de Segurança: Residuais e Normalização

Aqui entra um problema real de engenharia: quando empilhamos muitos blocos (como os 12 blocos do GPT-2 ou os 96 do GPT-3), a matemática pode começar a quebrar. Os números podem ficar grandes demais ou pequenos demais, e o modelo para de aprender.

Para resolver isso, usamos dois truques essenciais que Sebastian Raschka explora em seu livro:

1. Conexões Residuais: Atalhos que permitem que a informação original pule camadas, garantindo que nada importante seja esquecido.

2. Layer Normalization: Uma técnica que mantém os números em uma escala saudável, como um regulador de voltagem que impede um curto-circuito.

5. O Pipeline Completo: Nasce um GPT

Juntando tudo — os embeddings que vimos na Sessão 02, a Atenção da Sessão 03 e os blocos que montamos agora — temos finalmente o pipeline completo de um modelo GPT.

O modelo recebe tokens, adiciona a noção de posição, passa por vários blocos de processamento e, no final, entrega uma lista de probabilidades:

Qual é a próxima palavra mais provável?

🚀 Do Papel para o Código

Nesta Sessão 04, nosso trabalho no notebook foi de Arquiteto de Sistemas. Nós implementamos:

A classe TransformerBlock unindo Atenção e Feedforward.

A lógica de LayerNorm e conexões residuais.

O modelo GPTMini, que é o nosso cérebro completo pronto para ser treinado.

É um momento marcante: pela primeira vez, temos um modelo que, embora ainda não saiba falar (ele ainda não foi treinado!), já tem toda a estrutura física para aprender qualquer linguagem do mundo.

Quer ver como essas peças se encaixam no PyTorch?

👇 Acesse o laboratório prático:

📓 Notebook no Google Colab:Rodar Sessão 04

📂 Repositório GitHub:vongrossi/fazendo-um-llm-do-zero

Agora o corpo está pronto. Na próxima sessão, vamos dar um sopro de vida: O Pré-treinamento. ⚡📖