Fazendo um LLM do Zero — Sessão 05: Ensinando o Modelo a Falar (A Escola da Probabilidade) 🎓🗣️
Imagine que você acabou de construir um robô perfeito. Ele tem corpo, cérebro eletrônico e cordas vocais sintéticas. Mas quando você o liga, ele diz: “Asdfjkl çlxzkcvb”.
Frustrante? Não, esperado.
Na Sessão 04, nós construímos o corpo do GPT. Ele tem todas as conexões neurais necessárias, mas não tem conhecimento. Ele é como um recém-nascido: tem potencial infinito, mas ainda não viu o mundo.
Na Sessão 05, entramos na fase mais mágica e demorada de todas: o Pré-Treinamento. É hora de mandar nosso modelo para a escola. E, como Sebastian Raschka explica no Capítulo 5 de seu livro, essa escola não usa gramática ou dicionários. Ela usa estatística pura.
1. O Loop Infinito: Tentar, Errar, Ajustar
Como se ensina uma máquina que não pensa?
Simples: você a força a adivinhar milhões de vezes e corrige cada erro.
O ciclo de vida de um LLM no treinamento é uma rotina repetitiva e exaustiva, parecida com um estudante fazendo simulados sem parar:
1. O modelo recebe: “Era uma vez um…”
2. Ele chuta: “..microondas.” ❌
3. Nós dizemos: “Errado! Era ‘dragão’.”
4. O algoritmo (Backpropagation) ajusta os neurônios do modelo para que, da próxima vez, a probabilidade de “dragão” seja um pouquinho maior e a de “microondas” seja menor.
Multiplique isso por bilhões de frases e o modelo deixa de chutar “microondas” em contos de fadas.
2. A Régua do Erro: Cross Entropy
Mas como medimos o “tamanho” do erro?
Se o modelo chutar “cachorro” em vez de “gato”, o erro é pequeno (são animais parecidos). Se ele chutar “avião”, o erro é enorme.
Para medir essa distância matemática, usamos a Cross Entropy (Entropia Cruzada).
Ela é a professora rigorosa que dá uma nota para cada tentativa do modelo. O objetivo do treino é simples: fazer essa nota de erro (Loss) cair até chegar perto de zero.
3. O Ritmo da Escola: Batches e Epochs
Join Medium for free to get updates from this writer.
Não dá para o modelo ler a internet inteira de uma vez. Ele engasgaria.
Por isso, dividimos o estudo em pequenos pedaços chamados Batches (lotes). E quando ele termina de ver todos os dados uma vez, dizemos que completou uma Epoch (época).
É um processo industrial. Entra texto, sai erro, ajusta pesos. Repete. Repete. Repete. Até que a mágica da inteligência comece a emergir dos números.
4. O Dilema da Criatividade: Como o Modelo Escolhe?
Depois de treinado, o modelo não dá uma resposta. Ele dá probabilidades para todas as palavras do mundo.
Quem escolhe a palavra final? Nós, através da Estratégia de Decodificação (Decoding Strategy).
Isso define a personalidade do modelo:
Greedy (Ganancioso): Sempre escolhe a palavra mais provável. O modelo fica chato, repetitivo e robótico. 🤖
Temperature / Top-k: Nós adicionamos um pouco de caos controlado. O modelo arrisca palavras menos óbvias e se torna criativo. 🎨
5. Salvando o Cérebro: Checkpoints
Treinar um LLM é caro e demorado. Se a luz acabar no meio do processo, você perde dias de trabalho.
Por isso, aprendemos a importância vital dos Checkpoints: salvar uma “cópia de segurança” do cérebro do modelo a cada etapa importante.
🚀 Mão na Massa
Na Sessão 05, o nosso notebook deixa de ser estático. Nós implementamos o loop de treinamento real. Vemos a barra de progresso avançar e a curva de erro cair (o gráfico mais satisfatório para um cientista de dados!).
Nós pegamos o nosso GPTMini, alimentamos ele com texto e vimos ele aprender a formar suas primeiras frases coerentes.
Quer ver o momento exato em que a máquina aprende a escrever?
👇 Acesse o laboratório:
📓 Notebook no Google Colab:Treinar Modelo na Sessão 05
📂 Repositório GitHub:vongrossi/fazendo-um-llm-do-zero
Agora nosso modelo sabe falar. Mas ele sabe o que fazer? Na próxima sessão, vamos ensinar uma profissão para ele com o Fine-Tuning. 🎯👨⚕️





Top comments (0)