A Mecânica dos LLM
Teoria, Arquitetura e Prática para o Engenheiro

Edições (idiomas)
- Français : Édition française
- English : English edition
- Español : Edición en español
- Português (Brasil) : Edição em português (Brasil)
- العربية : الترجمة العربية
Por que este livro?
Engenheiro e Diretor de Sistemas de Informação, o autor adota uma abordagem de arquitetura e decisão: não apenas “o que faz” um modelo, mas “como” e “sob quais condições” ele se integra em um sistema de informação.
Desde o surgimento dos Transformers, a inteligência artificial passou por uma ruptura importante. Não é mais uma caixa preta misteriosa, é uma arquitetura de engenharia compreensível.
Este livro disseca os LLMs com o mesmo rigor de uma arquitetura de computação complexa. Sem promessas mágicas: princípios, equações e código executável, com um olhar assumido de decisor de TI.
Visão geral: 15 capítulos progressivos
Parte I: Fundamentos (Capítulos 1-3)
As bases matemáticas e arquiteturais
Cap. 1 - Introdução ao Processamento de Linguagem Natural
- NLP clássico vs abordagens modernas
- Paradigma de predição de sequências
Cap. 2 - Representação de Texto e Modelos Sequenciais
- Tokenização (BPE, WordPiece, SentencePiece)
- Embeddings e representações vetoriais
- Modelos RNN, LSTM, GRU
Cap. 3 - Arquitetura Transformer
- Self-attention: fórmula, intuição, cálculos
- Multi-head attention e suas vantagens
- Normalização (LayerNorm) e Conexões Residuais
Parte II: Arquitetura e Otimização (Capítulos 4-8)
Construir e treinar em grande escala
Cap. 4 - Modelos Derivados do Transformer
- BERT, GPT, T5: arquiteturas e aplicações
- Vision Transformers (ViT)
Cap. 5 - Otimizações Arquiteturais
- Atenção linear e aproximações
- Key-Value Cache e inferência eficiente
Cap. 6 - Arquitetura Mixture-of-Experts (MoE)
- Algoritmos de roteamento
- Leis de escala com MoE
Cap. 7 - Pré-treinamento de LLMs
- Objetivos de pré-treinamento
- Dados, tokenização e funções de perda
- Leis de escala: computação vs dados vs tamanho do modelo
Cap. 8 - Otimizações de Treinamento
- Gradient checkpointing e activation checkpointing
- Distributed training: DDP, FSDP
- Otimizadores: Adam, AdamW, variações modernas
Parte III: Aprendizado e Alinhamento (Capítulos 9-12)
De modelo bruto a assistente útil
Cap. 9 - Ajuste Fino Supervisionado (SFT)
- Instruction tuning
- LoRA e QLoRA: redução de parâmetros
- Fine-tuning eficiente em recursos
Cap. 10 - Alinhamento com Preferências Humanas
- RLHF (Reinforcement Learning from Human Feedback)
- Modelos de recompensa e seus desafios
- Preferências implícitas vs explícitas
Cap. 11 - Estratégias de Geração e Inferência
- Sampling, Temperatura, Top-k, Top-p
- Beam search e geração guiada
- Processadores de logits e restrições
Cap. 12 - Modelos de Raciocínio
- Chain-of-Thought (CoT)
- Tree-of-Thought (ToT)
- Self-consistency e votação por maioria
Parte IV: Ecossistema Agêntico (Capítulos 13-15)
Implantação e uso autônomo
Cap. 13 - Sistemas Aumentados e RAG
- Retrieval-Augmented Generation
- Bancos de dados vetoriais e busca por similaridade
- Estratégias de chunking e indexação
Cap. 14 - Protocolos Padrão Agênticos (MCP)
- Model Context Protocol
- Chamadas de ferramentas e definições de funções
- Loops de agentes e orquestração
Cap. 15 - Avaliação Crítica de Fluxos Agênticos
- Métricas de qualidade (BLEU, ROUGE, BERTScore)
- Frameworks de avaliação
- Limitações e alucinações
Recursos incluídos
9 Scripts Python Executáveis
Todos os conceitos teóricos são ilustrados com código funcional:
- 01_tokenization_embeddings.py — Tokenização e vetores
- 02_multihead_attention.py — Self-attention em detalhe
- 03_temperature_softmax.py — Sampling e temperatura
- 04_rag_minimal.py — Pipeline RAG minimalista
- 05_pass_at_k_evaluation.py — Avaliação de modelos
- 06_react_agent_bonus.py — Agentes ReAct
- 07_llamaindex_rag_advanced.py — RAG avançado
- 08_lora_finetuning_example.py — LoRA e fine-tuning
- 09_mini_assistant_complet.py — Mini-assistente integrador
Todos os scripts:
- ✅ Executáveis sem API externa (modo demo/simulação)
- ✅ Documentados e explicados linha por linha
- ✅ Compatíveis com Python 3.9+
- ✅ Disponíveis gratuitamente no GitHub
Características do livro
| Aspecto | Detalhe |
|---|---|
| Autor | Mustapha Alouani |
| Páginas | 153 páginas |
| Capítulos | 15 capítulos técnicos |
| Formato | 6 × 9 polegadas |
| Idioma | Português (Brasil) |
| Público | Engenheiros, estudantes avançados, responsáveis técnicos |
| Pré-requisitos | Probabilidades, álgebra linear, prática em Python |
| Nível | Intermediário → avançado |
| Status | ✅ Publicado (2025) |
A quem se destina este livro?
✅ Engenheiros que querem entender os LLMs além de uma API
✅ Estudantes de computação, ML, IA: um suporte rigoroso
✅ Data Scientists em transição para os LLMs
✅ Responsáveis técnicos que devem integrar os LLMs
✅ Pesquisadores em NLP e ML buscando uma referência em português
✅ Desenvolvedores curiosos para saber o que acontece “sob o capô”
❌ Não recomendado para: Leitores que buscam apenas “usar o ChatGPT”
O que o leitor ganha
Após a leitura deste livro, o leitor é capaz de:
- Explicar como um Transformer realmente funciona
- Analisar os compromissos entre qualidade e custo computacional
- Justificar escolhas arquiteturais (número de camadas, cabeças, tamanho oculto)
- Avaliar um sistema de IA de maneira crítica
- Implementar os conceitos-chave em código
- Argumentar de maneira estruturada em discussões técnicas
- Tomar decisões informadas sobre o uso de LLM em um sistema de informação
Como obter o livro
Disponível através do ecossistema Kindle (leitor, tablet ou computador) ou em formato impresso.
Recursos complementares
- Código e Scripts : GitHub - Mechanics of LLMs
- Blog : Artigos aprofundados sobre IA e LLMs
- Newsletter : Notícias e insights técnicos
- Voltar aos livros : Todos os livros →
Nota do autor
Este livro nasce de uma necessidade recorrente observada nas equipes técnicas e nos decisores: entender o que realmente acontece por trás de uma API de modelo de linguagem, para decidir com conhecimento de causa. É projetado para ser lido com lápis na mão, tomando o tempo de seguir os raciocínios, as fórmulas e o código.
É um livro de engenharia, orientado à decisão. Visa tanto aqueles que constroem os sistemas quanto aqueles que arbitram seu uso.
Mustapha Alouani