Felipe Pereira — IA Generativa, Agentes & LLMOps

01 / Akad Seguros · 2023–2025

Orquestrador Multi-Agente de Sinistros

Substituição do fluxo manual de análise de sinistros por um sistema multi-agente com LangGraph. Cada agente é especializado em uma etapa: triagem, extração documental, checagem regulatória, cálculo de cobertura e geração de parecer. Iniciado em 2023 com LangChain + GPT-3.5, evoluído para LangGraph + GPT-4o/Claude em mid-2024 à medida que essas ferramentas se tornaram maduras. Reduziu o tempo médio de resposta de dias para minutos, operando 24/7.

Multi-Agent LangGraph RAG Produção GCP State Machine

Problema

Análise de sinistros levava dias, dependia de analistas para tarefas repetitivas e tinha gargalo de escala em volume de pico.

Minha atuação

Arquitetei e implementei o sistema multi-agente do zero — do design do StateGraph ao deploy em GCP, incluindo o pipeline de LLMOps e a camada de observabilidade.

Arquitetura do sistema

[ Canal Omnichannel ] → Gateway API (FastAPI + SSE) │ ▼ [ Supervisor Agent ] ← LangGraph StateGraph (persistente) ├── Triage Agent → classifica tipo + urgência do sinistro ├── Document Agent → extrai dados de apólice via RAG + OCR ├── Compliance Agent → valida coberturas vs. regras SUSEP ├── Pricing Agent → calcula valor indenizável └── Response Agent → redige parecer final ao segurado │ ▼ [ Audit Log + LLMOps tracing ] ← Vertex AI · custom eval loop

Decisões técnicas relevantes

Evolução incremental da stack — 2023: LangChain 0.x + GPT-3.5-Turbo, fluxos lineares. Mid-2024: migração para LangGraph (StateGraph com persistência) e GPT-4o/Claude 3 Haiku quando essas APIs se tornaram estáveis e economicamente viáveis.
State machine persistente com LangGraph — retomada de fluxo em caso de falha sem reprocessamento, com checkpoint por etapa.
Multi-agent handoff com passagem explícita de contexto — evita reprocessar documentos já extraídos; cada nó recebe apenas o que precisa.
Prompt caching no Supervisor — redução de ~30% no custo de tokens nas interações repetitivas entre agentes.
Model fallback automático — GPT-4o → Claude 3 Haiku baseado em latência e complexidade da task, com backoff configurável.
Streaming via SSE — portal do atendente recebe resposta em tempo real enquanto agentes trabalham em paralelo.
Guardrails de compliance — Compliance Agent bloqueia pareceres que violem regras SUSEP antes de chegar ao segurado.

Tempo de análise

−87%

de dias para ~12 min em média

Casos sem intervenção

73%

automatizados de ponta a ponta

Stack técnica — v1 (2023)

Python 3.11LangChain 0.x GPT-3.5-Turbopgvector FastAPIVertex AI

Stack técnica — v2 (mid-2024)

Python 3.12LangGraph Pydantic v2GPT-4o Claude 3 HaikuRedis Pub/SubDocker Kubernetes

Especificações

PadrãoMulti-agent handoff

OrquestraçãoLangGraph StateGraph

MemóriaShort-term + thread

FallbackGPT-4o → Claude 3 Haiku

ComplianceSUSEP + LGPD

DeployGCP / Kubernetes

Por que conversa com a vaga

Cobre diretamente: LangGraph, multi-agent handoff, state machine, context management, model fallback, streaming SSE e deploy containerizado.

Aderência à vaga

LangGraphMulti-agent handoff State machineModel fallback Streaming SSEPrompt caching LLMOpsDocker/K8s

02 / Riot Games · 2022–2024 (Copiloto Interno, Contrato)

RAG Enterprise com Pipeline de Avaliação Contínua

Copiloto interno para uma grande equipe de engenharia respondendo perguntas sobre documentação técnica, RFCs, runbooks e tickets (Jira/Confluence). Projeto em três fases: 2022 com retrieval baseado em embeddings e workflows de automação; adoção de modelos de chat via API a partir de 2023; evolução para pipeline completo de avaliação de qualidade em 2023–2024.

RAG LLMOps Agentic Workflows Eval CI/CD

Problema

Documentação técnica dispersa em Confluence, Jira e GitHub. Engenheiros perdiam horas por semana buscando contexto — e o conhecimento tácito sumia com a rotatividade.

Minha atuação

Desenhei e implementei a arquitetura de ingestão, retrieval e o pipeline de avaliação contínua; estabilizei o serving de modelos no KServe e padronizei CI/CD/IaC para os serviços de ML.

Evolução do sistema — três fases

2022 — Retrieval sem geração: ingestão de Confluence/Jira/GitHub, embeddings estáticos, busca por similaridade coseno, resultados rankeados entregues como lista linkada. Útil, mas sem linguagem natural.
2023 — Adoção de modelos de chat via API: integração com API OpenAI (GPT-3.5-Turbo, disponível desde mar/2023), contexto recuperado injetado no prompt, respostas em linguagem natural com citação obrigatória da fonte.
2023–2024 — Maturação do pipeline: evolução para busca híbrida (léxica + semântica), reranking, migração para GPT-4 Turbo, LLM-as-judge para avaliação automática de qualidade integrada ao CI/CD.

Decisões técnicas relevantes

Chunking por tipo de documento — RFCs, runbooks e tickets têm estrutura diferente; estratégias de segmentação específicas por tipo reduziram ruído no retrieval.
Source citation obrigatória — toda resposta inclui trecho e link para o documento original; respostas sem grounding bloqueadas na camada de output.
Versionamento de prompts — toda mudança de system prompt dispara re-avaliação no dataset de teste curado; qualidade como gate de merge.
Estabilização KServe — padronizei o serving dos modelos de ML em Kubernetes, reduzindo instabilidades em deploy e melhorando confiabilidade do pipeline.
Observabilidade — tracing de latência e drift de qualidade com Grafana/Prometheus; alertas por degradação de relevância semana a semana.

Stack — 2022 (retrieval)

Python 3.10Embeddings estáticos ElasticsearchJira API Confluence APIGitHub API KServe

Stack — 2023–2024 (RAG completo)

Python 3.11LangChain OpenAI EmbeddingsGPT-3.5-Turbo GPT-4 TurboBM25 PrometheusGrafana GitHub ActionsKubernetes

Especificações

Retrieval 2022Embeddings + cosine similarity

Chat LLMGPT-3.5 (mar/2023) → GPT-4 Turbo

Eval pipelineCI/CD gate

Model servingKServe / Kubernetes

FontesConfluence, Jira, GitHub

ObservabilidadePrometheus + Grafana

Por que conversa com a vaga

Demonstra RAG com busca híbrida, versionamento de prompts, pipeline de avaliação de qualidade em CI/CD, observabilidade de modelos em produção e tracing de latência — em contexto de equipe grande.

Aderência à vaga

RAGEmbeddings LLMOpsPrompt versioning CI/CD evalObservabilidade Agentic workflowsKServe/K8s

03 / Poatek · Consultoria — Três Clientes · 2020–2022

Sistemas de Pagamento em Escala: Três Contextos Distintos

Atuação como consultor técnico sênior em três frentes independentes durante o período Poatek — cada uma com escopo, cliente e desafio próprio. O que conecta os três não é uma stack compartilhada, mas o padrão de raciocínio: sistemas distribuídos, confiabilidade em alta escala e integrações financeiras críticas.

APIs Financeiras REST Event-Driven ML em Produção Alta Escala

Contexto A · WhatsApp Pay — Escala & Governança

Arquitetura para suportar múltiplos milhões de transações diárias com disponibilidade de 99.99%. Estabelecimento de governança multi-squad e playbooks operacionais com SLO-driven reliability.

PythonNode.jsKafka PostgreSQLRedisKubernetes Prometheus

Contexto B · Cielo PIX — Webhooks em Alta Confiabilidade

Co-design da aceitação de PIX para ~500k dispositivos POS. Pipeline de webhooks em Node.js com retry, deduplicação e backpressure para garantir entrega correta em pico de carga.

Node.jsKafkaPostgreSQL RedisAWS SQSCircuit Breakers

Contexto C · Buonny — Ingestão Assíncrona + Scoring de Risco

Pipeline de ingestão agregando 520+ fontes via fan-out assíncrono com circuit breakers. Modelos de scoring de fraude (XGBoost) implantados em produção. Turnaround de minutos para segundos.

PythonCeleryXGBoost FastAPIRedisPostgreSQL scikit-learn

O padrão comum aos três contextos

Sistemas financeiros que não aceitam falha: idempotência, retry com backoff, deduplicação, backpressure, auditabilidade e observabilidade desde o primeiro deploy.

Por que conversa com a vaga

Domínio real de APIs REST financeiras, arquiteturas event-driven, ML em produção e operação em alta escala — a fundação de engenharia que torna o design de agentes LLM financeiros mais robusto.

Especificações

Volume (WPay)>milhões tx/dia

Disponibilidade99.99% SLO

POS (Cielo PIX)~500k dispositivos

Fontes (Buonny)520+ ingestão

MLXGBoost scoring

PadrãoEvent-driven + retry

Aderência à vaga

APIs financeirasEvent-driven Alta escalaML em produção Retry + backoffCircuit breakers MicroserviçosAuditabilidade

04 / Akad Seguros · 2024 (Iniciativa Transversal)

Camada de LLMOps & PromptOps: Observabilidade e Controle de Prompts em Produção

Camada de infraestrutura transversal para gerenciar ciclo de vida de prompts, avaliar qualidade de respostas em produção e controlar custos de tokens. Funcionalidades equivalentes ao Arize Phoenix, implementadas com soberania de dados e integração com os sistemas internos de compliance.

LLMOps PromptOps Observabilidade Cost Control

Problema

Prompts mudavam sem controle de versão, qualidade de respostas não era monitorada, custo de tokens crescia sem visibilidade e bugs de prompt tinham MTTR alto.

Minha atuação

Arquitetei e implementei o prompt registry, o pipeline de eval automatizado, o sistema de tracing distribuído e o dashboard de custo em tempo real.

Capacidades implementadas

Prompt Registry — versionamento semântico com diff visual, rollback em 1 clique e trilha de aprovação por papel (autor, revisor, deployer).
Eval Suite automatizada — test cases curados por domínio (sinistros, coberturas, atendimento); roda no CI/CD, bloqueia merge se score cair.
Tracing distribuído — cada chamada LLM recebe trace_id propagado por todos os agentes; reconstrução completa de qualquer interação em produção.
Cost Dashboard em tempo real — custo por agente, modelo e sessão; alertas configuráveis por threshold mensal.
Model fallback declarativo — política em YAML: GPT-4o → Claude 3.5 Sonnet → Haiku, baseada em latência e tipo de task.
Conversation summarization pipeline — comprime históricos longos antes de reinjetar no contexto, com rastreabilidade do que foi comprimido e por quê.
Cache com TTL por tipo de prompt — prompts de saudação e FAQ têm TTL longo; prompts analíticos têm TTL zero.

Custo de tokens

Controlado

caching + compression + fallback policy

Recuperação de prompt bugs

Minutos

rollback por versão, sem redeploy

Stack técnica

Python 3.12FastAPI Pydantic v2PostgreSQL Redis TTLOpenTelemetry PrometheusGrafana GitHub ActionsVertex AI Docker

Especificações

Prompt versioningSemântico + diff

EvalCI/CD gate

TracingOTel + trace_id

Fallback policyYAML declarativo

Cache TTLPor tipo de prompt

ComplianceLGPD auditável

Por que conversa com a vaga

Cobre diretamente: Arize Phoenix-like tracing, prompt versioning, fallback policies, context summarization, TTL cache, custo de tokens e qualidade de resposta em produção.

Aderência à vaga

Phoenix-like (OTel)Prompt versioning LLMOps tracingFallback + retry Ctx summarizationCache TTL Token cost controlCI/CD

05 / Legaut (acq. QuintoAndar) · Operação 2014–2017 · Sócio até 2021

Document Intelligence: Due Diligence Imobiliária (2014–2017)

Co-fundei e operei a Legaut de 2014 a 2017, construindo um SaaS de análise jurídica de matrículas, escrituras e ônus reais que reduziu de 7 dias para menos de 24h o tempo de due diligence imobiliária. A tecnologia foi construída com o que existia naquele período: OCR, RegEx, regras de domínio e classificadores ML. A empresa continuou crescendo após minha saída operacional e foi adquirida pela QuintoAndar em 2021 pela tecnologia.

Document Processing NLP / RegEx Multi-tenant SaaS ETL Pipeline

Problema

Análise jurídica de imóveis levava 7 dias com advogados analisando documentos manualmente. Cartórios e imobiliárias perdiam negócios por falta de velocidade e escala.

Minha atuação (2014–2017)

Co-fundador e lead engineer — projetei a arquitetura completa do pipeline de extração, o modelo multi-tenant e o produto SaaS. Saí da operação em 2017; a empresa foi adquirida em 2021.

Pipeline de processamento (stack de 2014–2017)

[ PDF / Imagem ] → Upload API (multi-tenant, namespace isolado) │ ▼ [ OCR Pipeline ] → Tesseract 3.x + pós-processamento customizado │ └─ limpeza de layout, normalização de caracteres │ ▼ [ Extração de Entidades ] → RegEx + regras de domínio jurídico │ ├─ Partes envolvidas (CPF/CNPJ, qualificação) │ ├─ Ônus registrados (hipotecas, penhoras, alienações) │ ├─ Histórico de transferências (cadeia dominial) │ └─ Datas, valores, números de matrícula/registro │ ▼ [ Validação e Estruturação ] → regras de consistência → flags de revisão humana [ Armazenamento ] → PostgreSQL + busca full-text (Elasticsearch)

Destaques de engenharia

RegEx especializado por tipo de documento — padrões diferentes para matrícula, escritura pública e instrumento particular; refinados iterativamente com feedback de advogados especialistas em direito imobiliário.
Validação cruzada por regras — datas de transferência devem ser posteriores à data de registro; inconsistências geram flag de revisão humana em vez de parecer automático.
Multi-tenancy desde o início — dados de diferentes cartórios e imobiliárias nunca se cruzam; configuração de extração e regras de negócio por tenant.
ETL idempotente — deduplicação por hash do documento; reprocessamento seguro sem duplicação de registros.
Privacy by design — dados de CPF/CNPJ tratados com controle de acesso por papel desde a arquitetura inicial; adequação à LGPD (sancionada em 2018, vigente em 2020) foi natural pela base já construída.

📌 Contexto temporal Em 2014–2017, NLP moderno para português era incipiente — BERT só viria em 2018, SpaCy em português estava em versões iniciais. A solução foi construída com as ferramentas da época: Tesseract 3, RegEx robusto e validação por regras de negócio. Isso é exatamente o que permitiu que o sistema chegasse a produção com confiabilidade — e é o tipo de entendimento de domínio que nenhum LLM substitui por si só.

Stack técnica (2014–2017)

Python 2/3Tesseract 3.x RegExNLTK scikit-learnPostgreSQL ElasticsearchRedis GoAWS EC2/S3 Docker (early)

Especificações

ExtraçãoOCR + RegEx + regras

Redução de tempo7 dias → <24h

Operação2014–2017 (saída operacional)

AquisiçãoQuintoAndar (2021)

ARR no exit~USD 480k

PrivacidadeRBAC + privacy by design

O que este case prova

Capacidade de transformar um problema complexo de domínio em produto real — do zero ao exit. O entendimento profundo de extração documental jurídica é o que hoje torna o design de pipelines com LLMs para esse domínio mais eficaz.

Aderência à vaga

Document processingNLP aplicado Multi-tenancyETL idempotente Privacy by designSaaS → exit Domínio jurídicoFundação pré-LLM

06 / Banco ABC · 2022–2024 (Contrato)

Engines de Fraude e Risco de Crédito em Produção

Construção e operação de engines de detecção de fraude e scoring de risco de crédito com XGBoost/LightGBM em alta escala. Inferência de baixa latência via FastAPI async, feature store em Redis para features em tempo real, drift monitoring automatizado com KS test e PSI, e arquitetura de microserviços event-driven com compliance e auditabilidade como requisitos desde o início.

Fraud & Credit Risk Fintech MLOps Event-Driven Baixa Latência

Problema

Necessidade de decisão automatizada em tempo real para transações de alto volume — com mínimo de falsos positivos, latência controlada e trilha de auditoria completa por requisito regulatório.

Minha atuação

Construção do engine ML, APIs de inferência, feature store, pipeline de drift monitoring e arquitetura de microserviços com controle de acesso e auditabilidade por design.

Arquitetura de decisão

[ Transação ] → Kafka topic │ ▼ [ Feature Store ] → Redis (features em tempo real, TTL curto) │ + BigQuery (features históricas, batch diário) │ ▼ [ Scoring Engine ] → XGBoost / LightGBM │ ├─ score de fraude (comportamental + geolocalização + velocidade) │ └─ score de crédito (exposição + histórico + limite) │ ▼ [ Decisão ] → APPROVE / REVIEW / BLOCK [ Audit Log ] → decisão + features + versão do modelo (imutável) [ Drift Monitor ] → KS test + PSI diário → alerta automático

Destaques de engenharia

Latência separada por camada — scoring interno (XGBoost + Redis): p95 ~5ms. API FastAPI fim a fim (enriquecimento + score + log): p95 <30ms. Dois números distintos, dois pontos de medição distintos.
Feature engineering sobre imbalance extremo — técnicas como SMOTE, class weighting e threshold calibration para minimizar falsos positivos em distribuições altamente assimétricas.
Drift monitoring automatizado — KS test e PSI calculados diariamente sobre a distribuição das features; alertas automáticos quando divergência ultrapassa baseline; trigger de revisão do modelo.
Auditabilidade por design — cada decisão registrada com: features utilizadas, versão do modelo, score bruto e threshold aplicado. Requisito regulatório, não feature opcional.
RBAC + OAuth 2.0 / OIDC — analista de fraude acessa apenas casos de sua fila; equipe de compliance tem visibilidade transversal; acesso ao painel de revisão controlado por escopo.
Microserviços event-driven — serviços independentes: ingestão, feature computation, scoring e notificação. Comunicação via Kafka; cada serviço com sua própria base de dados; sem acoplamento síncrono no caminho crítico.

Latência scoring (interno)

p95 ~5ms

XGBoost + Redis, sem I/O externo

Latência API (fim a fim)

p95 <30ms

enriquecimento + score + audit log

Stack técnica

Python 3.10+FastAPI XGBoostLightGBM scikit-learnRedis KafkaBigQuery PostgreSQLPrometheus DockerPydantic

Especificações

ModeloXGBoost + LightGBM

Scoring latênciap95 ~5ms (interno)

API latênciap95 <30ms (fim a fim)

Drift monitorKS test + PSI diário

AuthRBAC + OAuth 2.0 / OIDC

AuditoriaImutável, por decisão

O que este case prova

Domínio de MLOps em sistemas financeiros críticos: feature engineering em dados desbalanceados, inferência de baixa latência, drift monitoring em produção e compliance por design — sem LLMs, sem abstração.

Aderência à vaga

MLOpsBaixa latência Event-drivenMicroserviços Drift monitoringRBAC / OAuth AuditabilidadeAPIs financeiras

Seis iniciativas em produção relevantes para IA Generativa, RAG, agentes e sistemas inteligentes

Orquestrador Multi-Agente de Sinistros

Problema

Minha atuação

Arquitetura do sistema

Decisões técnicas relevantes

Stack técnica — v1 (2023)

Stack técnica — v2 (mid-2024)

Especificações

Aderência à vaga

RAG Enterprise com Pipeline de Avaliação Contínua

Problema

Minha atuação

Evolução do sistema — três fases

Decisões técnicas relevantes

Stack — 2022 (retrieval)

Stack — 2023–2024 (RAG completo)

Especificações

Aderência à vaga

Sistemas de Pagamento em Escala: Três Contextos Distintos

Especificações

Aderência à vaga

Camada de LLMOps & PromptOps: Observabilidade e Controle de Prompts em Produção

Problema

Minha atuação

Capacidades implementadas

Stack técnica

Especificações

Aderência à vaga

Document Intelligence: Due Diligence Imobiliária (2014–2017)

Problema

Minha atuação (2014–2017)

Pipeline de processamento (stack de 2014–2017)

Destaques de engenharia

Stack técnica (2014–2017)

Especificações

Aderência à vaga

Engines de Fraude e Risco de Crédito em Produção

Problema

Minha atuação

Arquitetura de decisão

Destaques de engenharia

Stack técnica

Especificações

Aderência à vaga

Base técnica que sustenta esses sistemas

💳 Pagamentos, finanças e integrações críticas

🏗️ Arquitetura distribuída

⚙️ Operação e engenharia de produção

Como adapto minha experiência à stack AWS / Bedrock da vaga

Mapeamento natural para AWS / Bedrock

O que eu priorizo desde o primeiro dia nesta vaga

Fechamento