Portfólio técnico direcionado à vaga

Felipe Pereira — IA Generativa, LLMs e Sistemas Agentic

Senior AI Engineer / Staff Software Engineer com experiência em RAG, orquestração de agentes, arquitetura distribuída, integrações críticas e operação de sistemas de IA em produção.
São Paulo, SP eletronica.felipe@gmail.com github.com/felipe-pe linkedin.com/in/felipe-da-silva-pereira

O que eu costumo construir quando o problema pede GenAI de verdade

Não penso em LLM como “chat bonitinho”. Penso em sistema: estado, contexto, ferramentas, isolamento, observabilidade, custos, tolerância a falhas, guardrails e integração com operação real. Os projetos abaixo mostram esse padrão.

Python 3.11+ LangChain / LangGraph RAG & busca híbrida Agentes multi-step Multi-agent handoff LLMOps / tracing APIs financeiras Microservices Event-driven SSE / WebSocket Cache TTL Deploy em produção
Foco
IA aplicada a fluxos críticos
Compliance, análise documental, atendimento omnichannel, descoberta de conhecimento e automação operacional.
Padrão recorrente
LLM + ferramentas + estado + observabilidade
Arquiteturas em que cada decisão do modelo é cercada por contexto controlado, recuperação, validação e monitoramento.
Diferencial
Arquitetura madura para ambientes ambíguos
Traduzo requisitos soltos em serviços independentes, contratos claros e operação previsível.
Contextos mais fortes
Finanças, pagamentos, risco, seguros e operações enterprise
Domínio real de integrações, trilhas de auditoria, baixa tolerância a erro e necessidade de confiabilidade.

Aderência direta aos requisitos da vaga

Em vez de listar buzzwords, abaixo está o encaixe entre os requisitos e o tipo de sistema que já projetei, implementei e operei.

Requisito
Como aparece nos projetos
Aderência
LLMs, GenAI e design agentic
RAG com tool use, pipelines multi-step, state management, handoffs entre componentes especializados e guardrails para respostas auditáveis.
Muito forte
LangChain / LangGraph
Orquestração de ferramentas, chains e state machines para fluxos longos; padrão compatível com graphs, middleware e checkpoints persistidos.
Forte
RAG, embeddings e busca híbrida
Soluções de Q&A ancoradas em base documental, chunks com metadados, filtros por contexto e respostas sempre amarradas à fonte.
Muito forte
APIs REST, pagamentos e finanças
Histórico forte em ecossistemas de pagamentos, PIX, risco, crédito, ledgers e integrações críticas com baixa margem para erro.
Muito forte
Microservices e arquitetura distribuída
Serviços independentes, filas, eventos assíncronos, retries, idempotência, isolamento de falhas e observabilidade orientada a SLO.
Muito forte
LLMOps / MLOps
Versionamento de prompts, avaliação, tracing, métricas, detecção de drift, CI/CD, deploy em Kubernetes e operação com foco em custo/latência/qualidade.
Muito forte
Streaming, cache TTL e sessões
Backends para assistentes com SSE/WebSocket, memória por sessão, sumarização de conversas longas e caches temporários para reduzir custo e latência.
Forte
AWS / Bedrock / Boto3
Base sólida em cloud e integração com stacks de IA enterprise; desenho provider-agnostic que migra bem para Bedrock, Guardrails, Knowledge Bases e hosting containerizado.
Forte

Projetos representativos

Cases selecionados para mostrar capacidade de entrega em IA generativa com arquitetura madura, e não apenas uso superficial de modelo.

1. Copiloto conversacional e RAG para análise complexa de apólices e compliance

Case representativo em seguradora. O objetivo era automatizar análise documental sensível sem perder controle de contexto, consistência e auditabilidade.

RAG Agentic LLMOps Distribuído

Problema

Análise manual de documentos e regras complexas, com alto custo operacional e risco de alucinação em um domínio sensível.

Minha atuação

Desenho da arquitetura, backend de orquestração LLM, guardrails, padrões de prompting, integração com sistemas legados e operação em produção.

Arquitetura resumida

  • Pipeline de ingestão com embeddings, chunking orientado a documento e recuperação contextual.
  • Camada de orquestração para montar contexto, aplicar regras, acionar ferramentas e devolver resposta com rastreabilidade.
  • Gerenciamento de sessão e estado para manter coerência entre etapas da análise.
  • Eventos e filas assíncronas para conectar a IA a sistemas corporativos sem acoplamento excessivo.
  • Laços de avaliação para reduzir respostas inconsistentes e endurecer o comportamento em produção.

Técnicas e padrões

Python Vertex AI Embeddings RAG PromptOps Queues Session State Guardrails

2. Copiloto GenAI interno com RAG e workflows agentic sobre APIs enterprise

Case representativo em ambiente global. O foco era acelerar descoberta de conhecimento e automação de consultas internas via integrações corporativas.

Enterprise RAG Tool Use Observability

Problema

Conhecimento espalhado em ferramentas como Jira e Confluence, tornando discovery lento, fragmentado e dependente de contexto tácito.

Minha atuação

Construção do copilot com RAG e workflows agentic, mais estabilização do serving, CI/CD e observabilidade para produção.

Arquitetura resumida

  • Camada de recuperação conectada a APIs enterprise e bases internas de conhecimento.
  • Fluxos multi-step para buscar, selecionar, resumir, responder e registrar telemetria.
  • Padrão de ferramentas especializadas em vez de uma “resposta única” do modelo.
  • Operação com métricas, tracing e práticas de confiabilidade para reduzir atrito no deploy.

Técnicas e padrões

Python RAG Agentic Workflows Enterprise APIs Kubernetes CI/CD Grafana Prometheus

3. Sistema multi-agent para transcrição, detecção de intenção e composição assistida de respostas

Projeto representativo de arquitetura agentic em tempo real. O fluxo separa captura, transcrição, detecção, memória quente/fria, sumarização e composição final.

Multi-Agent Context Compression Tracing

Problema

Interações longas geram contexto demais. Sem arquitetura adequada, o custo sobe, a latência piora e a qualidade cai.

Minha atuação

Desenho de pipeline com componentes especializados, buffers de contexto, sumarização incremental, resposta estruturada e operação com GPUs e serviços auxiliares.

Arquitetura resumida

  • ASR em streaming para transformar fala em texto com baixa latência.
  • Detector de eventos/intenção para decidir quando iniciar raciocínio adicional.
  • Memória quente para contexto recente e memória fria para histórico consolidado.
  • Sumarização contínua para segurar janela de contexto e custo de tokens.
  • Compositor final que recebe contexto, restrições e instruções para resposta em JSON ou texto.
  • Possibilidade de handoff entre agentes especializados, em vez de um monólito conversacional.

Técnicas e padrões

Python Faster-Whisper State Machine Summarization Redis Supabase SSE/WebSocket Structured JSON

4. Backend de orquestração para assistentes omnichannel em fluxos de negócio

Arquitetura representativa para bots e copilotos que precisam integrar canais, memória, ferramentas externas e regras de negócio sem virar um sistema frágil.

Middleware Pattern Finance / Payments Microservices

Problema

Assistentes empresariais falham quando contexto, políticas, integrações e sessões são tratados como detalhe. O resultado costuma ser inconsistência e acoplamento excessivo.

Minha atuação

Arquitetura de serviços independentes, pipelines de processamento, integração com canais e desenho de contratos claros entre componentes de IA e sistemas transacionais.

Arquitetura resumida

  • Pipeline com etapas claras: sanitização, enrichment, recuperação, sumarização, roteamento e resposta.
  • Cache com TTL para prompts, sessões, configurações e resultados intermediários.
  • Isolamento por tenant/namespace para suportar multi-tenancy e diferentes regras por cliente.
  • Streaming por SSE ou WebSocket para reduzir tempo percebido de resposta.
  • Integração segura com APIs REST e workflows externos, preservando trilha de auditoria.

Técnicas e padrões

Python 3.11+ Pydantic REST APIs SSE WebSocket Multi-Tenancy TTL Cache Middleware

Base técnica que sustenta esses sistemas

Em GenAI para empresas, a parte “não glamour” é metade do sucesso. Abaixo está a base que me permite colocar agentes em produção sem perder controle.

Pagamentos, finanças e integrações críticas

  • PIX, pagamentos, ledgers, risco, crédito e reconciliação.
  • Integrações com idempotência, retry, deduplicação e backpressure.
  • Experiência em ambientes com requisitos de compliance e auditabilidade.

Arquitetura distribuída

  • Microservices, filas, eventos, desacoplamento e isolamento de falhas.
  • Padrões como SAGA, CQRS, transactional outbox e circuit breakers.
  • Capacidade de desenhar componentes com contratos claros e evolução segura.

Operação de produção

  • CI/CD, Kubernetes, observabilidade, métricas, tracing e alertas.
  • Versionamento de prompts e avaliação contínua.
  • Controle de custo, latência e qualidade como parte do design.

Como eu aterrissaria isso na stack alvo da vaga

Mesmo quando o projeto nasce provider-agnostic, a transposição para AWS/Bedrock é direta quando a arquitetura já foi desenhada da forma correta.

Mapeamento natural para AWS / Bedrock

  • Inference: Anthropic Claude, Amazon Nova ou equivalentes via Bedrock.
  • RAG: Bedrock Knowledge Bases ou vetores dedicados com filtros, embeddings e busca híbrida.
  • Agentes: LangGraph / graphs próprios com ferramentas via MCP ou adaptadores internos.
  • Guardrails: validação de entrada/saída, políticas e filtros antes e depois da geração.
  • Deploy: containers Python em runtime controlado, com observabilidade por tracing e métricas.

Práticas que eu priorizo no dia 1

  • Separar orchestration, retrieval, prompt registry, session state e transport layer.
  • Padronizar schemas com Pydantic para entradas, ferramentas, outputs e configuração.
  • Definir fallback entre modelos, timeout budgets e retries com backoff.
  • Instrumentar tracing de chamadas LLM, latência, custo e qualidade desde o começo.
  • Tratar multi-tenancy, RBAC e trilha de auditoria como requisitos de arquitetura, não como pós-projeto.