A demo mostra o modelo. A operação revela o harness

Blog · IA Aplicada · · 12 min read

A demo mostra o modelo. A operação revela o harness

Qualquer um acessa o mesmo modelo — então "ter IA" parou de ser diferencial. O que separa uma demo brilhante de um sistema que aguenta operação real é tudo que existe em volta do modelo: contexto, regras, permissões, memória, validação, revisão humana, auditoria e limites. Um mapa das camadas de controle pra exigir antes de contratar — e separar quem entrega resposta de quem entrega sistema.

Um modelo de linguagem que acerta quase sempre em um único passo parece confiável. Suponha 95% de acerto numa etapa: ótimo, isolado. Mas encadeie dez dessas etapas num fluxo real — buscar um dado, decidir, chamar uma API, validar, escrever no sistema — e, numa conta simplificada que trata cada etapa como independente (0,95 elevado a dez), a chance de tudo sair certo já cai pra perto de 60%. Em vinte etapas, pra cerca de 36%. Cada passo multiplica a chance de erro do anterior, e a probabilidade de o fluxo inteiro sair certo despenca bem abaixo do que a precisão de um passo isolado sugeria. Essa aritmética não aparece na demo, onde o caminho é curto e o cenário é escolhido. Ela aparece na operação, no quarto dia, quando o agente decide algo que ninguém previu.

É por isso que "a empresa tem IA" parou de ser diferencial. Todo mundo acessa praticamente os mesmos modelos. O que separa um piloto que vira slide de um sistema que aguenta produção não é o modelo — é tudo que existe em volta dele. Numa frase que circulou bastante entre quem opera agentes em produção: o que muda da demo pra operação não é o modelo, é o sistema ao redor — guardrails que não foram adicionados, observabilidade que não foi conectada, uma estratégia de memória que nunca foi desenhada, um caminho de escalonamento que nunca foi construído. Esse conjunto de camadas tem nome informal: o trilho, ou harness. O modelo é commodity; o diferencial é o harness: contexto, regra, permissão, memória, validação, auditoria e limite. Este texto é um mapa dele — pra você exigir, e auditar, antes de assinar contrato.

Principais pontos

  • O modelo é a parte fácil e comoditizada. O diferencial técnico mora nas camadas de controle ao redor dele, não na escolha do LLM.
  • Confiabilidade de agente é multiplicativa, não somatória. Cada passo encadeado multiplica a chance de erro — por isso o trilho importa mais quanto mais a IA executa, e não só responde.
  • "IA sem trilho" não é produtividade, é bagunça operacional. Sem contexto, regras, permissões e auditoria, o modelo gera ação plausível e errada com a mesma fluência.
  • O harness é um framework de camadas avaliáveis. Contexto, regras de negócio, permissões, memória, validação, revisão humana, logs e limites — cada uma é uma pergunta concreta pro fornecedor.
  • A regulação já caminha nessa direção. O EU AI Act trata rastreabilidade, documentação, supervisão humana e robustez como requisitos centrais para sistemas de alto risco, com aplicação gradual e cronograma em transição; a OWASP publicou o Top 10 for Agentic Applications 2026 no fim de 2025, colocando segurança de agentes no radar de quem constrói IA pra produção.

Pra um decisor avaliando parceiro de IA, a pergunta útil deixou de ser "qual modelo vocês usam". É "o que vocês construíram em volta do modelo pra ele aguentar a minha operação sem virar passivo". Essa é exatamente a conversa em que parceiros como a Vertis Tech entram — não pelo modelo, que é commodity, mas pelas camadas de engenharia que transformam um modelo em sistema confiável e auditável.

Por que o modelo é a parte fácil

Acessar um modelo de fronteira hoje é uma chamada de API. Conectar esse modelo a uma operação real — com dados sensíveis, processos que não podem quebrar, integrações com sistemas que existem há anos e consequências jurídicas quando algo dá errado — é engenharia de software. A demo testa o primeiro problema. A operação cobra o segundo.

O erro de avaliação mais comum do comitê é confundir os dois. A demo é construída pra impressionar: input limpo, pergunta dentro do escopo, caminho feliz. Ela esconde justamente o que falha em produção — entradas que ninguém previu, escala, integração e a ausência de freios. Um relato recorrente entre quem leva agentes pra produção lista três falhas de arquitetura que derrubam pilotos: perda de memória entre sessões, contexto mal passado entre etapas e guardrails insuficientes. Nenhuma dessas é problema do modelo. Todas são problema do que foi construído em volta.

A consequência prática: quando o trilho não existe, um modelo altamente capaz se comporta de forma imprevisível. Ele não falha com erro vermelho na tela. Ele falha gerando uma resposta plausível, fluente e errada — e age sobre ela, se tiver permissão. Esse é o pior tipo de falha, porque parece sucesso.

As camadas que cercam o modelo

O harness não é um produto único — é um conjunto de camadas, cada uma resolvendo uma classe diferente de falha. Dá pra organizá-las como perguntas que o decisor faz ao fornecedor.

Contexto: o que o modelo enxerga

Um modelo só é tão bom quanto o que ele recebe na hora de decidir. A camada de contexto é como a informação certa do seu negócio chega ao modelo no momento certo — tipicamente via RAG, com uma base de conhecimento preparada, e não "treinada". A distinção importa: jogar PDFs num índice não é preparar uma base. Documento sem estrutura, sem versão e sem dado atualizado produz resposta errada com confiança. A pergunta de auditoria: a base é preparada e mantida, ou é um depósito de arquivos que ninguém curou?

Regras de negócio: o que o modelo pode decidir

O modelo não conhece a sua política de desconto, o seu fluxo de aprovação ou os limites do que um atendimento pode prometer. Essas regras precisam viver fora do modelo, em código determinístico que o agente consulta e obedece — não no prompt, que é sugestão, não garantia. Quando a regra está só no prompt, ela é negociável pelo próprio modelo. Quando está em código, não é.

Permissões e escopo de ação: o que o modelo pode tocar

Um agente que apenas lê um sistema é uma classe de risco. Um agente que escreve nele é outra completamente diferente. A camada de permissões define o catálogo fechado de ações que o agente pode executar, com escopo mínimo — não "acesso ao sistema", mas "pode criar um lead, não pode apagar um cliente". A OWASP trata essa superfície — agentes com acesso a ferramentas, autonomia e fluxos de múltiplas etapas — como uma das grandes preocupações de segurança em aplicações agênticas, no Top 10 for Agentic Applications 2026, publicado no fim de 2025. Acesso amplo demais é a falha de origem.

Memória: o que o modelo lembra

Sem uma estratégia de memória desenhada, o agente esquece o que aconteceu na conversa anterior, repete perguntas e perde o fio de um processo de vários passos. Memória não é "guardar tudo" — é decidir o que persiste, por quanto tempo, e como isso volta ao contexto sem inchar e sem vazar dado entre clientes num sistema multi-tenant.

Validação: o que se verifica antes de agir

Entre o modelo gerar uma ação e o sistema executá-la, precisa haver uma camada que verifica: o formato está correto? O valor faz sentido? A ação está dentro dos limites? Validação determinística pega o erro plausível antes dele virar consequência. É a diferença entre "o agente quis fazer X" e "o sistema deixou o agente fazer X".

Revisão humana: quando o modelo para e pergunta

Nem toda ação deve ser autônoma. Em pontos críticos — quando envolve dinheiro, dado pessoal, ou uma decisão difícil de reverter — o trilho prevê aprovação humana antes da execução. Isso não é fraqueza do sistema; é desenho. O EU AI Act, de aplicação gradual e com cronograma em transição, trata supervisão humana como requisito central para sistemas de alto risco. Desenhar onde o humano entra é parte da arquitetura, não um remendo.

Logs e auditoria: o que fica registrado

Quando o agente faz algo, é preciso saber depois exatamente o quê, quando, com base em qual contexto e quem aprovou. Auditoria append-only — registro que não pode ser reescrito — não é luxo: é uma escolha de arquitetura pra tornar a rastreabilidade mais confiável. A regulação já aponta para logs, documentação e supervisão, e frameworks como o NIST AI RMF tratam IA como ciclo contínuo de governança, medição e gestão de risco — não como uma feature isolada. Sistemas sérios precisam conseguir reconstruir o que aconteceu; sem trilha de auditoria, você não explica nem corrige.

Integração e limites: como o modelo conecta e onde ele para

A última camada é como tudo isso se conecta aos sistemas que já existem — sem reescrever o que funciona — e onde o agente explicitamente não vai. Um fallback determinístico para quando o modelo não tem confiança, um limite claro do que está fora de escopo, um caminho de escalonamento quando o agente trava. Os limites são parte do produto tanto quanto as capacidades.

O harness não é overhead — é o produto

É tentador olhar pra essas camadas e ver custo: tudo isso pra rodar um modelo que, na demo, já funcionava. Mas a demo funcionava porque o trilho estava implícito no cenário escolhido. Em produção, ou o trilho é explícito e construído, ou a operação o descobre na marra — com o agente prometendo o que não pode, tocando o que não devia, ou narrando um número errado com fluência convincente.

A inversão mental que ajuda o decisor: o modelo é o motor; o harness é o resto do carro. Ninguém compra um motor e dirige. A engenharia que vira motor em veículo confiável — freios, direção, painel, cintos — é o que você está realmente contratando. Fornecedor que só mostra o motor acelerando na bancada está vendendo a parte comoditizada e escondendo a parte difícil.

Na prática da Vertis Tech, isso aparece em produtos que operam dentro de fluxo controlado, não em modelos soltos: um atendimento via IA que responde dentro de uma base preparada e de regras definidas; uma operação comercial em que a IA prioriza e sugere, mas opera sobre dado governado; agentes internos que executam com catálogo fechado de ações, aprovação humana em pontos críticos e auditoria append-only. O modelo é plugável em todos eles. O trilho é o que foi engenheirado.

Como exigir o harness antes de contratar

Você não precisa ser engenheiro pra auditar o trilho. Precisa fazer as perguntas que separam quem entrega resposta de quem entrega sistema:

  • "De onde vem o contexto que o modelo usa pra responder, e quem mantém essa base atualizada?"
  • "As regras de negócio estão em código ou no prompt?" (a resposta certa raramente é "no prompt".)
  • "Qual é o catálogo exato de ações que o agente pode executar — e o que ele explicitamente não pode?"
  • "O que acontece quando o modelo não tem certeza? Tem fallback ou ele inventa?"
  • "Onde entra aprovação humana, e em quais ações?"
  • "Como vocês registram e auditam o que o agente fez? Dá pra reconstruir uma decisão depois?"

Fornecedor que entrega sistema responde essas perguntas com naturalidade, porque construiu cada camada. Fornecedor que só integrou um modelo numa interface bonita trava na terceira pergunta. A reunião de avaliação é mais barata que a troca de fornecedor no meio do projeto.

Como a Vertis Tech ajuda em IA com camadas de controle

A Vertis Tech desenvolve sistemas de IA aplicada para operações que precisam de contexto, controle, integração e rastreabilidade — além de CRM e automação. Cada projeto é dimensionado conforme a sensibilidade das ações que a IA executa, as integrações necessárias com sistemas existentes, o volume operacional e a maturidade de governança do cliente. A depender do escopo, a implantação pode contemplar:

  • RAG com base de conhecimento preparada e mantida, em vez de modelo "treinado" em PDFs soltos, pra que a IA responda com dado real e versionado do negócio.
  • Regras de negócio em código determinístico, fora do prompt, pra que o que a IA pode decidir não seja negociável pelo próprio modelo.
  • Agentes com catálogo fechado de ações e escopo mínimo, desenhados com aprovação humana nos pontos onde a reversão é cara — dinheiro, dado pessoal, decisão crítica.
  • Auditoria append-only e rastreabilidade, pra reconstruir o que o agente fez, com base em qual contexto e sob qual aprovação.
  • Integração com sistemas legados sem reescrever o que já funciona, com a decisão de leitura versus escrita tratada como decisão de risco antes da arquitetura.
  • Modelo plugável e configurável conforme a necessidade, tratando o LLM como peça substituível — porque o valor está no trilho, não no motor.

Perguntas frequentes

"Ter IA" ainda é diferencial competitivo?

Cada vez menos por si só. O acesso aos modelos é amplamente disponível, então a vantagem migrou pra qualidade das camadas de controle ao redor — contexto, governança, integração e auditoria. É lá que mora a engenharia difícil de copiar.

Por que um agente que funciona na demo falha em produção?

Porque a demo usa caminho curto e cenário escolhido, onde o trilho está implícito. Em produção entram entradas imprevistas, escala, integração e o efeito multiplicativo do erro a cada passo encadeado. O que costuma faltar não é capacidade do modelo, e sim as camadas que cercam ele.

Revisão humana não anula a vantagem da automação?

Não, quando é desenhada com critério. A ideia não é revisar tudo, e sim inserir aprovação humana só nos pontos onde a ação é crítica ou difícil de reverter. O restante do fluxo segue automático. Em projetos de alto risco, a própria regulação tende a exigir essa supervisão.

Preciso entender de tecnologia pra avaliar um fornecedor de IA?

Não para auditar o trilho. As perguntas que mais revelam são de negócio: de onde vem o contexto, onde estão as regras, o que o agente pode tocar, o que acontece quando ele não tem certeza e como tudo fica auditado. Quem construiu o sistema responde com naturalidade.

Vale trocar o modelo por um mais novo quando ele sai?

Depende, mas num sistema bem construído essa troca é barata, porque o modelo é peça plugável. Se trocar o modelo exige reescrever o sistema inteiro, isso é sinal de que faltou trilho — o valor estava concentrado no lugar errado.

Nenhuma camada aqui é exótica: contexto, regras, permissões, memória, validação, revisão humana, auditoria e limites são engenharia conhecida. O que muda entre um piloto que vira slide e um sistema que aguenta operação é se essas camadas foram deliberadamente construídas — ou deixadas implícitas na esperança de que o modelo desse conta sozinho. Ele não dá. Avaliar o trilho antes de contratar é a forma mais direta de saber se você está comprando um sistema ou só uma resposta convincente.

Conversar com a Vertis Tech →

#automacao#b2b#estrategia#ia

Share

XLinkedInWhatsApp
← Back to blog
Toda solução de IA tem 5 camadas. A maioria começa pela errada
IA Aplicada11 min read

Toda solução de IA tem 5 camadas. A maioria começa pela errada

Existe um caminho que toda solução de IA percorre, do dado cru até a tela onde o cliente conversa. São cinco camadas: dados, contexto, model…

IA não salva requisito ruim. Só escreve o erro mais rápido
IA Aplicada11 min read

IA não salva requisito ruim. Só escreve o erro mais rápido

Pedir uma funcionalidade e esperar código pronto é a aposta que cobra retrabalho três sprints depois. O Specification-Driven Development inv…

IA generativa ou agêntica? Qual paradigma encaixa em cada função
IA Aplicada11 min read

IA generativa ou agêntica? Qual paradigma encaixa em cada função

"IA generativa" e "IA agêntica" viraram sinônimo de marketing no briefing — mas uma gera conteúdo sob demanda e a outra planeja e executa aç…