Tese de Automação

A maioria dos pilotos de IA morre em produção. O modelo nunca foi o problema.

Pilotos falham por estrutura, não por tecnologia: um agente brilhante sem um sistema operacional embaixo dele é um estagiário genial sem mesa, sem crachá e sem memória de ontem.

ASR

Apollo Space Research

Apollo Space

10 de setembro de 2025 · 10 min de leitura

A demo sempre funciona. O agente responde a pergunta, rascunha o e-mail, resume o documento, e a sala assente, é o futuro, e ele já chegou. Seis meses depois o mesmo agente é uma aba que ninguém abre, uma linha de custo que o financeiro está questionando, e uma história que termina com “o modelo ainda não era bom o bastante”.

O modelo quase nunca foi o problema.

A iniciativa NANDA do MIT estudou 300 deployments corporativos públicos, entrevistou 150 líderes e ouviu 350 funcionários. O número de destaque é brutal: cerca de 95% dos pilotos de IA generativa não produzem impacto mensurável no resultado financeiro (Fortune, sobre o relatório “State of AI in Business 2025” do MIT NANDA). E o relatório é incomumente claro sobre o porquê. As falhas são organizacionais, não tecnológicas, o que o MIT chama de “lacuna de aprendizado”, a incapacidade de encaixar um modelo nos fluxos de trabalho, na memória e nas permissões sobre as quais uma empresa de fato roda.

Esse é o texto inteiro em uma linha: pilotos falham por estrutura, não por tecnologia. Um agente brilhante sem um sistema operacional embaixo dele é um estagiário genial sem mesa, sem crachá e sem memória de ontem.

O estagiário genial sem lugar pra sentar

Imagine o melhor estagiário que você já contratou. Afiado, rápido, com vontade. Agora jogue ele dentro da sua empresa sem mesa pra trabalhar, sem crachá pra abrir nenhuma porta, sem acesso a uma única ferramenta e, essa é a parte cruel, sem memória de ontem. Toda manhã ele chega sem saber nada do que fez no dia anterior.

Quanto de impacto financeiro esse estagiário produz? Nenhum. Não porque ele não seja inteligente. Porque a empresa deu inteligência pra ele e tirou tudo o que transforma inteligência em trabalho.

É exatamente isso que um piloto faz com um modelo.

O piloto prova que a inteligência é real, e ela é. Aí ele lança essa inteligência no vácuo. O agente consegue raciocinar sobre as suas faturas mas não enxerga o seu sistema contábil. Ele consegue rascunhar o follow-up mas não consegue enviar. Ele esquece o cliente entre terça e quinta porque nada anotou nada. A suposição ingênua embaixo de todo piloto morto é a de que inteligência é o ingrediente escasso. Não é. O ingrediente escasso é tudo o que está em volta da inteligência, e um piloto, por definição, pula tudo isso.

À esquerda, o piloto: um agente brilhante sem mesa, sem crachá, sem memória e sem ferramentas, o mesmo modelo que sobrevive em produção, faminto de tudo o que transforma inteligência em trabalho. À direita, o mesmo agente sentado dentro de um sistema operacional que lhe dá rotinas, permissões, um cérebro da empresa e ferramentas sob demanda.

Mesmo modelo. Resultado oposto. A diferença não está no agente. Está em tudo o que está embaixo dele.

Quatro coisas que um modelo precisa e que um piloto nunca instala

Então dê nome à mesa, ao crachá, à memória, às ferramentas. São quatro, e elas mapeiam quase exatamente sobre o que um sistema operacional sempre foi: um escalonador, um sistema de permissões, um gerenciador de memória e drivers. Um piloto instala uma demo esperta. Não instala nenhuma dessas quatro. Aí se surpreende quando a demo não sobrevive ao contato com uma semana de verdade.

Uma mesa: algum lugar onde o trabalho acontece sem ser pedido

A versão ingênua: o agente fica numa caixa de chat e espera. Você traz uma tarefa, ele faz a tarefa, ele fica quieto. Ele é útil exatamente na frequência em que você lembra de abri-lo, o que, depois que a novidade passa, é raramente.

Por que falha: o trabalho que de fato move uma empresa não é o trabalho que você lembra de delegar. É a fatura que ninguém cobrou, a renovação que ninguém sinalizou, a conversa que esfriou. Nada disso chega como um prompt. Uma caixa de chat só consegue agir sobre perguntas que você já sabe fazer, e as falhas caras são as que você não viu chegando.

A versão mesa: o agente roda no relógio dele. Ele já leu os e-mails da madrugada, separou os três que importam dos doze que não importam, e reparou na coisa que vence sexta e não se mexeu, antes de qualquer um abrir um app. Isso não é uma funcionalidade que você parafusa num piloto. É a diferença entre um software que espera e um software que já está trabalhando.

Um crachá: permissão que cresce do jeito que a confiança cresce

A versão ingênua: dê ao agente acesso total no primeiro dia pra demo impressionar, ou não dê nenhum pra ele ser seguro. Pilotos escolhem um e vivem com a consequência.

Por que falha: acesso total no primeiro dia é como um agente confiante faz algo irreversível num sistema que importa, e essa é uma forma de matar um piloto com um único incidente. Acesso nenhum é como o agente continua um brinquedo. Nenhum dos dois é como você de fato faz o onboarding de qualquer pessoa.

A versão crachá: confiança que se conquista, uma tarefa verificada por vez. Um agente novo começa do jeito que um funcionário novo começa, pode ler e sugerir, não pode agir sozinho. Primeiro ele rascunha e você confirma. Depois ele envia e te avisa. Aí, pras coisas que ele já fez certo cem vezes, ele simplesmente faz e você lê o resultado. Autonomia não é um botão que você liga. É um nível que o agente sobe.

Uma memória: um cérebro da empresa que não zera durante a noite

A versão ingênua: o contexto mora no prompt. Você cola o que o agente precisa saber a cada vez, e ele é brilhante dentro daquela janela, aí a janela fecha e ele esquece.

Por que falha: um colega que esquecesse toda conversa anterior seria incontratável, por mais esperta que fosse cada resposta individual. Um piloto que zera a cada sessão não consegue compor. Ele reaprende o seu negócio toda manhã e te devolve isso toda noite. A inteligência é real e a alavancagem é zero, porque nada acumula.

A versão memória: um cérebro que a empresa inteira compartilha. Ele lembra que a renovação cai mês que vem, que o nome novo na agenda é o investidor que alguém citou três reuniões atrás, que esta proposta foi a que um cliente finalmente aprovou, pra que a próxima comece a partir da vencedora, não de uma página em branco. O estado para de morar no armazenamento mais frágil que existe: a memória de curto prazo de uma pessoa.

Drivers: ferramentas que o agente pega sob demanda

A versão ingênua: pra cada ferramenta que o agente precisa tocar, alguém constrói uma integração sob medida. Um projeto customizado, um pipeline frágil, uma coisa pra manter pra sempre.

Por que falha: é aqui que os pilotos morrem em silêncio, de mil cortes. Cada integração é um projeto de seis semanas, e uma empresa roda sobre dezenas de ferramentas. Quando o terceiro conector está pela metade, o orçamento acabou e o agente ainda não enxerga a maior parte da empresa.

A versão driver: todo app é tratado do jeito que um sistema operacional trata o hardware, como algo que um agente pega e usa sob demanda. Peça pra ele puxar a conversa da caixa de entrada, postar no canal, ler os custos de ontem, e ele estende a mão pra cada ferramenta do mesmo jeito que você abriria cada app, sem um projeto de integração entre a intenção e a ação.

Um piloto instala uma demo esperta que espera ser pedida, esquece ontem, mora numa única janela, e ainda precisa de um humano vigiando. O que sobrevive em produção troca cada uma dessas coisas por uma primitiva de sistema operacional: rotinas proativas, um cérebro da empresa, ferramentas como drivers, e autonomia conquistada na confiança.

Olhe esse mapeamento e o padrão é óbvio. Pilotos falham por estrutura, não por tecnologia. Cada coluna da esquerda é uma ausência estrutural, não uma limitação de modelo. Você não fecha essa lacuna com um modelo melhor. Você fecha construindo a coisa dentro da qual o modelo fica.

Por que um modelo melhor não vai salvar o piloto

Aqui está a conclusão que a maioria dos times resiste, porque ela é cara: o próximo lançamento de modelo não vai consertar o seu piloto morto.

Imagine que o modelo que roda o seu piloto travado de repente dobrasse de capacidade da noite pro dia. O estagiário ficou duas vezes mais inteligente. Ele continua sem mesa, sem crachá, sem memória, sem ferramentas. O dobro da inteligência, ainda zero de alavancagem, porque o gargalo nunca foi a inteligência. Atualizar o modelo atualiza a parte que já estava funcionando e ignora a parte que estava quebrada.

É exatamente isso que o MIT achou, em outras palavras. A lacuna é organizacional. Os times que a atravessaram não acharam um modelo mais esperto do que todo mundo, não tem um pra achar; os bons modelos hoje são uma commodity. Eles construíram a estrutura que o modelo precisava pra fazer trabalho de verdade: as rotinas, a memória, as permissões, o acesso às ferramentas. Eles pararam de pilotar inteligência e começaram a instalar um sistema operacional.

O gargalo nunca some. Ele só se move, do modelo, onde todo mundo continua olhando, pra empresa em volta dele, onde quase ninguém está construindo.

A virada: pare de pilotar inteligência, comece a instalá-la

Tem uma razão mais silenciosa pra isso importar, e ela não é sobre software.

Um piloto morto não desperdiça só um orçamento. Ele ensina a organização a lição errada, a de que “a IA não está pronta”, quando o que de fato aconteceu foi que a empresa entregou uma mente capaz a um vácuo e assistiu ela sufocar. A próxima ideia recebe menos oxigênio. Os céticos ganham um dado. E a distância entre os times que descobriram a estrutura e os times que ainda esperam um modelo mais esperto aumenta a cada trimestre, porque estrutura compõe e esperar não.

As empresas que estão disparando na frente não são as que têm o melhor modelo. Todo mundo tem mais ou menos os mesmos modelos. São as que deram ao modelo um lugar pra sentar, um jeito de entrar, uma memória, e um trabalho que roda mesmo que ninguém lembre de pedir. Elas pararam de rodar pilotos e começaram a rodar um sistema operacional, e a inteligência que elas já tinham o tempo todo finalmente teve onde aterrissar.

O estagiário sempre foi bom o bastante. Ele só precisava de uma mesa, de um crachá, e de um motivo pra lembrar de ontem.

É isso que a gente está construindo na Apollo Space, o sistema operacional que um modelo capaz precisa pra sobreviver depois da demo: rotinas que rodam no relógio delas, um cérebro da empresa que não esquece, ferramentas sob demanda, e confiança que se conquista. Se o seu último piloto morreu em produção, provavelmente não foi o modelo. Foi tudo o que o piloto deixou de fora.

A Apollo cuida da operação repetitiva da sua empresa pro seu time não precisar.

Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.

Entrar na lista de espera