Operações com IA

O agente que você pode ignorar

O objetivo não é um agente impressionante que você vigia. É um agente chato que você esquece.

ASR

Apollo Space Research

Apollo Space

· 4 min de leitura

No primeiro mês com um agente novo, você o vigia de perto. A cada execução, abre o log. A cada resultado, confere contra o que você mesmo teria feito. Isso não é paranoia, é o certo. Um funcionário recém-contratado recebe o mesmo tratamento. A pergunta interessante é o que acontece no terceiro mês.

Se você ainda confere cada execução no terceiro mês, o agente falhou. Não de forma escandalosa. Provavelmente ele entrega um bom trabalho na maioria das vezes. Mas nunca cruzou a linha que de fato importa: nunca virou algo em que você pode parar de pensar. E um agente em que você não consegue parar de pensar não está poupando seu trabalho. Está movendo o trabalho de fazer para supervisionar, o que, para a maioria das tarefas de conhecimento, custa quase a mesma coisa.

Falamos de agentes na linguagem da capacidade. Ele consegue escrever o relatório, fechar o caixa, triar a caixa de entrada. Capacidade é o mínimo e também é a parte fácil. A parte difícil, a que decide se a coisa vale a pena, é se ele conquista o direito de ser ignorado.

Ser chato é o marco

Pense no software em que você realmente confia. Sua folha de pagamento roda. Seu DNS resolve. Seus backups completam. Você não vigia nada disso e teria dificuldade de lembrar a última vez que pensou nesses sistemas. Esse esquecimento não é descuido. É o maior elogio que uma infraestrutura pode receber, e foi conquistado do jeito lento: acertando tantas vezes seguidas que conferir virou desperdício da sua atenção.

Um agente está no mesmo caminho, e o caminho é sem glamour. Ele não passa por uma demo melhor. Uma demo prova que o agente faz a tarefa uma vez, em boas condições, com alguém olhando. A “ignorabilidade” é a afirmação oposta. Ela diz que o agente faz a tarefa também nos dias ruins, quando a entrada está malformada, a API externa está lenta, os dados estão pela metade e ninguém está olhando. Isso não dá para demonstrar. Só dá para acumular.

Por isso a métrica certa não é a precisão numa boa execução. É quanto tempo o agente passa entre surpresas. Uma surpresa é qualquer momento em que ele te força de volta ao loop: uma falha silenciosa, uma resposta errada com confiança, um caso de borda resolvido no chute. Cada surpresa zera o relógio e te puxa de volta à vigília. Um longo trecho de silêncio é o que finalmente te deixa olhar para outro lado.

Ou seja, o trabalho de construir um agente confiável é, em sua maior parte, o trabalho sem brilho. Tratar a entrada malformada. Falhar alto em vez de em silêncio. Dizer “não tenho certeza” em vez de inventar. Sobreviver ao reinício. Deixar um rastro auditável depois para você não precisar vigiar em tempo real. Nada disso aparece num vídeo de destaques. Tudo isso aparece em se você dorme tranquilo.

Existe um contra-argumento tentador: talvez você deva sempre manter um humano no loop, só por segurança. Para ações realmente críticas e irreversíveis, sim, e um bom agente pede esse portão sozinho. Mas “vigiar tudo para sempre” não é cautela, é a confissão de que o agente nunca ficou confiável o bastante, e um revisor humano permanente é o recurso mais caro que você pode embarcar.

Então a régua que adotamos é deliberadamente sem clímax. Não é “olha o que ele consegue fazer”. O teste de verdade vem um mês depois, quando você percebe que parou de abrir o log e nada quebrou. O dia em que um agente fica chato é o dia em que ele começa a se pagar. Estamos tentando construir o colega mais chato que você já teve.

A Apollo cuida da operação repetitiva da sua empresa pro seu time não precisar.

Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.

Entrar na lista de espera