Confiança é uma escada, não um interruptor
Um novo agent conquista autonomia do jeito que um novo contratado conquista, uma tarefa verificada por vez.
Apollo Space Research
Apollo Space
Nenhuma empresa sã entrega a um novo contratado as chaves do sistema de transferências bancárias no dia um. Eles dão a ele um login somente-leitura, uma pequena primeira tarefa, e um gerente que checa o output. Passe nisso, e a coleira fica um pouco mais longa. Passe em o suficiente delas, e um dia ninguém está mais checando, porque o histórico já diz que ele pode ser confiável. Nós fazemos onboarding de pessoas numa rampa. Depois nos viramos e fazemos deploy de AI agents com um único toggle: off, ou totalmente autônomo, nada entre os dois.
Esse toggle é a razão de a maioria dos times estar travada. Eles não conseguem ligá-lo, porque um agent novinho em folha com autoridade total é aterrorizante. Então eles o deixam off, e o agent continua sendo uma demo esperta que nunca toca em nada que importe.
Um novo agent conquista autonomia do jeito que um novo contratado conquista, uma tarefa verificada por vez.
Este post é sobre a rampa que construímos em vez do toggle, e por que o número mais importante num sistema autônomo não é quão esperto o modelo é. É quanto ele tem permissão de fazer sem você olhando.
A versão ingênua: um interruptor, duas respostas ruins
A forma óbvia de lançar um agent é decidir, de antemão, quanto você confia nele. Você define um nível de permissão uma vez, no momento da configuração, e o agent opera nesse nível para sempre.
Isso soa razoável até você tentar escolher o nível.
Defina baixo, e o agent é inútil. Toda ação espera um humano aprová-la, então a coisa que você comprou para economizar atenção agora gasta sua atenção o dia todo. Você lê cada draft, confirma cada passo, clica sim em operações que o agent acertou cem vezes. O agent não é autônomo. É um autocomplete muito caro com um diálogo de confirmação.
Defina alto, e o agent é perigoso. A primeira vez que ele confiantemente faz a coisa errada, manda a mensagem errada para a lista errada, edita o registro errado, roda a operação irreversível em dados reais, você não confia mais nele em lugar nenhum. Uma ação ruim em autoridade total não te custa uma tarefa. Custa o relacionamento inteiro. Você revoga tudo e volta a fazer você mesmo, porque agora você sentiu como é o errado sem supervisão.
Então o único interruptor força uma escolha entre inútil e perigoso, e não há configuração no meio que seja tanto segura quanto valha a pena ter. O problema não é o agent. O problema é que a confiança foi modelada como um estado, on ou off, quando confiança não é um estado. Confiança é um histórico. É o registro acumulado das vezes em que este ator específico fez este tipo específico de coisa e deu certo.
Um time humano nunca teve um interruptor de confiança. Ele teve uma rampa.
A rampa: escopo conquistado por tarefa verificada
Nós paramos de perguntar “quanto você confia neste agent?” e começamos a perguntar uma pergunta diferente, a que um bom gerente de fato faz: “o que este agent provou que consegue fazer?”
A resposta não é um número. É um registro, tipo de tarefa por tipo de tarefa, do que o agent fez e como foi.
Um novo agent começa no degrau de baixo: somente-leitura. Ele consegue olhar tudo e mudar nada. Ele redige, ele propõe, ele explica o que faria, e um humano aprova cada ação antes de ela acontecer. Esse é o mesmo começo chato que todo novo contratado recebe, e ele é chato de propósito. O agent está construindo um registro antes de ser confiado com consequências.
Cada vez que o agent propõe uma ação e um humano a aprova e o outcome é bom, isso conta. Não de forma vaga, para aquele tipo específico de tarefa. Redigir um resumo é um tipo de confiança. Atualizar um registro de cliente é outro. Disparar algo que custa dinheiro ou não pode ser desfeito é um terceiro, e eles não transferem. Um agent que conquistou o direito de atualizar registros por conta própria não conquistou nada sobre mover dinheiro. A rampa é por skill, do jeito que uma pessoa ótima com a contabilidade ainda não pode assinar contratos.
Cruze outcomes bons o suficiente num tipo de tarefa, e aquele tipo de tarefa se forma. O agent para de pedir permissão para ela e simplesmente a faz, logando o que fez. O humano que costumava aprovar cada instância agora revisa um feed de ações concluídas em vez de uma fila de pendentes, e só quando algo parece estranho. A coleira ficou mais longa exatamente onde o registro a conquistou, e ficou curta em todo lugar onde não conquistou.
Autonomia não é uma configuração que você concede. É um saldo que o agent conquista, uma tarefa verificada por vez.
Por que por-tarefa, e não um único trust score global
Existe uma versão mais arrumadinha disso que silenciosamente falha, e vale a pena encená-la, porque é a que a maioria das pessoas constrói primeiro.
A versão arrumada é um único trust score. O agent vai bem, o número sobe; ele vai mal, o número desce; acima de algum limiar, ele tem permissão de agir por conta própria. Um mostrador, fácil de raciocinar, fácil de mostrar num dashboard.
Ele falha na primeira vez em que o agent é excelente na coisa fácil e o score o solta na coisa difícil.
Um agent consegue escrever cem resumos impecáveis e conquistar um score global lá em cima, e esse score não diz nada sobre se ele deveria ter permissão de emitir um reembolso. Resumos e reembolsos compartilham um modelo, mas não compartilham um risco. Um score global lava competência em trabalho de baixo risco em autoridade sobre trabalho de alto risco, que é exatamente o erro que você nunca cometeria com uma pessoa. O novo analista brilhante em pesquisa ainda não recebe autoridade de assinatura, não importa quão boa seja a pesquisa, porque bom numa coisa nunca foi evidência de seguro em outra.
Então mantemos o livro-razão dividido. A confiança é rastreada por tipo de tarefa, e autoridade em um não diz nada sobre autoridade em outro. O agent que conquistou auto-execute em consultas de dados ainda está em somente-leitura para qualquer coisa que gaste dinheiro, e fica lá até ter um registro naquilo, separadamente. O dashboard é mais bagunçado. O sistema é honesto sobre o que de fato foi provado.
Há uma segunda coisa que o livro-razão por-tarefa te compra, e é a que os compradores enterprise mais se importam. Quando o agent de fato age por conta própria, há uma resposta limpa para por que ele teve permissão. Não “o trust score estava alto.” Em vez disso: este exato tipo de ação se formou depois desta quantidade de outcomes verificados, aqui está o registro, aqui está quem aprovou os que o construíram. Autonomia que você não consegue explicar é autonomia que você não consegue aprovar. O livro-razão é a explicação.
Como é o rebaixamento, porque confiança corre nos dois sentidos
Uma escada que você só consegue subir não é um modelo de confiança. É uma contagem regressiva até o dia em que o agent faz algo que conquistou o direito de fazer e erra mesmo assim.
A confiança real corre nas duas direções. Um novo contratado que foi liberado para cuidar de algo por conta própria, e então erra feio, volta a ter o trabalho checado por um tempo. Ninguém o demite. Ninguém trata um erro como prova de que ele é um caso perdido. A coleira só fica mais curta naquela uma coisa até o registro ser reconstruído. Isso não é punição. É como um time saudável se mantém ao mesmo tempo rápido e seguro.
A rampa funciona do mesmo jeito. Um tipo de tarefa que se formou para auto-execute pode ser rebaixado de volta para propor-e-aprovar quando um outcome dá errado, automaticamente, no sinal, não depois de um postmortem três semanas depois. O agent que conquistou seu caminho para cima de um degrau pode perder esse degrau no skill específico onde escorregou, e manter cada outro degrau que conquistou. O rebaixamento é estreito de propósito: um reembolso ruim puxa de volta a autoridade sobre reembolsos, não sobre os resumos em que o agent ainda é impecável.
Essa é a parte que torna a coisa toda segura o suficiente para de fato ligar. A razão de os times deixarem o interruptor de autonomia off é o medo do erro irreversível e sem supervisão, a ação que é tanto errada quanto impegável. Uma rampa com rebaixamento real muda a conta do risco. O pior que um tipo de tarefa em quem se confiou demais pode fazer é um outcome ruim antes de ser puxado de volta a pedir permissão, e as ações de mais alto risco nunca se formaram em primeiro lugar. Você não está apostando a empresa no agent nunca errar. Você está apostando que quando ele erra, o raio de impacto é um tipo de tarefa e o sistema o pega.
O ponto não é um agent que nunca falha. É um sistema onde uma falha custa um degrau, não o relacionamento inteiro.
A virada: a coisa que o livro-razão de fato está medindo
Olhe de perto o que de fato está se acumulando naquela rampa, e não é a inteligência do agent. O modelo era tão capaz no dia um quanto é no dia noventa. Nada sobre sua habilidade bruta mudou enquanto ele subia.
O que mudou foi a sua. O livro-razão não é um registro do agent ficando mais esperto. É um registro de você conseguindo relaxar, prova, ação por ação, de que este tipo específico de trabalho não precisa mais dos seus olhos nele. Cada tipo de tarefa formado é uma coisa que costumava viver na sua cabeça como uma preocupação e agora não vive mais. Esse é o produto real da rampa: não um agent mais poderoso, mas uma lista cada vez mais curta de coisas que você tem que segurar pessoalmente.
Nós não inventamos esse arco. É a coisa mais antiga do mundo do trabalho. Você conquista a confiança das pessoas ao seu redor do jeito lento, uma promessa cumprida por vez, e a recompensa é que elas param de te checar duas vezes, e você para de checar uns aos outros, e o time inteiro fica mais rápido porque a confiança está no registro em vez de na ansiedade de todo mundo. Um novo agent conquista autonomia do jeito que um novo contratado conquista, e o dia em que você para de observar um tipo de tarefa é o dia em que ele finalmente começa a te poupar a coisa que você de fato queria de volta, que nunca foram as teclas. Era a preocupação.
O modelo mais esperto do mundo lançado atrás de um único interruptor ainda é inútil ou ainda é perigoso. A coisa que torna um agent digno de receber trabalho de verdade não é uma mente melhor. É um registro que você consegue apontar e uma coleira que fica mais longa exatamente tão rápido quanto esse registro conquista.
É isso que estamos construindo na Apollo Space: agents que começam o dia em que são contratados com acesso somente-leitura e a paciência de um gerente, e conquistam seu caminho para a autonomia do jeito que as melhores pessoas do seu time conquistaram. Se você já foi quem finalmente parou de checar o trabalho de alguém, e sentiu o dia ficar mais leve no momento em que parou, esse é o sentimento que achamos que o software deveria te dar a seguir.
A Apollo cuida da operação repetitiva da sua empresa pro seu time não precisar.
Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.
Entrar na lista de esperaO imposto oculto dos agents em paralelo é um diamante de migrations
Seis agents escrevendo para um schema conflitam no banco de dados, não no código, e a CI morre em "multiple heads".
EngenhariaUm orchestrator que não sobrevive ao próprio crash não é um
Um crash que apaga o raciocínio do orchestrator perde a única coisa que você não consegue reconstruir.
EngenhariaColoque um portão determinístico na frente do seu revisor mais esperto
A pega-defeito mais barata é um script burro que checa se duas branches mergeadas ainda sobem antes de qualquer julgamento.