Engenharia

Um agent que não consegue esquecer não consegue aprender

Memória ilimitada não é inteligência, é ruído soterrando o sinal. O agent que guarda tudo para sempre acaba não sabendo nada útil. Esquecer é a feature.

ASR

Apollo Space Research

Apollo Space

18 de outubro de 2025 · 11 min de leitura

Rode um agent por uma semana e ele lembra de tudo. Cada mensagem, cada tool call, cada beco sem saída do qual ele recuou, cada “na verdade, deixa pra lá” que o usuário digitou e depois contradisse. Na sexta-feira ele tem uma transcrição perfeita da semana, e ficou mensuravelmente pior no seu trabalho. Pergunte a ele o que o cliente quer e ele cita uma preferência que o cliente reverteu na terça. Peça que resuma o projeto e ele surge uma decisão que foi vencida uma hora depois de ser tomada.

Nada quebrou. A memória funcionou exatamente como projetada. Esse é o problema.

Um agent que não consegue esquecer não consegue aprender. Recall perfeito não é um agent mais esperto, é um mais barulhento, afogando os três fatos que importam debaixo de três mil que não importam. Este post é sobre a disciplina que conserta isso: decidir, de propósito, o que guardar palavra por palavra, o que comprimir numa lição, e o que jogar fora.

A versão ingênua: lembrar de tudo, para sempre

O primeiro instinto quando você constrói memória de agent é o óbvio. Memória é boa, então mais memória é melhor. Escreva tudo. Cada turno de cada conversa, cada observação, cada resultado, direto para o store. Armazenamento é barato. Por que você deletaria?

Funciona lindamente por um dia. O agent recorda o que você disse de manhã, amarra ao que você disse uma hora atrás, parece afiado e atento. Você lança.

Aí ele roda o suficiente para acumular um histórico, e o problema começa, quietamente, nunca como um erro. O store enche com três tipos de lixo que parecem exatamente sinal na entrada. Há o superado: fatos que eram verdade e não são mais, a reunião mudou, a spec mudou, o cliente trocou de plano. Há o transiente: coisas que importaram por exatamente um turno, “abra o arquivo”, “role para baixo”, “espera, o outro”. E há o redundante: o mesmo fato repetido quarenta vezes em quarenta conversas, de modo que quando o agent recupera “o que este usuário prefere”, ele recebe a preferência de volta quatro vezes, cada uma de uma semana diferente, duas delas agora erradas.

O agent não sabe que nada disso é lixo. Para o passo de recuperação, uma decisão revertida e uma atual são ambas só texto com um score de similaridade alto. Então o modelo puxa de volta um punhado de memórias, metade delas desatualizadas, e raciocina sobre a pilha. O gargalo nunca foi quanto ele conseguia armazenar. Foi quanto ele conseguia armazenar e ainda encontrar a verdade dentro.

Mais memória não deixou o agent mais esperto. Deixou o sinal mais difícil de encontrar.

O store ingênuo é a garagem de um acumulador. Tudo que você já possuiu está lá dentro, que é exatamente por que você não consegue achar a única ferramenta que precisa.

Dois designs de memória lado a lado. O store ingênuo guarda cada mensagem, tool call e decisão revertida para sempre, então a recuperação puxa de volta uma mistura de fatos atuais e desatualizados que o agent não consegue distinguir. O store consolidado guarda um pequeno conjunto de fatos duráveis e atuais, então a recuperação retorna uma resposta limpa.

Por que “só armazene menos” é o conserto errado

O primeiro remendo que todo mundo alcança é um cap. Guarde as últimas N mensagens. Guarde os últimos trinta dias. Quando a janela enche, descarte a mais antiga. Problema resolvido, o store para de crescer.

Exceto que um corte baseado em calendário é cego para o que de fato está na memória. O fato mais importante que o agent sabe pode ter três meses: a restrição rígida do cliente, a decisão arquitetural sobre a qual o projeto inteiro se apoia, a única preferência que ele declarou uma vez e nunca repetiu porque assumiu que você lembraria. Uma regra “guarde os últimos trinta dias” joga isso fora no dia trinta e um e guarda o “você pode deixar o título maior” de ontem. Recência não é relevância. Idade te diz quando algo foi dito, não se ainda é verdade ou se algum dia importou.

O conserto reverso é igualmente quebrado. Alguns times, queimados pelo corte, oscilam para um score de relevância: guarde o que o retriever achar similar à pergunta atual. Mas score de similaridade sobre um store poluído só recupera a poluição com mais confiança. Se a garagem está cheia de ferramentas quebradas, uma lanterna melhor as encontra mais rápido.

O conserto de verdade não é um store menor nem uma busca mais afiada. É um passo que nenhum dos dois tem: um momento em que o sistema olha para o que sabe e decide o que vale guardar. Humanos fazem isso no sono, consolidação é literalmente o que o cérebro faz durante a noite, repetindo o dia e decidindo o que vira memória durável e o que evapora. O store ingênuo pula esse passo inteiramente. Ele escreve e nunca reflete. Então o trabalho é adicionar a reflexão.

Nossa versão: três vereditos, guardar, comprimir, descartar

Aqui está a ideia central, e é simples. Nem toda memória merece o mesmo destino. Antes de uma memória virar permanente, ela recebe um de três vereditos.

Guarde verbatim. Alguns fatos têm que sobreviver palavra por palavra, porque a redação exata é load-bearing. O requisito rígido do cliente. O número no contrato. A decisão e seu escopo preciso. O nome escrito do jeito que eles escrevem. Resuma “o prazo é o último dia útil do trimestre” e você pode receber de volta “o prazo é fim de trimestre”, perto o suficiente para parecer certo e errado o suficiente para errar por três dias. Esses entram intocados, e ficam.

Comprima numa lição. A maior parte do que um agent experimenta não é um fato para recitar, é uma experiência para aprender. Vinte conversas onde um usuário ficou pedindo respostas mais curtas não precisam ser armazenadas como vinte conversas. Elas precisam colapsar numa única linha durável: este usuário prefere respostas concisas. Isso é consolidação fazendo o seu trabalho de verdade, transformar uma pilha de episódios numa única regra sobre a qual o agent consegue agir sem reler a pilha. A transcrição é a matéria-prima. A lição é o produto. Você guarda a lição e deixa a transcrição ir.

Descarte. E então há a maior categoria de longe: a coisa que importou por um turno e nunca mais. “Role para baixo.” “Abra aquele.” “Não, o outro arquivo.” Os passos intermediários de uma tarefa que teve sucesso. O galho morto que o agent explorou e abandonou. Nada disso tem qualquer valor futuro, e cada byte disso é ruído que a próxima recuperação tem que atravessar. A disciplina é jogá-lo fora de propósito, não porque armazenamento é caro, mas porque atenção é. Cada memória desatualizada que você guarda é uma memória que o agent pode recuperar em vez da certa.

Note o que esses três vereditos têm em comum: cada um é uma decisão sobre a utilidade futura de uma memória, não sua idade e não seu tamanho. Essa é a diferença entre consolidação e um cap. Um cap pergunta “quão velho é isto?” Consolidação pergunta “o agent vai precisar disto de novo algum dia, e em que forma?”

Guarde o que é verdade e load-bearing. Comprima o que se repete numa lição. Descarte o que só importou uma vez.

Uma memória entra na consolidação e é ordenada por utilidade futura em três resultados. Um fato load-bearing é guardado verbatim. Um padrão repetido ao longo de muitos episódios é comprimido numa única lição durável. Um detalhe de um turno só ou superado é descartado. Só os resultados guardar e comprimir chegam à memória de longo prazo.

A parte mais difícil: saber quando algo deixou de ser verdade

Guardar, comprimir, descartar é a metade fácil. A metade difícil é que memórias não anunciam educadamente quando expiram.

Uma decisão é tomada; o agent a armazena como um fato durável. Três semanas depois a decisão é revertida numa conversa de corredor que o agent meio-ouviu, e agora o store segura dois “fatos” contraditórios, ambos formulados com confiança, ambos com um timestamp. O store ingênuo guarda os dois e deixa a recuperação jogar uma moeda. É assim que um agent acaba citando um plano que o time matou, não porque alucinou, mas porque lembrou fielmente demais e nunca notou a contradição.

Então a consolidação precisa de mais um movimento além de ordenar: supersessão. Quando um novo fato contradiz um antigo, o antigo não simplesmente fica ao lado dele. Ele é marcado como ultrapassado, guardado para histórico se você precisa de uma trilha de auditoria, mas puxado para fora do caminho que responde “o que é verdade agora”. A resposta atual e o registro histórico são duas perguntas diferentes, e um sistema de memória que não consegue distingui-las vai confiantemente te dar a verdade do mês passado.

É também aqui que uma distinção valor-único-versus-muitos ganha seu lugar. Alguns fatos substituem o predecessor, um novo endereço de entrega sobrescreve o antigo, você não entrega nos dois. Outros se acumulam, uma segunda alergia não cancela a primeira; guarde as duas ou você criou um problema pior do que esquecer. Um passo de consolidação que trata todo fato novo como uma substituição vai silenciosamente deletar coisas que deveriam ter coexistido. Acertar isto é sem glamour e é a diferença entre uma memória que aprende e uma memória que mente.

A abordagem ingênua não tem nada disso. Ela escreve, nunca reflete, nunca supersede, e então o seu “conhecimento” é só um sedimento sempre-crescente onde o verdadeiro e o falso assentam na mesma camada. O conserto não é um modelo mais esperto lendo o sedimento. É um sistema que faz a geologia, que decide, continuamente, o que pertence à camada chamada agora.

O que isto compra, e o que se recusa a gastar

O trade-off honesto: consolidação te custa algo. Você abre mão do conforto de “guardamos tudo, então sempre podemos voltar”. Você aceita que um passo no seu sistema está deliberadamente jogando informação fora, e jogá-la fora é irreversível no store durável. Isso parece perigoso. Deveria, que é por que a faixa de guardar-verbatim e a opção de superseder-não-deletar existem, para que os fatos load-bearing e a trilha de auditoria sobrevivam mesmo enquanto o ruído é limpo.

O que você recebe de volta é a única coisa que de fato importa: um agent cuja memória o torna melhor com o tempo em vez de mais lento. O store fica pequeno o suficiente para recuperar de forma limpa. As lições se acumulam, o agent que aprendeu “este usuário quer respostas concisas” ao longo de vinte conversas dá respostas concisas na vigésima primeira sem ser informado de novo. E a verdade permanece encontrável, porque não está soterrada debaixo de quarenta repetições e uma decisão revertida vestindo o mesmo timestamp confiante.

O agent que lembra de tudo não é o que você quer. É o que não consegue te dizer o que sabe, porque sabe demais para saber qualquer coisa.

A virada: esquecer é como qualquer um fica bom num trabalho

Tire os agents disto e é só como a expertise sempre funcionou.

A melhor pessoa com quem você já trabalhou não é a que consegue recitar cada email dos últimos três anos. É a que esqueceu o ruído de propósito e guardou as lições. Ela não lembra das quatrocentas ligações de cliente, ela lembra do padrão que as quatrocentas ligações ensinaram, e lembra dos três contratos onde a redação exata importou, e deixa todo o resto ir. Isso não é um defeito na memória dela. É para o que a memória dela serve. O esquecer é o aprender. Uma mente que retivesse tudo com peso igual seria inútil, paralisada, incapaz de achar a única coisa que precisava debaixo do tudo que guardou.

Construímos memória de agent para esquecer do mesmo jeito, não por acidente, não por ficar sem espaço, mas como uma disciplina: guardar o que é verdade e load-bearing, comprimir o que se repete numa lição, descartar o que só importou uma vez. Porque o objetivo nunca foi um agent com uma transcrição perfeita da sua empresa. Foi um agent que ficava melhor na sua empresa a cada semana que rodava, um que aprendeu o que parar de carregar.

É essa parte do que estamos construindo na Apollo, um cérebro da empresa que não só acumula o que aconteceu, mas o consolida no que é verdade, para que os agents agindo em seu nome fiquem mais afiados com o tempo em vez de mais bagunçados. Se você já viu um sistema ficar lento precisamente porque se recusou a esquecer qualquer coisa, você já sabe por que a coisa mais importante que uma memória consegue fazer é decidir o que deixar para trás.

A Apollo cuida da operação repetitiva da sua empresa pro seu time não precisar.

Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.

Entrar na lista de espera