Engenharia

Uma janela de contexto maior não é memória

Todo mundo está correndo atrás de modelos maiores. A vantagem competitiva real é memória. Após seis meses, seu agent SDR da Apollo Space conhece seu ICP melhor que qualquer novo contratado. Esse conhecimento se acumula. Modelos não.

ASR

Apollo Space Research

Apollo Space

· 16 min de leitura

A Corrida Errada

A indústria de IA está correndo a corrida errada.

A cada trimestre vem um novo anúncio de modelo: context windows maiores, scores mais altos em benchmarks, inferência mais rápida. Google empurra Gemini para 2 milhões de tokens. Anthropic estende Claude. OpenAI lança o3. A narrativa é que o modelo é o produto, e modelos melhores significam melhores resultados.

Para aplicações brutas de LLM, chatbots, geração single-turn, completação de código, essa narrativa está correta. Um modelo melhor produz melhores completações.

Para agents, a narrativa está errada. E a diferença entre a narrativa do LLM e a realidade do agent é a diferença entre construir uma vantagem competitiva e alugar a de outra pessoa.

Aqui está a tese que vou defender neste ensaio: o modelo é um insumo commodity. Memória é o moat. E a cada dia que seus agents rodam, seu moat fica mais fundo.

O Que Queremos Dizer Por Memória

Cobri a arquitetura de memória de agents em detalhe num post anterior, então vou resumir os três tipos aqui e focar nas suas implicações estratégicas.

Memória episódica: O registro do agent sobre o que aconteceu. Cada ação que tomou, cada resultado que observou, cada interação que teve. A memória episódica do agent SDR inclui cada email que enviou, cada resposta que recebeu, cada reunião que agendou e cada prospect que esfriou.

Memória semântica: O entendimento do agent sobre o que é verdade. Fatos, relacionamentos e conhecimento acumulados ao longo do tempo. A memória semântica do agent de competitor watch inclui um knowledge graph de produtos de concorrentes, seus preços, base de clientes e posicionamento estratégico.

Memória procedural: Os procedimentos aprendidos do agent sobre como fazer coisas. Não instruções hardcoded, mas workflows otimizados extraídos da experiência. A memória procedural do agent de QA inclui procedimentos de teste refinados por cada bug que pegou e cada falso positivo que gerou.

Esses três tipos de memória interagem. Memória episódica alimenta memória semântica (eventos se tornam conhecimento) e memória procedural (resultados se tornam procedimentos). O efeito composto dessa interação é o que cria o moat.

O Efeito Composto

Deixe-me mostrar como seis meses de acumulação de memória parecem em termos concretos.

Agent SDR: Mês 1 vs. Mês 6

Mês 1 (Outubro 2025):

  • Memória episódica: 847 eventos de outreach, 312 resultados registrados
  • Memória semântica: 156 perfis de prospects, 12 insights de indústria
  • Memória procedural: 4 templates de outreach, 2 heurísticas de timing
  • Performance: 12 reuniões agendadas, taxa de conversão de 1,4%

Mês 6 (Março 2026):

  • Memória episódica: 6.892 eventos de outreach, 4.103 resultados registrados
  • Memória semântica: 1.247 perfis de prospects, 89 insights de indústria, 34 fatos de posicionamento competitivo
  • Memória procedural: 23 estratégias de outreach, 14 heurísticas de timing, 8 procedimentos de tratamento de objeções, 6 modelos de scoring de qualificação
  • Performance: 47 reuniões agendadas por mês, taxa de conversão de 3,9%

A melhoria de 2,8x na taxa de conversão não veio de um modelo melhor. Não atualizamos o LLM subjacente entre o mês 1 e o mês 6. O mesmo modelo, com as mesmas capacidades, performou 2,8x melhor porque tinha 2,8x mais conhecimento sobre nosso contexto específico.

Esse é o efeito composto. Cada evento de outreach gera dados. Os dados alimentam a memória. Memória melhora decisões futuras. Melhores decisões geram melhores dados. O ciclo acelera.

Um novo lançamento de modelo pode melhorar performance em 10-15% em benchmarks. Seis meses de memória acumulada melhoraram a performance do nosso agent SDR em 179%. A vantagem de memória não é incremental, é exponencial.

Agent de Competitor Watch: O Knowledge Graph

A memória semântica do agent de competitor watch após seis meses contém 2.417 entidades conectadas por 8.934 relacionamentos. Isso inclui:

  • 4 concorrentes primários com 89 atributos rastreados cada (preços, features, posicionamento, mudanças de time, vitórias/derrotas de clientes)
  • 312 prospects com contexto competitivo (qual concorrente usam atualmente, o que gostam/não gostam, probabilidade de troca)
  • 47 tendências de indústria com scores de confiança e evidência de suporte
  • 23 narrativas competitivas, temas recorrentes em como concorrentes se posicionam e onde suas mensagens têm gaps

Esse knowledge graph não veio de um dataset de treinamento. Foi construído observação por observação, ao longo de seis meses de monitoramento contínuo. Quando um novo prospect entra no nosso pipeline, o agent de competitor watch pode instantaneamente revelar seu fornecedor atual, as mudanças de preço recentes desse fornecedor, as dores prováveis do prospect baseadas no segmento, e a narrativa competitiva mais provável de ressoar, tudo da memória.

Nenhuma context window, não importa quão grande, pode replicar isso. Uma context window de 2 milhões de tokens poderia teoricamente conter essa informação para uma única chamada. Mas precisaria ser reconstruída do zero a cada chamada, custaria uma fortuna em tokens, e a precisão de recuperação (encontrar os 50 fatos relevantes em 2 milhões de tokens de contexto) seria pobre comparada a um sistema de memória construído para o propósito com recuperação estruturada.

Context Windows vs. Memória: A Distinção Técnica

A indústria de IA confunde context windows com memória porque, superficialmente, servem o mesmo propósito: dar ao modelo informação que precisa para tomar decisões. Mas os mecanismos são fundamentalmente diferentes, e as diferenças têm implicações estratégicas.

Custo

Context windows são caras por-chamada. Cada token que você coloca na context window é processado pelo modelo em cada chamada. Se você enfia 100K tokens de contexto em cada chamada, paga por 100K tokens de processamento de input toda vez que o agent toma uma decisão. Nos preços atuais de API (aproximadamente $3-15 por milhão de tokens de input dependendo do modelo), um agent tomando 500 decisões por dia com 100K tokens de contexto custaria $150-750/dia apenas em tokens de input.

Memória é cara de construir mas barata de consultar. O passo de recuperação, encontrar os 50 fatos mais relevantes num banco de dados de milhares, custa uma fração de centavo. Os fatos relevantes (talvez 2.000-4.000 tokens) são injetados numa context window muito menor. O agent obtém melhor informação por uma fração do custo.

A recuperação de memória do nosso agent SDR custa aproximadamente $0,02 por decisão. A abordagem equivalente com context window, enfiar todo histórico relevante no prompt, custaria aproximadamente $1,40 por decisão em densidade de informação comparável. Isso é uma diferença de 70x.

Precisão

Uma context window é um saco de texto. O modelo processa com mecanismos de atenção que podem, em teoria, atender a qualquer parte do input. Na prática, atenção tem vieses bem documentados: informação no início e fim da context window recebe mais atenção que informação no meio (o fenômeno “lost in the middle,” documentado por Liu et al. em 2023 e ainda presente em modelos de 2026, embora reduzido).

Memória usa recuperação estruturada. Quando o agent SDR precisa saber sobre um prospect, consulta memória episódica com o identificador do prospect e recupera eventos específicos e relevantes. Quando precisa de conhecimento da indústria, consulta o knowledge graph com o segmento do prospect e recupera fatos conectados. A relevância da informação recuperada é controlada pelo algoritmo de recuperação, não pelos padrões de atenção do modelo.

Em nossos testes, recuperação baseada em memória revela a informação relevante correta 91% das vezes. Abordagens baseadas em context window (enfiar tudo no prompt e deixar o modelo encontrar o que precisa) revelam a informação correta cerca de 64% das vezes para contextos acima de 50K tokens. A lacuna aumenta conforme a densidade de informação cresce.

Persistência

Context windows são efêmeras. Quando a chamada de API termina, o contexto se foi. Nada é retido. A próxima chamada começa do zero.

Memória persiste. Conhecimento acumulado hoje está disponível amanhã, semana que vem e seis meses depois. Procedimentos aprendidos de uma interação se aplicam a todas as futuras. As capacidades do agent crescem monotonicamente, ele nunca esquece o que aprendeu (a menos que você explicitamente pode sua memória, o que fazemos seletivamente para informação desatualizada).

Essa persistência é o que cria o efeito composto. Uma context window dá a melhor performance de chamada única. Memória dá a melhor trajetória de performance ao longo do tempo.

A Tese do Moat

Aqui está o argumento estratégico.

Modelos são insumos commodity. Hoje, você pode acessar GPT-4, Claude, Gemini, Llama e dezenas de outros modelos capazes através de APIs padrão. O panorama de modelos é competitivo, e as capacidades estão convergindo. Qualquer vantagem que você obtém de um modelo específico é temporária, o próximo lançamento de um concorrente estreita a lacuna.

Você não pode construir vantagem competitiva em insumos commodity. Não construiria um moat por ter acesso a eletricidade melhor ou internet mais rápida. Modelos são a mesma categoria: um insumo necessário a que todos têm acesso.

Memória é proprietária. A memória do seu agent é única da sua organização. Contém suas interações com prospects, sua inteligência competitiva, seus procedimentos de teste, seus padrões operacionais. Nenhum concorrente pode replicá-la porque foi construída a partir da sua experiência específica ao longo de meses de operação.

Essa assimetria, modelo commodity mais memória proprietária, é a mesma estrutura dos moats tradicionais de software. A vantagem do Salesforce não é o motor de banco de dados (commodity). São seus dados no banco de dados (proprietários). A vantagem do Google não é o algoritmo de busca sozinho (replicável). É o índice construído por décadas de crawling e os dados comportamentais de bilhões de consultas (irreproduzíveis).

Memória de agent segue o mesmo padrão. O modelo é o motor. A memória são os dados. E os dados são o moat.

O Argumento do Custo de Troca

Memória cria custos naturais de troca que aumentam com o tempo. Após um mês com Apollo Space, seus agents têm familiaridade básica com suas operações. Após três meses, têm expertise significativa. Após seis meses, têm conhecimento organizacional profundo que levaria meses para reconstruir em qualquer outra plataforma.

Isso não é lock-in por APIs proprietárias ou formatos de dados, é lock-in por valor acumulado. Você poderia tecnicamente exportar a memória (suportamos exportação de memória). Mas importá-la numa arquitetura de agent diferente, com schemas de memória diferentes, algoritmos de recuperação diferentes e loops de decisão diferentes, degradaria seu valor significativamente. A memória é estruturada para nossa arquitetura, e reestruturá-la é uma migração não trivial.

É análogo a trocar de CRM. Você pode exportar seus dados do Salesforce. Mas importá-los no HubSpot significa reestruturar campos, reconstruir workflows e restabelecer integrações. Os dados migram; o valor parcialmente não.

Para agents, o custo de troca é ainda maior porque memória inclui conhecimento procedural, não apenas dados, mas comportamentos aprendidos. Procedimentos são profundamente acoplados ao loop de decisão e conjunto de ferramentas do agent. Migrar um procedimento de uma arquitetura de agent para outra está mais perto de reaprender do que de migração de dados.

A Vantagem de Seis Meses

Temos dados internos que quantificam a vantagem de memória. São de um experimento natural: embarcamos dois clientes similares (mesma indústria, tamanho similar, casos de uso similares) com três meses de diferença. Cliente A começou em outubro de 2025. Cliente B começou em janeiro de 2026. Ambos deployaram o agent SDR com configuração idêntica.

Em março de 2026:

  • Agent SDR do Cliente A (6 meses de memória): 3,9% de conversão email-para-reunião, 47 reuniões/mês
  • Agent SDR do Cliente B (3 meses de memória): 2,4% de conversão email-para-reunião, 28 reuniões/mês

Ambos os agents usam o mesmo modelo. O mesmo código. A mesma camada de orquestração. A única diferença são três meses adicionais de memória, três meses de eventos episódicos, conhecimento semântico e otimizações procedurais que o agent do Cliente A acumulou e o do Cliente B ainda não.

O agent do Cliente B provavelmente alcançará performance similar por volta do mês 6. A trajetória é consistente entre clientes. Mas em qualquer momento dado, o agent com mais memória supera o agent com menos memória, tudo mais sendo igual.

Essa é a curva de composição. E significa que quanto mais cedo você começar a construir memória de agent, maior sua vantagem sobre concorrentes que começam depois. Não é apenas uma feature de produto, é um moat baseado em tempo.

Por Que Context Windows Maiores Não Fecham a Lacuna

O contra-argumento que mais ouço: “Context windows estão ficando maiores. Quando tivermos janelas de 10 milhões de tokens, não vamos precisar de memória, vamos colocar tudo no contexto.”

Esse argumento falha em três dimensões.

Economia

Uma context window de 10 milhões de tokens, mesmo a preços futuros otimistas de $0,50 por milhão de tokens, custaria $5,00 por chamada de inferência. Um agent tomando 500 decisões por dia custaria $2.500/dia em tokens de input. São $75.000/mês para um agent. Rodamos doze.

Recuperação baseada em memória na mesma escala custaria aproximadamente $0,02 por decisão, ou $10/dia. A economia não converge com escala, ela diverge. Context windows maiores são mais caras por chamada. Melhores sistemas de memória são mais baratos por consulta.

Sinal-Ruído

Despejar milhões de tokens numa context window cria um problema de agulha-no-palheiro. O modelo precisa encontrar os 50 fatos relevantes em 10 milhões de tokens de contexto. Mesmo com atenção perfeita (que nenhum modelo tem), o custo computacional de atender 10 milhões de tokens é enorme, e a precisão prática é baixa.

Pesquisa do Google Brain (2025) sobre recuperação em contexto longo mostrou que precisão de recuperação factual cai para aproximadamente 43% para documentos colocados no terço médio de contextos excedendo 1 milhão de tokens. Recuperação baseada em memória, usando bancos de dados vetoriais e de grafos construídos para o propósito, mantém precisão de 90%+ independentemente do tamanho total da base de conhecimento porque a recuperação acontece antes do modelo ver qualquer contexto.

Estrutura

Context windows são texto plano. Memória é estruturada. Você pode consultá-la, filtrá-la, agregá-la e raciocinar sobre ela antes de chegar ao modelo.

Quando o agent SDR precisa saber “qual é nossa taxa de vitória contra CompeteLogic no segmento fintech para deals acima de $100K,” é uma consulta estruturada contra memória semântica. Retorna um número preciso. Numa context window, a mesma pergunta requereria que o modelo escaneasse potencialmente milhões de tokens de histórico de interações não estruturado e computasse a resposta, uma tarefa que modelos atuais não conseguem performar confiavelmente.

Estrutura não é uma feature da memória. É a diferença fundamental entre “ter informação” e “ter conhecimento.”

Construindo Memória Que Se Acumula

Para times construindo sistemas de agents, aqui está o que aprendemos sobre arquitetura de memória que maximiza o efeito composto.

Escreva Tudo, Recupere Seletivamente

Cada ação do agent, cada resultado, cada observação deveria ser escrita na memória episódica. Armazenamento é barato. O custo de não ter um dado quando precisar depois é alto. Nosso agent SDR escreve aproximadamente 40 eventos episódicos por dia. Em seis meses, são 7.200 eventos. O custo de armazenamento: cerca de $0,30 no total.

Mas a recuperação deve ser seletiva. Despejar 7.200 eventos na context window seria contraproducente. O sistema de recuperação precisa revelar os 10-20 eventos mais relevantes para qualquer decisão dada. Isso significa investir em qualidade de recuperação: bons embeddings, metadados estruturados para consultas filtradas e scoring de relevância ajustado ao contexto de decisão de cada agent.

Extraia Princípios de Eventos

Memória episódica é a matéria-prima. Memória semântica e procedural são o produto refinado. O processo de extração, transformar eventos em conhecimento e procedimentos, é onde a composição acontece.

Rodamos extração semanalmente para cada agent. O processo analisa memória episódica recente por padrões: resultados repetidos, correlações consistentes e procedimentos generalizáveis. Quando um padrão é detectado com confiança suficiente (baseado em tamanho de amostra e consistência), é promovido para memória semântica ou procedural.

Exemplo: Após o agent SDR observar que emails enviados nas terças entre 9-10h para CTOs de fintech tinham taxa de resposta 2,3x maior que qualquer outro horário, essa observação foi promovida de episódica (eventos individuais) para procedural (uma heurística de timing aplicada a todo futuro outreach para CTOs de fintech).

Decaia Graciosamente

Nem toda memória é para sempre. Fatos ficam desatualizados. Procedimentos se tornam obsoletos. Concorrentes mudam estratégias. O sistema de memória precisa decair graciosamente, reduzindo confiança em informação antiga sem deletá-la.

Implementamos isso através de funções de decaimento de confiança. Cada entrada de memória tem um score de confiança que diminui com o tempo a menos que seja atualizado por novas observações. Uma entrada de memória semântica sobre preços de um concorrente tem meia-vida de 90 dias, se não for revalidada por uma nova observação em 90 dias, sua confiança cai para 50%, e o agent a trata como incerta.

Isso previne o agent de agir com informação desatualizada com falsa confiança. Também cria um mecanismo natural de manutenção: o monitoramento contínuo do agent de competitor watch atualiza a memória semântica, mantendo inteligência competitiva atual. Se o agent para de monitorar (por falha ou mudança de configuração), a memória degrada previsivelmente em vez de permanecer falsamente confiante.

Proteja Integridade da Memória

Corrupção de memória é mais perigosa que perda de memória. Um fato falso na memória semântica será usado em decisões até ser detectado e corrigido. Um procedimento alucinado na memória procedural será aplicado a situações reais até falhar vezes suficientes para ser aposentado.

Protegemos integridade da memória através de rastreamento de proveniência. Cada entrada de memória é vinculada à sua fonte, os eventos episódicos específicos, resultados de ferramentas ou inputs humanos que a geraram. Se uma fonte é posteriormente considerada não confiável (um resultado de ferramenta alucinado, um mal-entendido corrigido desde então), todas as entradas de memória derivadas daquela fonte são flaggadas para revisão.

A Verdadeira Vantagem Competitiva

Seis meses a partir de agora, o panorama de modelos vai parecer diferente. Alguns modelos serão melhores. Alguns mais baratos. Alguns terão context windows maiores. O ritmo de melhoria é implacável, e qualquer vantagem baseada em escolha de modelo será temporária.

Seis meses a partir de agora, a memória do seu agent conterá seis meses do conhecimento operacional da sua organização, conhecimento extraído dos seus prospects específicos, seus concorrentes específicos, seus processos específicos e seus resultados específicos. Nenhum upgrade de modelo pode replicá-lo. Nenhum concorrente pode comprá-lo. Nenhum atalho pode acelerá-lo.

Esse é o moat. Não o modelo que você usa. Não o framework no qual constrói. O conhecimento acumulado, composto e irreproduzível que seus agents constroem a cada dia que rodam.

Comece a construí-lo agora. Cada dia que você espera é um dia de composição que não recupera.

Comece a construir a vantagem de memória do seu agent, entre na lista de acesso antecipado

Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.

Entrar na lista de espera