Tese de Automação

Instantâneo é o novo padrão

Quando o agent do outro lado nunca dorme, 'a gente retorna' deixa de soar educado e começa a soar quebrado, o relógio do cliente reseta para agora, e empresas que respondem em lote parecem lentas por comparação.

ASR

Apollo Space Research

Apollo Space

· 11 min de leitura

Um cliente manda mensagem para duas empresas na mesma noite com a mesma pergunta. Uma responde em nove segundos, uma resposta de verdade, não um número de chamado, com o preço certo e o próximo passo. A outra envia uma resposta automática: obrigado, retornaremos em até um dia útil. De manhã a primeira empresa já tem o negócio meio fechado e a segunda ainda está numa fila. Ninguém decidiu essa corrida. O cliente apenas notou quem apareceu.

Essa lacuna costumava ser invisível. Ambas as empresas “responderam”, afinal, uma rápida, uma lenta, ambas dentro do que educadamente chamávamos de normal. A coisa que mudou não é que rápido ficou mais rápido. É que lento começou a parecer quebrado.

Quando o agent do outro lado nunca dorme, “a gente retorna” deixa de ser educado e começa a ser uma confissão. Este post é sobre por que o relógio do cliente acabou de resetar para agora, e o que isso faz com toda empresa que ainda responde suas mensagens em lote.

A expectativa não foi derivando. Ela estalou.

Aqui está a parte fácil de perder se você só observa sua própria empresa. A paciência do cliente não se degrada devagar, um pouco a cada ano, do jeito que gostamos de imaginar. Ela reseta no momento em que um provedor na vida de alguém responde instantaneamente, e aí ela nunca mais volta.

Uma pessoa não tem um orçamento de paciência separado para cada empresa com que lida. Ela tem um. O banco que aprova um cartão em dois segundos, o app de comida que reroteia um pedido atrasado antes de ela reclamar, a companhia aérea que avisa por mensagem a mudança de portão antes do painel atualizar, cada um deles ensina a mesma lição, e a lição se transfere. Na hora em que essa pessoa chega ao seu formulário de contato, ela não está te avaliando contra seus concorrentes. Está te avaliando contra a coisa mais rápida que aconteceu com ela o dia inteiro.

Quando o agent do outro lado nunca dorme, “a gente retorna” deixa de ser educado e começa a ser uma confissão. O cliente ouve: não estamos com gente para você agora. Ele não está errado. A resposta automática é verdadeira. Ela só costumava ser aceitável e não é mais, porque o conjunto de comparação mudou debaixo dos seus pés.

A leitura ingênua disso é “as pessoas ficaram mais impacientes”. Essa é a versão que te tira do gancho, faz do cliente o problema, e a correção é pedir que ele espere com gentileza. A leitura honesta é o oposto. As pessoas não ficaram impacientes. Algumas empresas ficaram instantâneas, e o instantâneo, uma vez provado em qualquer lugar, vira o piso em todo lugar. O padrão se moveu. Você está sendo medido contra ele, tendo você optado por isso ou não.

Por que “a gente retorna” sempre foi um artefato de dimensionamento

Dê um passo atrás e pergunte por que o atraso existia em primeiro lugar. Não por que ele é ruim, por que ele esteve ali.

A história ingênua é que boas respostas levam tempo. Trabalho cuidadoso não pode ser apressado; uma resposta cuidadosa vale a espera. Essa história nos lisonjeia, e para as perguntas genuinamente difíceis é até verdade. Mas não é por isso que a maioria das respostas é lenta. A maioria das respostas é lenta por uma razão bem menos nobre: há um humano, o humano está ocupado, o humano está dormindo, o humano está numa reunião, o humano tem outras quarenta mensagens, e a sua é a número quarenta e um.

O atraso nunca foi sobre a dificuldade da resposta. Era sobre a disponibilidade de quem responde.

Esse é todo o mecanismo. “A gente retorna” é uma fila, e uma fila é o que você constrói quando a demanda chega mais rápido do que humanos conseguem atender. A frase não é um padrão de serviço. É uma confissão sobre throughput vestida de cortesia. Respondíamos em lote porque o lote era a única forma de um time finito sobreviver a uma caixa de entrada infinita, responder em blocos, duas vezes ao dia, quando alguém finalmente tinha meia hora livre.

Por décadas isso foi simplesmente o custo de fazer negócios, e todo mundo o pagava, então ninguém perdia por pagá-lo. O cliente esperava porque toda empresa o fazia esperar. A fila era universal, o que a tornava invisível. Você não consegue se sentir lento quando o mercado inteiro está na mesma velocidade.

A empresa instantânea quebra essa simetria. Ela não tem um humano na posição um da fila, porque não tem fila. Ela tem um sistema que leu a pergunta, sabia o contexto e respondeu enquanto o cliente ainda estava na página. Agora a espera não é mais universal, e no momento em que ela não é universal, é uma desvantagem com o seu nome nela.

À esquerda, a forma antiga: uma mensagem de cliente cai numa fila, espera um humano ocupado ficar livre e recebe uma resposta em lote horas depois. À direita, o novo padrão: a mensagem alcança um sistema com o contexto da empresa e uma resposta volta em segundos, enquanto o cliente ainda está na página.

A armadilha: velocidade sem a empresa por trás

Agora a objeção óbvia, e é uma boa. Se instantâneo é o novo padrão, qualquer um não pode simplesmente parafusar um chatbot no site e considerar resolvido?

É aqui que a maioria dos projetos “adicionamos IA” quietamente falha, e vale ser preciso sobre o porquê. Rápido e errado não é uma pequena melhora sobre lento e certo. Frequentemente é pior. Uma resposta que chega em dois segundos e cota o preço errado, promete uma feature que você não tem, ou alegremente inventa uma política não é um serviço mais rápido. É uma forma mais rápida de perder confiança. O cliente queria agora, sim, mas queria agora de você, com seus fatos, seus preços, seus compromissos. Não agora de um estranho usando seu logo.

A versão ingênua de ir instantâneo é um modelo genérico com um tom amigável e nenhuma ideia para quem trabalha. É rápido porque é vazio. Faça a ele a única pergunta que de fato importa, você consegue fazer X para a minha situação específica até sexta, e ele ou chuta ou trava, e agora você gastou seu único tiro de velocidade numa resposta sobre a qual o cliente não consegue agir. Velocidade sem ancoragem não vence o humano lento. O humano lento ao menos sabia o preço.

A versão que funciona é mais lenta de construir e instantânea de usar, porque a velocidade vem de um lugar que o chatbot não tem: o conhecimento da própria empresa, já montado, já atual. A resposta é rápida porque o sistema já sabia o preço, já sabia o último pedido deste cliente, já sabia em qual de três planos ele está e o que está prometido no contrato. Não está gerando uma resposta plausível. Está lendo a empresa e dizendo a verdade em nove segundos em vez de nove horas.

Instantâneo só conta quando a resposta instantânea também é a certa.

Essa é a distinção que o mercado está prestes a impor, com força. A primeira onda de “ficamos rápidos” vai estar cheia de respostas erradas e confiantes, e os clientes vão aprender, rápido, porque agora aprendem tudo rápido, a desconfiar da empresa rápida que é rápida e oca. A vantagem durável não é um chatbot. É um sistema ancorado no que a empresa de fato sabe, respondendo na velocidade que o cliente agora espera, sem inventar coisas para bater o relógio.

Duas formas de ir rápido. À esquerda, um bot genérico responde em segundos mas chuta o preço e inventa uma política, rápido e errado, o que perde confiança. À direita, um sistema ancorado no conhecimento da própria empresa responde igualmente rápido com o preço real e o próximo passo, rápido e certo, o que mantém o cliente.

A assimetria: noites, fins de semana e a pergunta das 23h

Há uma segunda aresta nisso que é fácil subestimar, porque ela não aparece no seu tempo médio de resposta. Ela aparece nas respostas que você nunca teve a chance de dar.

Pense em quando os clientes de fato entram em contato. Não às 10h de uma terça quando seu time está montado e afiado. Eles entram em contato quando estão pensando em você, o que costuma ser à noite, no fim de semana, na hora tranquila depois do jantar quando finalmente têm tempo de considerar a compra ou remoer o problema. A mensagem cai às 23h. O humano que poderia respondê-la está, corretamente, dormindo. Então a pergunta espera até de manhã, e de manhã o momento esfriou. O cliente que estava pronto para comprar às 23h está navegando num concorrente ao meio-dia.

A correção ingênua é montar as noites, um turno da madrugada, um time offshore, alguém sempre acordado para pegar as perguntas tardias. É caro, é duro com as pessoas, e ainda tem uma fila. Você moveu o artefato de dimensionamento, não o removeu. A pergunta das 23h ainda espera atrás da pergunta das 22h58, e a pessoa respondendo às 3h está, compreensivelmente, longe do seu melhor.

Um sistema que nunca dorme não tem um turno da madrugada, porque não tem turnos. A pergunta das 23h recebe a mesma resposta de nove segundos, ancorada e correta, que a das 11h. Digamos que uma fatia significativa do seu inbound chega fora do horário comercial, para muitas empresas é a maior parte, porque é quando os humanos estão livres para serem clientes. Cada uma dessas mensagens costumava envelhecer durante a noite. Agora nenhuma envelhece. Isso não é uma pequena eficiência. É a diferença entre pegar um cliente no pico de sua intenção e pegá-lo depois que ela passou.

Essa é a assimetria que compõe. A empresa instantânea não é só mais rápida durante o dia. Ela está presente nas horas em que seus concorrentes estão no escuro, e essas horas são exatamente quando o cliente estava prestando mais atenção.

A virada: isto é sobre o tempo do cliente, não o seu

Aqui está a parte que não é sobre software de jeito nenhum.

Continuamos enquadrando velocidade como uma métrica operacional, tempo de resposta, SLA, chamados por hora, como se fosse sobre nós, nossa eficiência, nosso throughput. Nunca foi sobre nós. O relógio do cliente é o único relógio que importa, e o que o cliente está de fato te dizendo quando espera uma resposta instantânea é algo mais humano do que impaciência. Ele está te dizendo que o tempo dele merece respeito. A espera sempre foi um pequeno imposto que cobrávamos dele para que pudéssemos agrupar nossas vidas de forma mais confortável. Ele o pagava porque não tinha escolha. Agora ele tem escolha.

Quando você responde em nove segundos com a resposta certa, você não está exibindo sua stack. Você está dizendo: a sua pergunta importou o suficiente para estarmos prontos para ela. É isso que o cliente de fato sente, não “esta empresa é rápida” mas “esta empresa estava me esperando”. É a mesma sensação que a Donna dá ao Harvey quando ela sabe a coisa antes dele perguntar. Lê-se como cuidado, porque o trabalho de estar pronto foi feito antes de ser necessário.

As empresas que vencem os próximos anos não vencerão porque seu modelo é mais esperto. Elas vencerão porque pararam de fazer o cliente esperar um humano ficar livre, e começaram a deixar a pergunta do cliente alcançar algo que já sabia a resposta e nunca precisava ser acordado. Instantâneo não é uma feature que você adiciona. É como respeito pelo tempo de alguém se parece quando a tecnologia finalmente permite.


É isso que estamos construindo na Apollo, não uma forma mais rápida de mandar a resposta automática, mas uma empresa que já está pronta quando o cliente chega, ancorada no que o negócio de fato sabe, acordada às 23h para que uma pessoa não precise estar. “A gente retorna” sempre foi uma promessa sobre a nossa agenda. O cliente só estava perguntando sobre a dele.

A Apollo cuida da operação repetitiva da sua empresa pro seu time não precisar.

Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.

Entrar na lista de espera