Pensamento de Produto

Voz é a interface que o trabalho proativo estava esperando

Digitar é uma interface de pull; você vai até ela. Proatividade é push; ela vem até você. Um OS que fala primeiro precisa de um canal que você possa responder sem parar, e esse canal é a sua voz.

ASR

Apollo Space Research

Apollo Space

· 12 min de leitura

Você está dirigindo pro escritório e a sua empresa tem algo pra te contar. Não um buzz. Não uma bolinha vermelha que você vai limpar no próximo sinal sem ler. Uma frase de verdade: a renovação que você esqueceu vence sexta, a reunião das 9h mudou, e um dos e-mails da madrugada é do tipo que você vai querer responder antes de estacionar. Você não abriu nada. Não poderia ter aberto, suas mãos estão no volante. Então o briefing foi lido pra você, e você disse “empurra a ligação da renovação pra esta tarde e rascunha a resposta,” e estava feito antes de você entrar na rodovia.

Agora imagine esse mesmo briefing como uma notificação. É uma aba que você tem de abrir, uma thread que você tem de rolar, num momento em que você tem de estar parado e olhando pra um vidro. A informação é idêntica. A interface só a quebrou.

Essa lacuna é o post inteiro. Digitar é uma interface de pull; você vai até ela. Proatividade é push; ela vem até você. O meio tem de combinar com o comportamento, e pra um software que fala primeiro, o meio que combina é a voz.

O descompasso que ninguém nomeia: um sistema de push vestindo uma interface de pull

Aqui está a coisa que quase todo “assistente de IA” entende ao contrário, e é tão comum que paramos de reparar.

O produto é vendido como proativo. Ele fica de olho na sua caixa de entrada, na sua agenda, no seu CRM. Ele deveria revelar a coisa antes de você pedir. Esse é o pitch, e é o pitch certo, a propriedade rara e valiosa no software é quem fala primeiro. Uma caixa que você abre e consulta é uma ferramenta. Um sistema que chega com a coisa que você precisava é um colega.

Mas aí você olha como você de fato o usa, e é uma caixa de texto. Você abre um app. Você se senta. Você digita uma pergunta. Você lê uma resposta. Cada um desses verbos, abrir, sentar, digitar, ler, é algo que você inicia, num momento que você escolhe, enquanto está parado e encarando uma tela. A interface é construída inteiramente em torno do pull, em torno de você ir até ela.

Então o sistema tem um trabalho de push e um corpo de pull. Ele quer te alcançar no momento em que a data da renovação dispara numa terça à tarde, mas a única porta dele é uma tela que você tem de estar olhando, num app que você tem de ter aberto, pronto pra ler. Na maior parte do tempo você não está. Você está numa reunião, num passeio, entre duas coisas, com as mãos cheias. O insight proativo chega e espera numa bandeja pela próxima vez que você por acaso estiver no vidro. Aí já está velho, ou enterrado, ou, o destino mais comum, é o quadragésimo primeiro badge não lido e você limpa todos sem olhar.

O gargalo nunca desaparece. Ele só se move. A gente o moveu de “o sistema não sabia” pra “o sistema sabia, e não conseguiu te alcançar de uma forma que você pudesse receber enquanto vive o seu dia.”

A correção ingênua: deixe a notificação mais alta

O patch óbvio é empurrar mais forte. Se o insight está se perdendo, escale. Badge maior. Um banner. Um buzz no pulso. Um e-mail sobre a notificação. Todos nós já vimos uma ferramenta tentar isso, e todos sabemos como termina.

Termina com você desligando as notificações.

A razão é simples e vale dizer com clareza: uma notificação é uma interrupção que ainda te faz fazer o trabalho. Ela toca no seu ombro e então te entrega uma tela. Você tem de parar o que está fazendo, trocar de contexto pro vidro, abrir a coisa, lê-la, e decidir. O alerta era push; tudo depois do alerta é pull. Você está de volta a ir até ele, exceto que agora você também foi arrancado de qualquer coisa que estava de fato fazendo. Mais alto não conserta o descompasso. Mais alto é o descompasso, amplificado, que é por que a resposta honesta a um assistente barulhento é silenciá-lo.

Então a pergunta não é “como pegamos a sua atenção com mais força.” É “como entregamos a coisa inteira, o briefing e a sua resposta a ele, sem exigir que você pare, sente e encare.” Segure a pergunta. Ela tem uma resposta familiar.

Um sistema de push vestindo uma interface de pull: o cérebro da empresa detecta algo no momento em que acontece, mas a única porta dele é uma tela que você precisa estar olhando, então o insight espera numa bandeja e fica velho. A alternativa roteia o mesmo insight pra um canal que você consegue receber enquanto suas mãos e olhos estão ocupados.

Como os humanos já resolveram isso

A gente não inventou a entrega proativa. Nós a temos desde que temos bons assistentes, e o canal nunca foi uma tela. Foi uma frase dita em voz alta.

Um ótimo chefe de gabinete não te manda um formulário pra preencher. Ele te pega no corredor e diz “a ligação do conselho mudou pras quatro, e você vai querer ler o segundo e-mail antes dela.” Você diz “remarca a minha das três e meia e diz a eles que sim,” ainda andando, e está resolvido. Nenhum app foi aberto. Nenhuma aba foi rolada. A troca inteira, a revelação, a decisão, o despacho, aconteceu no meio que os humanos usam quando estão ocupados e em movimento e precisam lidar com algo agora: a fala.

Essa é a parte que a caixa de texto não consegue. A fala é a única interface que sobrevive a você estar em pleno movimento. Você consegue ouvir uma frase com os olhos na estrada. Você consegue responder uma com as mãos na pia. Você consegue ter um loop inteiro de decisão-e-despacho andando do carro até o lobby, e em nenhum momento você tem de ficar parado e olhar pra um vidro. A razão de os melhores assistentes humanos parecerem proativos não é que eles são mais inteligentes. É que eles te alcançam num canal que se encaixa num corpo em movimento. Eles falam, e você responde, e o trabalho se move.

Esta é a linha à qual ficamos voltando: um OS que fala primeiro precisa de um canal que você possa responder sem parar, e esse canal é a sua voz.

Digitar é o canal pra quando você decidiu ir até o sistema. Voz é o canal pra quando o sistema precisa vir até você. A maior parte do dia é o segundo caso, e a gente vem forçando-o pela interface construída pro primeiro.

Voz não é uma feature. É o meio que combina com push.

Queremos ser cuidadosos aqui, porque “adicione voz” é um checkbox que uma centena de produtos já marcou, e quase todos eles erraram do mesmo jeito. Eles parafusaram um microfone no pull. Você ainda abre o app. Você ainda vai até ele. A única mudança é que você fala a sua consulta em vez de digitá-la. Isso não é voz-como-o-meio-pra-proatividade. É um jeito ligeiramente mais rápido de fazer a coisa que você já estava fazendo enquanto sentado no vidro. O problema do push fica intocado.

A versão que importa roda na direção oposta. O sistema inicia. Ele leu a caixa de entrada, deu nota na agenda, pegou a data prestes a morder, os quatro trabalhos que um bom briefing matinal faz, e em vez de depositar isso numa bandeja que você vai checar quando der, ele fala. Um briefing falado, composto uma vez, entregue a um canal que você consegue receber com os olhos em outro lugar. E o caminho de resposta está aberto no mesmo meio: você responde em voz alta, a resposta é uma instrução, a instrução é executada. Revelar, decidir, despachar, tudo por voz, tudo enquanto você está fazendo outra coisa.

A versão ingênua de “assistente de voz” é você, parado, falando com uma caixa de busca. Por que ela falha: ela não resolve nada, porque a parte difícil nunca foi a velocidade de digitação, era que você não estava na tela quando importou. A nossa versão é o sistema falando o briefing pra um corpo em movimento e agindo sobre a resposta falada. A diferença é a direção. Uma é um pull mais rápido. A outra é push que finalmente tem um corpo.

Um briefing falado que você consegue responder com as mãos cheias não é um chatbot mais rápido. É a primeira interface que se encaixa no jeito que o trabalho de fato chega.

Dois assistentes de voz, direções opostas. À esquerda, voz parafusada no pull: você abre o app, você fala uma consulta, você lê a resposta, a exigência da tela nunca se moveu. À direita, voz como o meio pra push: o sistema fala o briefing primeiro, você responde em voz alta, e a instrução falada é executada, sem vidro exigido em nenhum passo.

O que a voz exige do sistema por baixo

Existe uma razão pra a maioria dos produtos parar no microfone parafusado, e não é preguiça. Voz-como-push é difícil, e é difícil de um jeito que expõe se a coisa embaixo do capô é real.

Uma caixa de texto perdoa muito. Ela pode despejar dez parágrafos e te deixar passar o olho. Ela pode oferecer seis botões e te deixar escolher. Ela pode ser vaga e sobreviver, porque os seus olhos fazem a triagem. A fala não pode. Um briefing falado tem de ser curto, você não consegue passar o olho num áudio, então o sistema já tem de ter feito o corte, até as três coisas que importam e a única data prestes a morder, ditas na ordem que você precisa. A triagem que uma tela poderia empurrar pros seus olhos, a voz força de volta pro sistema. Isso não é uma escolha de UI. É uma exigência de que a coisa de fato seja inteligente o bastante pra ranquear antes de falar.

E o lado da resposta sobe as apostas de novo. Quando você diz “empurra a ligação da renovação pra esta tarde e rascunha a resposta” com as mãos no volante, você não consegue revisar o que acontece em seguida. Não há tela pra confirmar, nenhum formulário pra checar duas vezes. Então o sistema tem de ser confiável o bastante pra agir sobre uma instrução falada, pra saber quando “faz” significa faz, e quando algo é consequente o bastante pra que ele deva segurar e confirmar em vez de chutar. Voz não te deixa construir um agent descuidado e escondê-lo atrás de um diálogo de confirmação. O meio mais fácil de receber é o menos perdoador de um sistema que não sabe o que está fazendo.

Que é, argumentaríamos, exatamente por que a voz é a função de forçamento certa. Ela só funciona em cima de um cérebro de empresa que genuinamente leu o seu mundo e um agent que você de fato deixaria agir sobre a sua palavra. Você não consegue fingir com um microfone. A interface que se encaixa na proatividade também por acaso é a interface que é honesta sobre se a proatividade é real.

A virada: a interface decide quem pode ser proativo

Afaste-se do microfone por um segundo, porque isso nunca foi de fato sobre voz.

É sobre um fato mais silencioso: o canal que você entrega determina quem na empresa ganha o benefício. Quando a única porta é uma tela que você tem de estar sentado, o sistema proativo só consegue ajudar a parte do dia de alguém que é passada numa mesa, que, pras pessoas que tocam uma empresa, é a parte menor. O fundador está no carro, na reunião, no chão de fábrica, entre dois incêndios. O operador está andando pelo prédio. O vendedor está no corredor antes da ligação. Essas são exatamente as pessoas pras quais um OS proativo é mais valioso, e exatamente as pessoas que uma interface só-de-tela não consegue alcançar quando conta. Então o insight é gerado, e então ele espera por um momento de quietude que, pras pessoas mais ocupadas e mais importantes, raramente chega.

Um briefing falado que você consegue responder sem parar muda quem está ao alcance. Significa que a empresa consegue alcançar as pessoas dela durante os oitenta por cento do dia em que elas não estão no vidro, que é os oitenta por cento em que a renovação vence, o deal vira, a decisão é tomada no instinto porque ninguém revelou o fato a tempo. O valor da proatividade sempre foi limitado pelo alcance do canal dela. A voz levanta o limite.

Esse é o argumento inteiro, e é menor e mais estranho que “voz é o futuro.” É só isto: um sistema que fala primeiro precisa de um jeito de ser ouvido enquanto você vive o seu dia, e o único meio que faz isso é o que você já está usando pra lidar com todo o resto em movimento. Um OS que fala primeiro precisa de um canal que você possa responder sem parar, e esse canal é a sua voz. A gente construiu o briefing pra manhã em que você está correndo pra sair pela porta, não pra manhã em que você se senta pra lê-lo.


É isso que estamos construindo na Apollo, não uma caixa mais rápida com a qual você fala, mas uma empresa que consegue dizer a coisa que importa em voz alta, no momento em que importa, e agir sobre a sua resposta antes de você ter chegado à sua mesa. Se você já limpou quarenta notificações sem ler uma, você já sabe que o problema nunca foi que o sistema não sabia. É que ele não tinha jeito de te contar que se encaixasse numa mão no volante.

A Apollo cuida da operação repetitiva da sua empresa pro seu time não precisar.

Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.

Entrar na lista de espera