Engenharia

A maior parte da sua empresa está presa em pixels

O trabalho que importa vive em screenshots, PDFs escaneados e gráficos que nenhuma API expõe, e ler esses pixels é um trabalho diferente de clicar neles, mais difícil e muito mais útil.

ASR

Apollo Space Research

Apollo Space

· 11 min de leitura

Um fornecedor manda uma nota fiscal como um PDF escaneado. O total que você deve está bem ali, em fonte de 40 pontos, e seu software não consegue ler um único dígito dele. Para a máquina não é um número. É um retângulo de cinza. O valor que decide se você paga esta semana ou na próxima está em plena vista, e toda integração que você tem passa direto por ele.

Essa lacuna, entre o que um humano vê instantaneamente e o que o software consegue endereçar, é onde a maior parte do trabalho de verdade numa empresa se esconde.

Aqui está a linha em torno da qual este post inteiro orbita: o trabalho que você precisa está trancado nos pixels, e nenhuma API vai te entregá-lo. A correção ingênua é esperar por uma integração que nunca vem. A correção melhor é um agent que faz o que você faz, ele olha a tela e lê.

Dois trabalhos diferentes que as pessoas vivem confundindo

Há uma versão de “seu agent consegue usar a tela” que vem recebendo muita atenção, e é a errada para começar. Essa versão é sobre clicar. Mova o cursor, preencha o formulário, aperte o botão, dirija o software do jeito que as mãos de uma pessoa fariam. É uma capacidade real e importa. Mas não é o gargalo.

O gargalo é o outro trabalho: ler. Olhar um gráfico e saber que a linha caiu. Olhar um contrato escaneado e extrair a data da cláusula dezenove. Olhar um screenshot de dashboard colado num chat e responder a pergunta que alguém fez sobre ele.

Clicar é sobre agir numa superfície. Ler é sobre extrair significado de uma. E ler é onde o valor está, porque o significado é a parte que ninguém se deu ao trabalho de expor.

Pense em quanto da sua empresa já vive desse jeito. A nota fiscal que chega como uma imagem. A página de preços do concorrente que é um screenshot numa thread de Slack. O gráfico trimestral num deck de slides que não existe em lugar nenhum como uma linha de números. A nota manuscrita fotografada num celular. O relatório legado que seu banco manda como um PDF trancado. Cada um deles é um fato que seu negócio precisa, sentado atrás de uma parede de pixels, sem nenhum endpoint para chamar.

O trabalho que você precisa está trancado nos pixels, e nenhuma API vai te entregá-lo. Então a primeira coisa a construir não é um clicador melhor. É um leitor melhor.

O jeito ingênuo: esperar pela integração

O instinto, quando um sistema não consegue ler algo, é ir construir o cano. Ache a API do fornecedor. Negocie o export. Escreva o conector que transforma o documento em dado estruturado na fonte, para que o agent nunca tenha que olhar uma imagem.

É um instinto razoável, e para um pequeno conjunto de sistemas é o certo. Se uma API limpa existe, use-a, pixels são o fallback, não o objetivo.

Mas o instinto falha no momento em que você conta quantos sistemas não têm esse cano. A nota fiscal de um fornecedor cujo software de contabilidade é de 2009. O gráfico que sua própria ferramenta de analytics renderiza mas não deixa você exportar por baixo. O contrato que uma contraparte manda como um scan achatado precisamente para que você não consiga extrair facilmente. O dashboard interno que não tem botão de export porque ninguém nunca pediu. Não há integração para esperar, porque o dado nunca foi oferecido como dado. Ele foi oferecido como uma visualização.

E a dor se acumula. Todo “vamos integrar isso depois” é um fato que seus agents não conseguem ver, o que significa uma pergunta que eles não conseguem responder, o que significa um humano de volta no loop fazendo a leitura na mão, apertando os olhos para o PDF, redigitando o total, olhando o gráfico de relance, transcrevendo a foto. O backlog de integração não é uma lista de coisas-bom-ter. É o formato exato do trabalho que recaiu sobre as pessoas.

Uma integração é um fato que alguém concordou em expor. A maioria dos fatos, ninguém concordou.

Então esperar pelo cano não falha porque é lento. Falha porque para a maior parte da tela, o cano nunca vem. A visualização é a interface. Você ou ensina a máquina a ler a visualização, ou mantém um humano fazendo isso para sempre.

Duas pistas para tirar um fato de um documento. A pista ingênua espera por uma API que para a maioria dos documentos nunca chega, então um humano acaba lendo o scan na mão. A pista Apollo trata a própria visualização renderizada como a fonte, lê os pixels diretamente, e retorna o mesmo fato estruturado sem um conector.

O jeito Apollo: tratar a visualização como a fonte

Então invertemos a suposição. Em vez de perguntar “que API expõe este fato”, perguntamos “o que uma pessoa vê quando olha isso, e o agent consegue ver a mesma coisa”. A visualização renderizada, o screenshot, a página, o scan, o gráfico, vira um input de primeira classe, do mesmo jeito que uma linha de um banco de dados.

A ideia central é simples: um documento que o humano consegue ler é um documento que o agent deveria conseguir ler. Só que é mais difícil do que soa, e vale ser preciso sobre o que o faz de fato funcionar.

Ler pixels bem não é uma capacidade. São três, empilhadas, e pular qualquer uma te dá uma resposta errada confiante.

Primeiro, vê-lo fielmente. O agent tem que pegar a imagem como ela é, a inclinação de uma foto de celular, a compressão de um screenshot, o layout de duas colunas de um relatório, e resolver o que de fato está nela. Não um palpite a partir do nome do arquivo. Não a primeira metade antes de ficar preguiçoso. A superfície inteira, incluindo as letras miúdas, porque as letras miúdas geralmente são a parte que importa.

Segundo, achar o fato, não só as palavras. Ler as palavras de uma nota fiscal é a metade fácil. A metade difícil é saber que este número é o total e aquele número é o imposto e o terceiro é um código de conta com o qual você não se importa. Um gráfico não é uma lista de palavras de jeito nenhum; é um formato, e o fato é “a tendência se reverteu no terceiro trimestre”, que não aparece em lugar nenhum como texto. Extração é interpretação, e interpretação é onde um leitor ingênuo fabrica.

Terceiro, recusar-se a adivinhar. Esta é a que todo mundo pula, e é a que torna a coisa toda segura de usar. Quando o scan está borrado demais para ter certeza se o dígito é um 3 ou um 8, a única resposta aceitável é “não consigo ler esse, aqui está o recorte, você confirma”. Um leitor que sempre retorna um número é pior que inútil, porque retorna um número plausível, e um número errado plausível numa nota fiscal é como você paga o valor errado com plena confiança. O freio importa mais que a leitura.

Empilhe esses três e você obtém algo que se comporta menos como uma biblioteca de OCR e mais como um assistente cuidadoso: ele olha, extrai o fato que você precisava, e te diz quando não tem certeza em vez de blefar.

Ler não é clicar, e confundir os dois é uma armadilha

Vale ser afiado sobre por que esses dois trabalhos têm que ficar separados, porque a tentação é amassá-los numa única capacidade de “computer-use” e dar por encerrado.

A fusão ingênua diz: o agent tem olhos e mãos, então deixe-o olhar a tela e também operar a tela, tudo num loop. Demonstra lindamente. Então encontra a realidade, e a realidade é que agir numa superfície que você leu pela metade errado é como você causa dano de verdade. Leia errado um gráfico e seu resumo está errado, constrangedor, recuperável. Leia errado um gráfico e então clique enviar numa decisão baseada nele, isso é uma ação errada tomada com convicção, e a superfície não vai desfazer para você.

Ler é observação. Pior caso, está errado e você pega. Clicar é mutação. Pior caso, está errado e já aconteceu.

Então mantemos os dois como duas escadas, não uma. Ler vem primeiro e fica sozinho: extraia o fato, retorne-o, deixe um humano ou uma checagem a jusante usá-lo. Clicar é uma capacidade separada e mais guardada que só ganha seu lugar quando a leitura por baixo é confiável, e mesmo assim, o ato de apertar um botão que gasta dinheiro ou manda uma mensagem rota por uma confirmação, nunca direto de um relance nos pixels.

O ponto não é que clicar seja ruim. É que ler é a fundação e clicar é o piso construído em cima, e um piso sem fundação cai. Coloque um agent lendo a tela de forma confiável primeiro. Conquiste o direito de deixá-lo tocar a tela depois.

A escada de leitura versus a escada de clique. Ler são três passos seguros, ver a superfície fielmente, achar o fato dentro dela, e sinalizar qualquer coisa que não consiga confirmar. Clicar é mutação construída em cima, com portão de uma confirmação humana, e só se sustenta se a leitura por baixo é confiável.

Onde isso aparece no dia em que você liga

Isso para de ser abstrato a primeira vez que alguém solta um screenshot num chat e faz uma pergunta sobre ele.

Suponha que um operador cole uma foto do gráfico de receita do mês passado e digite “por que isso caiu”. Uma ferramenta reativa responde sobre o texto na mensagem e ignora a imagem inteiramente. Um leitor olha o gráfico, vê que a queda é na terceira semana, cruza o período com o que mais a empresa sabe que aconteceu naquela semana, e responde a pergunta de verdade. O fato vivia na imagem. Ninguém teve que redigitá-lo num formulário primeiro.

Ou pegue a nota fiscal. Digamos que uma pilha de PDFs de fornecedores chega, metade deles exports limpos e metade scans de scans. Os limpos, o agent lê num piscar. Os borrados, ele lê o que consegue e devolve os três itens de linha que não conseguiu confirmar com os recortes anexados, para que um humano gaste trinta segundos nos dígitos genuinamente ambíguos em vez de trinta minutos redigitando o lote inteiro. A atenção do humano vai só para a parte que precisou de um humano.

Ou a página de preços do concorrente que alguém tira um screenshot numa thread. Sem API, sem export, deliberadamente assim. O leitor trata o screenshot como a fonte, extrai os tiers e os números, e o fato entra no brain da empresa como dado, pesquisável, comparável, vivo, em vez de morrer como uma imagem que ninguém consegue consultar.

Em cada caso o formato é idêntico: um fato que o negócio precisava estava preso numa visualização, e a única coisa entre a empresa e esse fato era se o software conseguia ler pixels do jeito que uma pessoa lê. O trabalho que você precisa está trancado nos pixels, e nenhuma API vai te entregá-lo, mas a visualização nunca esteve de fato trancada. Ela só estava esperando por um leitor.

A virada: o imposto-do-aperto-de-olhos que ninguém coloca num orçamento

Aqui está a parte que não é sobre modelos ou pipelines.

Em toda empresa agora, alguém está fazendo essa leitura na mão. Alguém está apertando os olhos para a nota fiscal escaneada e digitando o total num campo. Alguém está olhando um gráfico num deck e escrevendo “caiu uns dez por cento, eu acho” num email. Alguém está fotografando um quadro branco depois de uma reunião e então, depois, transcrevendo porque a foto não é pesquisável. Nenhum desses trabalhos tem nome. Não aparece num roadmap. É só a fricção de um negócio cujos fatos mais importantes chegam como imagens.

Essa fricção tem um custo, e é um cruel, porque recai mais pesado sobre suas pessoas mais capazes, aquelas cujo julgamento você está pagando, gastando-o em transcrição. O imposto-do-aperto-de-olhos é invisível precisamente porque todo mundo assume que é só parte do trabalho. Nunca foi parte do trabalho. Era a ausência de um leitor.

A promessa aqui não é um chatbot mais inteligente. É que os fatos presos nos pixels, o total da nota fiscal, a tendência do gráfico, a data da cláusula, a nota fotografada, sejam lidos uma vez, pela máquina, fielmente, com um sinalizador em qualquer coisa que ela não tenha certeza. Para que o humano pare de ser os olhos da empresa e volte a ser o julgamento.


Isso é parte do que estamos construindo na Apollo Space, não só um agent com mãos que conseguem clicar seu software, mas um com olhos que conseguem lê-lo, os screenshots e scans e gráficos incluídos, e a honestidade de dizer não consigo distinguir este, você olha. A coisa mais valiosa na sua empresa não está atrás de uma API. Está em plena vista, em pixels, esperando por algo que possa finalmente lê-la.

A Apollo cuida da operação repetitiva da sua empresa pro seu time não precisar.

Entre na lista de espera: acesso antecipado, preço de usuário fundador e um lugar na primeira fila enquanto a gente constrói.

Entrar na lista de espera