04/12/2024

A startup de busca que tenta transformar a web em um banco de dados

Exa, generative search, pesquisa gerativa, ia, ai

Uma nova rodada na pesquisa generativa

A empresa de pesquisa Exa quer usar a tecnologia por trás de grandes modelos de linguagem para domar a selvageria da Web.

Uma startup chamada Exa está propondo uma nova abordagem para a pesquisa generativa. Ela usa a tecnologia por trás de grandes modelos de linguagem para retornar listas de resultados. Ela afirma que seus resultados são mais precisos do que os de seus rivais, incluindo Google e OpenAI. Com a finalidade de transformar o emaranhado caótico de páginas da Web da Internet em uma espécie de diretório. O objetivo é obter resultados específicos e precisos.

A Exa já fornece seu mecanismo de busca como um serviço de back-end para empresas que desejam criar seus próprios aplicativos com base nele. Hoje, ela está lançando a primeira versão para o consumidor desse mecanismo de busca, chamada Websets.

“A Web é uma coleção de dados, mas é uma bagunça”, diz o cofundador e CEO da Exa, Will Bryk. “Há um vídeo do Joe Rogan aqui, um artigo da Atlantic ali. Não há organização. Mas o sonho é que a Web pareça um banco de dados.”

O Websets é voltado para usuários avançados que precisam procurar coisas que outros mecanismos de pesquisa não conseguem encontrar, como tipos de pessoas ou empresas. Ao perguntar por “startups que fabricam hardware futurista”, você obtém uma lista de empresas específicas com centenas de anos. Ao invés de links para páginas da Web que mencionam esses termos. O Google não pode fazer isso, diz Bryk: “Há muitos casos de uso valiosos para investidores ou recrutadores ou realmente qualquer pessoa que queira qualquer tipo de conjunto de dados da Web”.

O histórico

As coisas mudaram rapidamente desde que a MIT Technology Review divulgou a notícia em 2021 de que os pesquisadores do Google estavam explorando o uso de grandes modelos de linguagem em um novo tipo de mecanismo de busca. A ideia logo atraiu críticos ferozes. Mas as empresas de tecnologia não deram muita importância. Três anos depois, gigantes como o Google e a Microsoft disputam espaço com uma série de recém-chegados, como a Perplexity e a OpenAI. A Exa lançou o ChatGPT Search em outubro para participar dessa nova tendência.

A Exa (ainda) não está tentando superar nenhuma dessas empresas. Em vez disso, está propondo algo novo. A maioria das outras empresas de pesquisa envolve grandes modelos de linguagem nos mecanismos de pesquisa existentes. Usam os modelos para analisar a consulta de um usuário e resumir os resultados. Mas os mecanismos de pesquisa em si não mudaram muito. A Perplexity ainda direciona suas consultas para a Pesquisa Google ou o Bing, por exemplo. Pense nos atuais mecanismos de pesquisa com IA como um sanduíche com pão fresco, mas recheio velho.

Mais que palavras-chave

O Exa fornece aos usuários listas familiares de links, mas usa a tecnologia por trás de grandes modelos de linguagem. Pois a ideia é reinventar a forma como a própria pesquisa é feita. A conceito básico é o seguinte: O Google trabalha rastreando a Web e criando um vasto índice de palavras-chave. Elas, em seguida, são combinadas com as consultas dos usuários. O Exa rastreia a Web e codifica o conteúdo das páginas da Web em um formato conhecido como embeddings. Esse formato pode ser processado por grandes modelos de linguagem.

Os embeddings transformam palavras em números de tal forma que palavras com significados semelhantes se tornam números com valores semelhantes. Na verdade, isso permite que o Exa capture o significado do texto nas páginas da Web, não apenas as palavras-chave.

Uma captura de tela do Websets mostrando os resultados da pesquisa: “empresas; startups; sediadas nos EUA; foco em saúde; cofundador técnico”

Os resultados

O Websets é muito lento no retorno dos resultados. Às vezes, uma pesquisa pode levar vários minutos. Mas Bryk afirma que vale a pena. “Muitos de nossos clientes começaram a pedir milhares ou dezenas de milhares de resultados”, diz ele. “E eles não se importavam em ir tomar uma xícara de café e voltar para uma lista enorme.”

“Acho o Exa mais útil quando não sei exatamente o que estou procurando”, diz Andrew Gao, um estudante de ciência da computação da Universidade de Stanford que já usou o mecanismo de busca. “Por exemplo, a consulta ‘uma publicação de blog interessante sobre LLMs em finanças’ funciona melhor no Exa do que no Perplexity.” Mas eles são bons em coisas diferentes, diz ele: “Eu uso os dois para finalidades diferentes”.

“Acho que os embeddings são uma ótima maneira de representar entidades como pessoas, lugares e coisas do mundo real”, diz Mike Tung, CEO da Diffbot, uma empresa que usa gráficos de conhecimento para criar mais um tipo de mecanismo de pesquisa. Mas ele observa que você perde muitas informações se tentar incorporar frases ou páginas inteiras de texto: “Representar Guerra e Paz como uma única incorporação perderia quase todos os eventos específicos que aconteceram nessa história, deixando apenas uma noção geral de seu gênero e período.”

Um trabalho em andamento

Bryk reconhece que o Exa é um trabalho em andamento. Ele também aponta outras limitações. O Exa não é tão bom quanto os mecanismos de pesquisa concorrentes se você quiser apenas procurar uma única informação, como o nome do namorado de Taylor Swift ou quem é Will Bryk: “Ele vai dar um monte de pessoas que soam como poloneses, porque meu sobrenome é polonês e os embeddings são ruins em corresponder a palavras-chave exatas”, diz ele.

Por enquanto, o Exa contorna esse problema colocando as palavras-chave de volta na mistura quando elas são necessárias. Mas Bryk está otimista: “Estamos cobrindo as lacunas no método de incorporação até que o método de incorporação fique tão bom que não precisemos cobrir as lacunas.”

Fonte: Technology Review

Leia outras notícias em nosso blog