As pesquisas têm sido usadas para obter insights sobre populações, produtos e opinião pública desde tempos imemoriais. E embora as metodologias possam ter mudado ao longo dos milénios, uma coisa permaneceu constante: a necessidade de pessoas, muitas pessoas.

Mas e se você não conseguir encontrar pessoas suficientes para construir um grupo de amostra grande o suficiente para gerar resultados significativos? Ou, e se você pudesse encontrar pessoas suficientes, mas as restrições orçamentárias limitassem a quantidade de pessoas que você pode contratar e entrevistar?

É aqui que Fairgen quer ajudar. A startup israelense lançou hoje uma plataforma que usa “IA estatística” para gerar dados sintéticos que diz serem tão bons quanto os reais. A empresa também está anunciando uma nova arrecadação de fundos de US$ 5,5 milhões da Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia e um punhado de investidores anjos, elevando seu dinheiro total arrecadado desde o início para US$ 8 milhões.

“Dados falsos”

Os dados podem ser os força vital da IA, mas também tem sido a base da pesquisa de mercado desde sempre. Portanto, quando os dois mundos colidem, como acontece no mundo da Fairgen, a necessidade de dados de qualidade torna-se um pouco mais pronunciada.

Fundada em Tel Aviv, Israel, em 2021, a Fairgen estava anteriormente focada em combatendo o preconceito na IA. Mas no final de 2022, a empresa mudou para um novo produto, Fairboostque agora está saindo da versão beta.

Fairboost promete “impulsionar” um conjunto de dados menor em até três vezes, permitindo insights mais granulares sobre nichos que de outra forma seriam muito difíceis ou caros de alcançar. Usando isso, as empresas podem treinar um modelo de aprendizado de máquina profundo para cada conjunto de dados que carregam na plataforma Fairgen, com padrões estatísticos de aprendizado de IA nos diferentes segmentos da pesquisa.

O conceito de “dados sintéticos” – dados criados artificialmente e não a partir de eventos do mundo real – não é novo. Suas raízes remontam aos primórdios da computação, quando era usada para testar softwares e algoritmos e simular processos. Mas os dados sintéticos, tal como os entendemos hoje, ganharam vida própria, especialmente com o advento da aprendizagem automática, onde são cada vez mais utilizados para treinar modelos. Podemos abordar tanto questões de escassez de dados como questões de privacidade de dados usando dados gerados artificialmente que não contêm informações confidenciais.

Fairgen é a mais recente startup a testar dados sintéticos e tem a pesquisa de mercado como alvo principal. É importante notar que a Fairgen não produz dados do nada, nem lança milhões de pesquisas históricas em um caldeirão alimentado por IA – os pesquisadores de mercado precisam realizar uma pesquisa para uma pequena amostra de seu mercado-alvo e, a partir disso, a Fairgen estabelece padrões para expandir a amostra. A empresa afirma que pode garantir um aumento de pelo menos duas vezes na amostra original, mas, em média, pode atingir um aumento de três vezes.

Dessa forma, a Fairgen poderá estabelecer que alguém de uma determinada faixa etária e/ou nível de renda está mais inclinado a responder a uma pergunta de uma determinada maneira. Ou combine qualquer número de pontos de dados para extrapolar a partir do conjunto de dados original. Trata-se basicamente de gerar o que o cofundador e CEO da Fairgen Samuel Cohen diz serem “segmentos de dados mais fortes e robustos, com uma margem de erro menor”.

“A principal constatação foi que as pessoas estão se tornando cada vez mais diversificadas – as marcas precisam se adaptar a isso e entender seus segmentos de clientes”, explicou Cohen ao TechCrunch. “Os segmentos são muito diferentes – a Geração Z pensa de forma diferente das pessoas mais velhas. E para conseguir ter esse entendimento de mercado em nível de segmento custa muito dinheiro, exige muito tempo e recursos operacionais. E foi aí que percebi que estava o ponto problemático. Sabíamos que os dados sintéticos tinham um papel a desempenhar nisso.”

Uma crítica óbvia – que a empresa admite ter enfrentado – é que tudo isto soa como um enorme atalho para ter de ir a campo, entrevistar pessoas reais e recolher opiniões reais.

Certamente qualquer grupo sub-representado deveria se preocupar com o fato de suas vozes reais estarem sendo substituídas por, bem, vozes falsas?

“Cada cliente com quem conversamos na área de pesquisa tem enormes pontos cegos – públicos totalmente difíceis de alcançar”, disse o chefe de crescimento da Fairgen, Fernando Zatz, disse ao TechCrunch. “Na verdade, eles não vendem projetos porque não há gente suficiente disponível, especialmente em um mundo cada vez mais diversificado, onde há muita segmentação de mercado. Às vezes não podem entrar em países específicos; eles não podem entrar em dados demográficos específicos, então, na verdade, perdem em projetos porque não conseguem atingir suas cotas. Eles têm um número mínimo [of respondents]e se não atingirem esse número, não vendem os insights.”

A Fairgen não é a única empresa que aplica IA generativa no campo da pesquisa de mercado. A Qualtrics disse no ano passado que estava investindo US$ 500 milhões ao longo de quatro anos para trazer IA generativa para sua plataforma, embora com um foco substantivo na pesquisa qualitativa. No entanto, é mais uma prova de que os dados sintéticos estão aqui e vieram para ficar.

Mas a validação dos resultados desempenhará um papel importante para convencer as pessoas de que este é o verdadeiro negócio e não uma medida de redução de custos que produzirá resultados abaixo do ideal. Fairgen faz isso comparando um aumento de amostra “real” com um aumento de amostra “sintético” – ele pega uma pequena amostra do conjunto de dados, extrapola-a e coloca-a lado a lado com a realidade.

“Com cada cliente que inscrevemos, fazemos exatamente o mesmo tipo de teste”, disse Cohen.

Estatisticamente falando

Cohen tem mestrado em ciências estatísticas pela Universidade de Oxford e doutorado em aprendizado de máquina pela UCL de Londres, parte do qual envolveu um período de nove meses como cientista pesquisador na Meta.

Um dos cofundadores da empresa é presidente Benny Schnaiderque anteriormente atuava no espaço de software empresarial, com quatro saídas em seu nome: Ravello para a Oracle por US$ 500 milhões em 2016; Qumranet para Red Hat por US$ 107 milhões em 2008; P-Cube para Cisco para US$ 200 milhões em 2004; e Pentacom para Cisco por US$ 118 em 2000.

E então há Emmanuel Candesprofessor de estatística e engenharia elétrica na Universidade de Stanford, que atua como principal consultor científico da Fairgen.

Esta espinha dorsal empresarial e matemática é um importante argumento de venda para uma empresa que tenta convencer o mundo de que dados falsos podem ser tão bons quanto dados reais, se aplicados corretamente. É também assim que eles conseguem explicar claramente os limites e limitações de sua tecnologia – qual o tamanho que as amostras precisam ter para atingir os aumentos ideais.

De acordo com Cohen, o ideal é que eles precisem de pelo menos 300 entrevistados reais para uma pesquisa e, a partir disso, a Fairboost pode aumentar o tamanho de um segmento que não constitui mais do que 15% da pesquisa mais ampla.

“Abaixo de 15%, podemos garantir um aumento médio de 3x após validá-lo com centenas de testes paralelos”, disse Cohen. “Estatisticamente, os ganhos são menos dramáticos acima de 15%. Os dados já apresentam bons níveis de confiança e os nossos entrevistados sintéticos só podem potencialmente igualá-los ou trazer um aumento marginal. Em termos de negócios, também não há problemas acima de 15% – as marcas já podem aprender com esses grupos; eles estão presos apenas no nível de nicho.”

O fator não-LLM

É importante notar que a Fairgen não usa grandes modelos de linguagem (LLMs) e sua plataforma não gera respostas em “inglês simples” à la ChatGPT. A razão para isto é que um LLM utilizará aprendizagens de uma miríade de outras fontes de dados fora dos parâmetros do estudo, o que aumenta as hipóteses de introdução de preconceitos incompatíveis com a investigação quantitativa.

Fairgen trata de modelos estatísticos e dados tabulares, e seu treinamento depende exclusivamente dos dados contidos no conjunto de dados carregado. Isso permite efetivamente que os pesquisadores de mercado gerem respondentes novos e sintéticos, extrapolando a partir de segmentos adjacentes na pesquisa.

“Não usamos nenhum LLM por um motivo muito simples: se fôssemos pré-treinar em muitos [other] pesquisas, isso apenas transmitiria desinformação”, disse Cohen. “Porque haveria casos em que se aprenderia algo em outra pesquisa, e não queremos isso. É tudo uma questão de confiabilidade.”

Em termos de modelo de negócios, a Fairgen é vendida como um SaaS, com as empresas enviando suas pesquisas em qualquer formato estruturado (.CSV ou .SAV) para a plataforma baseada em nuvem da Fairgen. De acordo com Cohen, leva até 20 minutos para treinar o modelo com base nos dados da pesquisa fornecidos, dependendo do número de perguntas. O usuário então seleciona um “segmento” (um subconjunto de entrevistados que compartilham certas características) – por exemplo, “Geração Z trabalhando na indústria x” – e então a Fairgen entrega um novo arquivo estruturado de forma idêntica ao arquivo de treinamento original, com exatamente as mesmas perguntas , apenas novas linhas.

Fairgen está sendo usado por BVA e empresa francesa de pesquisas e pesquisas de mercado IFOP, que já integraram a tecnologia da startup em seus serviços. IFOP, que é um pouco como Gallup nos EUA, está a usar o Fairgen para fins de sondagem nas eleições europeias, embora Cohen pense que também poderá acabar por ser usado nas eleições dos EUA ainda este ano.

“Os IFOP são basicamente o nosso selo de aprovação, porque existem há cerca de 100 anos”, disse Cohen. “Eles validaram a tecnologia e foram nosso parceiro de design original. Também estamos testando ou já integrando algumas das maiores empresas de pesquisa de mercado do mundo, sobre as quais ainda não tenho permissão para falar.”

Fuente