Home Notícias Spawning quer construir conjuntos de dados de treinamento de IA mais éticos

Spawning quer construir conjuntos de dados de treinamento de IA mais éticos

Spawning quer construir conjuntos de dados de treinamento de IA mais éticos

Jordan Meyer e Mathew Dryhurst fundaram a Spawning AI para criar ferramentas que ajudem os artistas a exercer mais controle sobre como suas obras são usadas online. Seu último projeto, chamado Fonte.Plustem como objetivo selecionar mídia “não infratora” para treinamento de modelos de IA.

A primeira iniciativa do projeto Source.Plus é um conjunto de dados semeado com quase 40 milhões de imagens de domínio público e imagens sob o domínio Licença CC0 da Creative Commons, que permite aos criadores renunciarem a quase todos os direitos legais sobre suas obras. Meyer afirma que, apesar de ser substancialmente menor do que alguns outros conjuntos de dados de treinamento de IA generativos por aí, o conjunto de dados do Source.Plus já é de “alta qualidade” o suficiente para treinar um modelo de geração de imagens de última geração.

“Com o Source.Plus, estamos construindo uma plataforma universal de adesão”, disse Meyer. “Nosso objetivo é tornar mais fácil para os detentores de direitos oferecerem suas mídias para uso em treinamento generativo de IA – em seus próprios termos – e sem atrito para os desenvolvedores incorporarem essa mídia em seus fluxos de trabalho de treinamento.”

Gestão de direitos

O debate em torno da ética do treinamento de modelos generativos de IA, especialmente modelos de geração de arte como Stable Diffusion e OpenAI DALL-E 3, continua inabalável – e tem enormes implicações para os artistas, independentemente de a poeira acabar baixando.

Os modelos generativos de IA “aprendem” a produzir os seus resultados, por exemplo arte fotorrealista, treinando numa vasta quantidade de dados relevantes – imagens, nesse caso. Alguns desenvolvedores desses modelos argumentam que o uso justo lhes dá o direito de extrair dados de fontes públicas, independentemente do status de direitos autorais desses dados. Outros tentaram seguir os limites, compensando ou pelo menos dando crédito aos proprietários de conteúdo por suas contribuições aos conjuntos de treinamento.

Meyer, CEO da Spawning, acredita que ninguém definiu a melhor abordagem – ainda.

“O treinamento em IA freqüentemente usa como padrão os dados mais fáceis disponíveis – que nem sempre são os mais justos ou de origem responsável”, disse ele ao TechCrunch em uma entrevista. “Os artistas e detentores de direitos têm pouco controle sobre como seus dados são usados ​​para treinamento em IA, e os desenvolvedores não têm alternativas de alta qualidade que facilitem o respeito aos direitos de dados.”

Source.Plus, disponível em versão beta limitada, baseia-se nas ferramentas existentes da Spawning para proveniência de arte e gerenciamento de direitos de uso.

Em 2022, a Spawning criou o HaveIBeenTrained, um site que permite aos criadores optar por não receber os conjuntos de dados de treinamento usados ​​por fornecedores que fizeram parceria com a Spawning, incluindo Hugging Face e Stability AI. Depois de levantar US$ 3 milhões em capital de risco de investidores, incluindo True Ventures e Seed Club Ventures, a Spawning lançou o ai.text, uma forma de os sites “definirem permissões” para IA, e um sistema – Kudurru – para se defender contra bots de coleta de dados.

Source.Plus é o primeiro esforço da Spawning para construir uma biblioteca de mídia – e fazer a curadoria dessa biblioteca internamente. O conjunto inicial de dados de imagem, PD/CC0, pode ser usado para aplicações comerciais ou de pesquisa, diz Meyer.

A biblioteca Source.Plus.
Créditos da imagem: Desova

“Source.Plus não é apenas um repositório para dados de treinamento; é uma plataforma de enriquecimento com ferramentas para apoiar o pipeline de treinamento”, continuou ele. “Nosso objetivo é ter um conjunto de dados CC0 de alta qualidade e não infrator, capaz de suportar um poderoso modelo de base de IA disponível durante o ano.”

Organizações como Getty Images, Adobe, Shutterstock e a startup de IA Bria afirmam usar apenas dados de fontes justas para treinamento de modelos. (Getty chega ao ponto de chamar seus produtos de IA generativa de “comercialmente seguros”.) Mas Meyer diz que a Spawning pretende estabelecer um “bar mais alto” para o que significa obter dados de forma justa.

Source.Plus filtra imagens para “opt-outs” e outras preferências de treinamento de artistas, mostrando informações de proveniência sobre como – e de onde – as imagens foram obtidas. Também exclui imagens que não estão licenciadas sob CC0, incluindo aquelas com um Licença Creative Commons BY 1.0, que requerem atribuição. E Spawning diz que está monitorando contestações de direitos autorais de fontes onde alguém que não seja os criadores é responsável por indicar o status de direitos autorais de uma obra, como o Wikimedia Commons.

“Validamos meticulosamente as licenças relatadas das imagens que coletamos e quaisquer licenças questionáveis ​​foram excluídas – uma etapa que muitos conjuntos de dados ‘justos’ não realizam”, disse Meyer.

Historicamente, imagens problemáticas – incluindo imagens pessoais sensíveis, violentas e pornográficas – têm atormentado conjuntos de dados de treinamento abertos e comerciais.

Os mantenedores do conjunto de dados LAION foram forçados a colocar uma biblioteca off-line após a descoberta de relatórios registros médicos e representações de abuso sexual infantil; ainda esta semana, um estudar da Human Rights Watch descobriu que um dos repositórios do LAION incluía rostos de crianças brasileiras sem o consentimento ou conhecimento dessas crianças. Em outro lugar, a biblioteca de mídia de estoque da Adobe, Adobe Stock, que a empresa usa para treinar seus modelos generativos de IA, incluindo o modelo Firefly Image de geração de arte, foi descobriu-se que contém imagens geradas por IA de rivais, incluindo Midjourney.

Fonte de desova.Plus
Arte na galeria Source.Plus.
Créditos da imagem: Desova

A solução da Spawning são modelos classificadores treinados para detectar nudez, sangue coagulado, informações de identificação pessoal e outros bits indesejáveis ​​em imagens. Reconhecendo que nenhum classificador é perfeito, a Spawning planeja permitir que os usuários filtrem “flexivelmente” o conjunto de dados Source.Plus ajustando os limites de detecção dos classificadores, diz Meyer.

“Empregamos moderadores para verificar a propriedade dos dados”, acrescentou Meyer. “Também temos recursos de remediação integrados, onde os usuários podem sinalizar obras infratoras ou possíveis infrações, e a trilha de como esses dados foram consumidos pode ser auditada.”

Compensação

A maioria dos programas para compensar os criadores pelas suas contribuições generativas de dados de treinamento de IA não foram excepcionalmente bem. Alguns programas dependem de métricas opacas para calcular os pagamentos aos criadores, enquanto outros pagam quantias que os artistas consideram excessivamente baixas.

Veja o Shutterstock, por exemplo. A biblioteca de mídia de estoque, que fez acordos com fornecedores de IA que chegam a dezenas de milhões de dólares, paga um “fundo de contribuidores” pelas obras de arte que usa para treinar seus modelos generativos de IA ou licenças para desenvolvedores terceirizados. Mas a Shutterstock não é transparente sobre o que os artistas podem esperar ganhar, nem permite que os artistas estabeleçam os seus próprios preços e condições; uma estimativa de terceiros fixa os ganhos em US$ 15 por 2.000 imagens, o que não é exatamente uma quantia impressionante.

Assim que o Source.Plus sair da versão beta ainda este ano e se expandir para conjuntos de dados além do PD/CC0, ele adotará uma abordagem diferente de outras plataformas, permitindo que artistas e detentores de direitos definam seus próprios preços por download. A desova cobrará uma taxa, mas apenas uma taxa fixa – um “décimo de centavo”, diz Meyer.

Os clientes também podem optar por pagar ao Spawning US$ 10 por mês – mais a taxa típica de download por imagem – pelo Source.Plus Curation, um plano de assinatura que permite gerenciar coleções de imagens de forma privada, baixar os dados configurados até 10.000 vezes por mês e obtenha acesso antecipado a novos recursos, como coleções “premium” e enriquecimento de dados.

Fonte de desova.Plus
Créditos da imagem: Desova

“Forneceremos orientações e recomendações com base nos padrões atuais da indústria e métricas internas, mas, em última análise, os colaboradores do conjunto de dados determinam o que faz com que valha a pena para eles”, disse Meyer. “Escolhemos este modelo de preços intencionalmente para dar aos artistas a maior parte das receitas e permitir-lhes definir os seus próprios termos de participação. Acreditamos que esta divisão de receitas é significativamente mais favorável para os artistas do que a divisão percentual de receitas mais comum, e levará a pagamentos mais elevados e a uma maior transparência.”

Caso o Source.Plus ganhe a força que o Spawning espera, o Spawning pretende expandi-lo além das imagens para outros tipos de mídia também, incluindo áudio e vídeo. A Spawning está em negociações com empresas não identificadas para disponibilizar seus dados no Source.Plus. E, diz Meyer, a Spawning pode construir seus próprios modelos generativos de IA usando dados dos conjuntos de dados Source.Plus.

“Esperamos que os detentores de direitos que desejam participar na economia generativa de IA tenham a oportunidade de fazê-lo e recebam uma compensação justa”, disse Meyer. “Também esperamos que os artistas e desenvolvedores que se sentiram em conflito com o envolvimento com a IA tenham a oportunidade de fazê-lo de uma forma que respeite outros criativos.”

Certamente, Spawning tem um nicho para conquistar aqui. Source.Plus parece ser uma das tentativas mais promissoras de envolver artistas no processo generativo de desenvolvimento de IA – e deixá-los compartilhar os lucros de seu trabalho.

Como escreveu recentemente minha colega Amanda, o surgimento de aplicativos como a comunidade de hospedagem de arte Cara, que teve um aumento no uso depois que o Meta anunciou que poderia treinar sua IA generativa em conteúdo do Instagram, incluindo conteúdo de artista, mostra que a comunidade criativa alcançou um ponto de ruptura. Eles estão desesperados por alternativas para empresas e plataformas que consideram ladrões – e o Source.Plus pode ser viável.

Mas se Spawning sempre age no melhor interesse dos artistas (um grande se, considerando que Spawning é um negócio apoiado por capital de risco), eu me pergunto se Source.Plus pode crescer com tanto sucesso quanto Meyer imagina. Se a mídia social nos ensinou alguma coisa, é que a moderação – especialmente de milhões de conteúdos gerados por usuários – é um problema intratável.

Descobriremos em breve.

Fuente