17/12/2024

Harvard está lançando um enorme conjunto de dados de treinamento em IA gratuito, financiado pela OpenAI e pela Microsoft

AI,AI training, books, Enterprise, harvard university, ,In Brief,Institutional Data Initiative, LLMs, Media & Entertainment,OpenAI, treinamenot de ia, empreendimento, media & entretenimento, impreza host, google, microsoft, open ai

O líder do projeto diz que permitir que todos acessem a coleção de livros de domínio público. Isso ajudará a “nivelar o campo de atuação” no setor de IA.

A Universidade de Harvard anunciou que está lançando um banco de dados de alta qualidade. Ele tem quase 1 milhão de livros de domínio público. Ele pode ser usado por qualquer pessoa para treinar:

modelos de linguagem grandes
e outras ferramentas de IA.

O banco de dados foi criado pela recém-formada Iniciativa de Dados Institucionais de Harvard. Ela tem financiamento da Microsoft e da OpenAI. Ele contém livros digitalizados como parte do projeto Google Books. Os quais não são mais protegidos por direitos autorais.

O banco de dados

Cerca de cinco vezes o tamanho do famoso conjunto de dados Books3. O qual foi usado para treinar modelos de IA como o Meta’s Llama. O banco de dados da Institutional Data Initiative abrange:

gêneros,
décadas,
e idiomas,

com clássicos de Shakespeare, Charles Dickens e Dante incluídos ao lado de obscuros livros didáticos de matemática tchecos e dicionários de bolso galeses. Greg Leppert, diretor executivo da Institutional Data Initiative, diz que o projeto é uma tentativa de “nivelar o campo de jogo”. Oferecendo ao público em geral acesso ao tipo de repositório de conteúdo altamente refinado e com curadoria. Isso inclui pequenos participantes do setor de IA e pesquisadores individuais. Algo que, normalmente, apenas os gigantes da tecnologia estabelecidos têm os recursos para montar. “Ele passou por uma revisão rigorosa”, diz ele.

Leppert acredita que o novo banco de dados de domínio público poderia ser usado em conjunto com outros materiais licenciados. Isso para criar modelos de inteligência artificial. “Penso nisso um pouco como o Linux se tornou um sistema operacional fundamental para grande parte do mundo”, diz ele. Observando que as empresas ainda precisariam usar dados de treinamento adicionais para diferenciar seus modelos dos de seus concorrentes.

Burton Davis, vice-presidente e conselheiro geral adjunto da Microsoft para propriedade intelectual, enfatizou que o apoio da empresa ao projeto estava alinhado com suas crenças mais amplas sobre o valor da criação de “pools de dados acessíveis” para as startups de IA usarem. Os quais são “gerenciados no interesse do público”. Em outras palavras, a Microsoft não está necessariamente planejando trocar todos os dados de treinamento de IA que usou em seus próprios modelos por alternativas de domínio público. Como os livros do novo banco de dados de Harvard. “Usamos dados disponíveis publicamente para treinar nossos modelos”, diz Davis.

Tom Rubin, chefe de propriedade intelectual e conteúdo da OpenAI, descreveu a empresa como “encantada” por apoiar o projeto em um comunicado.

Dados protegidos por direitos autorais

Enquanto dezenas de ações judiciais movidas sobre o uso de dados protegidos por direitos autorais para treinamento de IA tramitam nos tribunais. O futuro de como as ferramentas de inteligência artificial são construídas está em jogo. Se as empresas de IA ganharem seus processos. Elas poderão continuar a raspar a Internet. Isso sem precisar firmar contratos de licenciamento com os detentores de direitos autorais. Mas, se perderem, as empresas de IA poderão ser forçadas a reformular a forma como seus modelos são criados. Uma onda de projetos como o banco de dados de Harvard está avançando. Eles partem do pressuposto de que, não importa o que aconteça, haverá um apetite por conjuntos de dados de domínio público.

Além do acervo de livros, a Institutional Data Initiative também está trabalhando com a Biblioteca Pública de Boston. Eles digitalizarão milhões de artigos de diferentes jornais que agora estão em domínio público. E diz que está aberta a formar colaborações semelhantes no futuro. A maneira exata como o banco de dados de livros será lançado ainda não está definida. A Institutional Data Initiative pediu ao Google para trabalhar em conjunto na distribuição pública. Mas os detalhes ainda estão sendo definidos. Em uma declaração, Kent Walker, presidente de assuntos globais do Google, disse que a empresa estava “orgulhosa de apoiar” o projeto.

Resultado Projetado

Independentemente de como o conjunto de dados do IDI for lançado. Ele se juntará a uma série de projetos, startups e iniciativas semelhantes. Assim, promete dar às empresas acesso a materiais de treinamento em IA substanciais e de alta qualidade. Isso sem o risco de se deparar com problemas de direitos autorais. Empresas como a Calliope Networks e a ProRata surgiram para emitir licenças e gerenciar esquemas de compensação. Os quais foram projetados para que os criadores e detentores de direitos sejam pagos pelo fornecimento de dados de treinamento em IA.

Novos projetos de domínio público

Há também outros novos projetos de domínio público. Na primavera passada, a startup francesa de IA Pleias lançou seu próprio banco de dados de domínio público, o Common Corpus. Ele contém cerca de 3 a 4 milhões de livros e coleções de periódicos. De acordo com o coordenador do projeto, Pierre-Carl Langlais. Com o apoio do Ministério da Cultura da França, o Common Corpus foi baixado mais de 60.000 vezes somente neste mês na plataforma de IA de código aberto Hugging Face. Na semana passada, a Pleias anunciou que está lançando seu primeiro conjunto de grandes modelos de linguagem treinados com base nesse conjunto de dados. E Langlais disse à WIRED que esses são os primeiros modelos “treinados exclusivamente com dados abertos e em conformidade com a Lei de IA [da UE]”.

Bancos de Imagens

Também estão sendo feitos esforços para criar bancos de dados de imagens semelhantes. A startup de IA Spawning lançou seu próprio banco neste verão, chamado Source. Plus. O qual contém imagens de domínio público do Wikimedia Commons, bem como de diversos museus e arquivos. Há muito tempo, várias instituições culturais importantes tornaram seus próprios arquivos acessíveis ao público. São projetos autônomos, como o do Metropolitan Museum of Art, em Nova York.

Ed Newton-Rex, ex-executivo da Stability AI que agora dirige uma organização sem fins lucrativos. A qual certifica ferramentas de IA treinadas eticamente. Ele nos diz que o aumento desses bancos de dados mostra que não há necessidade de roubar materiais protegidos por direitos autorais para criar modelos de IA de alto desempenho e qualidade. A OpenAI disse anteriormente aos legisladores do Reino Unido que seria “impossível” criar produtos como o ChatGPT sem usar obras protegidas por direitos autorais. “Grandes conjuntos de dados de domínio público, como esses, derrubam ainda mais a ‘defesa da necessidade’ que algumas empresas de IA usam para justificar a extração de trabalhos protegidos por direitos autorais para treinar seus modelos”, diz Newton-Rex.

Alterando o status quo do treinamento em IA

Mas ele ainda tem reservas quanto à possibilidade de, o IDI e projetos como esse, realmente mudarem o status quo do treinamento em IA. “Esses conjuntos de dados só terão um impacto positivo se forem usados, provavelmente em conjunto com o licenciamento de outros dados, para substituir o trabalho protegido por direitos autorais. Se eles forem apenas adicionados à mistura, uma parte de um banco de dados que também inclui o trabalho de vida não licenciado dos criadores do mundo. Eles beneficiarão enormemente as empresas de IA”, diz ele.

Fonte: TechCrunch

Leia outras notícias em nosso blog