10 Abril 2024
O setor propõe usar “dados sintéticos” gerados com inteligência artificial para treinar novos sistemas diante do desespero pela falta deles, o que levou a OpenAI a driblar as regras do YouTube ou dos direitos autorais.
A reportagem é de Carlos del Castillo, publicada por El Diário, 08-04-2024. A tradução é do Cepat.
Desde que o ChatGPT foi lançado no final de 2022, uma parte do mundo tem se esforçado para explicar à outra como é possível que uma máquina reproduza tão bem a forma como os humanos se expressam. E, na essência, a base da inteligência artificial generativa, tanto aquela que produz textos como aquela que faz música, imagens ou vídeos, é sempre a mesma: os seus sistemas processam enormes quantidades de dados sobre como as pessoas escrevem, tocam ou desenham, extraem padrões e depois os aplicam para criar novas produções.
As empresas de tecnologia forneceram dados a milhões de pessoas, sem filtros. Isto fez com que as inteligências artificiais aprendessem muito rapidamente, mas trouxe consigo alguns problemas. Um deles é que a IA absorveu os preconceitos racistas ou machistas da sociedade com a qual aprende e pode reproduzi-los. Há também a questão dos direitos autorais, com autores não querem que suas obras sejam utilizadas para esse fim. Agora vem uma terceira consequência inesperada: os escritos humanos disponíveis online, como páginas da Wikipedia, livros ou artigos de imprensa, não são infinitos. As empresas de tecnologia estão ficando sem material, mas a IA precisa de muito mais para continuar melhorando.
O Epoch Research Institute, focado na análise da trajetória e governação da IA, estimou que o principal recurso da IA poderá esgotar-se muito em breve. “De acordo com as nossas previsões, teremos esgotado a reserva de dados linguísticos de baixa qualidade entre 2030 e 2050, a de dados linguísticos de alta qualidade antes de 2026 e a de dados de visão entre 2030 e 2060.” O centro faz uma distinção entre dados de baixa e alta qualidade, porque estes últimos são “o tipo de dados normalmente usados para treinar grandes modelos linguísticos”. Pelo menos até agora.
“À medida que surgem mais aplicações, a procura de dados para treinar modelos cresce exponencialmente”, explica Julián Estévez, professor de Robótica e IA na Universidade do País Basco. “Fatores como a privacidade dos dados pessoais e os direitos autorais sobre o conteúdo online restringem cada vez mais a disponibilidade de dados utilizáveis para treinamento”, acrescenta.
Esta é uma questão fundamental não só a nível tecnológico, mas também financeiro, uma vez que as empresas tecnológicas conseguiram fazer com que os mercados tivessem grandes expectativas para a IA e irrigá-la com capital. A Microsoft, que mais uma vez se tornou a empresa mais valiosa do mundo graças à IA, é o melhor exemplo disso. No entanto, a OpenAI, o seu principal parceiro nesta área, poderá enfrentar uma escassez de dados muito em breve.
Para treinar o GPT-4 (a tecnologia base do ChatGPT), a OpenAI utilizou 12 bilhões de tokens. Neste sentido, um token é uma unidade básica de texto ou informação com a qual a IA pode aprender. Para treinar o GPT-5, a OpenAI precisaria de entre 60 bilhões e 100 bilhões de tokens se quiser manter o ritmo atual de melhoria. Como planeja obter esses dados é um dos maiores segredos corporativos na área da IA, já que todos os seus rivais enfrentam o mesmo problema.
É uma questão que mais uma vez cercou de polêmica as práticas da OpenAI. De acordo com uma exclusividade do New York Times publicada neste sábado, o desespero da empresa em obter novos dados a levou a projetar um programa para driblar as restrições do YouTube e transcrever milhões de horas de vídeos em texto com o que pode alimentar o GPT-4. Poucos dias antes, o CEO do YouTube havia alertado que isso representaria “uma clara violação” dos termos de uso da plataforma.
O executivo fez essas declarações em meio à suspeita geral de que a OpenAI tenha utilizado vídeos do YouTube, Facebook e Instagram para outro de seus novos sistemas, o Sora, capaz de gerar vídeos realistas a partir de textos inseridos pelo usuário. A investigação do Times revela que a empresa liderada por Sam Altman teria ultrapassado esse ponto na busca por dados meses atrás, posto que o ChatGPT entrou no mercado em meados de 2023.
“Quando um criador sobe seu trabalho em nossa plataforma, ele tem certas expectativas. Uma delas é que se respeitem as condições do serviço. Não é permitido baixar itens como transcrições ou videoclipes, o que é uma clara violação de nossos termos de serviço. Essas são as regras do jogo quando se trata de conteúdo em nossa plataforma”, afirmou Neal Mohan apenas dois dias antes do Times revelar que era exatamente isso que a OpenAI estava fazendo.
A ação da OpenAI também abre o dilema sobre a curva de melhoria da IA, uma vez que as transcrições de vídeos do YouTube são consideradas “dados de baixa qualidade” para o treinamento desses modelos linguísticos.
Um porta-voz oficial do YouTube recusou-se a comentar os próximos movimentos da plataforma ou está considerando tomar medidas legais em resposta às perguntas deste meio. A OpenAI não respondeu aos pedidos de informação. O desenvolvedor do ChatGPT já foi denunciado pelo sindicato que reúne mais de 9 mil autores estadunidenses, incluindo George R. R. Martin (As Crônicas de Gelo e Fogo), bem como pelo próprio New York Times, por usar conteúdo protegido para treinar sua IA sem permissão. A OpenAI afirmou que teria sido “impossível” treinar o ChatGPT respeitando os direitos autorais.
“Dados sintéticos”. É uma das soluções propostas pela OpenAI, Google ou Anthropic (na qual a Amazon investiu 4 bilhões) e outras empresas de IA para aumentar as bases de dados com as quais treinar a inteligência artificial, embora não existam mais obras criadas por seres humanos com as quais aprender. Consiste em treinar inteligência artificial com conteúdos gerados por outras inteligências artificiais.
Julián Estévez, da Universidade do País Basco, explica que os dados sintéticos podem ser úteis “especialmente quando os dados reais não incluem casos extremos ou situações raras suficientes”. No entanto, “têm limitações significativas na sua capacidade de capturar toda a complexidade e diversidade dos dados do mundo real. Isto significa que não conseguem satisfazer plenamente a crescente necessidade de dados”, continua.
“Os dados sintéticos não são a solução definitiva para estes problemas”, afirma, referindo-se ao fim da disponibilidade de obras humanas online para treinar IA.
No Instituto Epoch acrescentam uma nova variável que pode dar fôlego às empresas que desenvolvem sistemas de geração artificiais de texto. “Atualizamos o estudo e a versão atualizada será publicada em breve. A principal atualização é que agora acreditamos que os dados de baixa qualidade, como transcrições de vídeos do YouTube e postagens em redes sociais, serão úteis para treinar modelos de alta capacidade”, revela o diretor do centro, Jaime Sevilla.
A nova data estende esse limite de disponibilidade de dados até 2030. No entanto, antes de chegar a esse ponto, a IA poderá encontrar outras barreiras para continuar a desenvolver-se como tem feito até agora. “Antes de chegar a este ponto, prevemos que pode haver outros impedimentos que retardarão o dimensionamento, incluindo a densidade do consumo de energia e a dificuldade de fabricar e acumular GPUs [Unidades de Processamento Gráfico, o hardware essencial para o treinamento] suficientes”, diz Sevilla.
É uma opinião partilhada por Estévez, que apela às empresas do setor para que se concentrem na eficiência em vez de gerarem uma produção infinita de dados sintéticos. “Penso que a solução é melhorar as arquiteturas da IA para serem eficientes no uso dos dados e na energia consumida, e a comunidade de pesquisa já se colocou neste caminho”, afirma.
FECHAR
Comunique à redação erros de português, de informação ou técnicos encontrados nesta página:
A curva de aprendizagem da inteligência artificial está em risco: a sua ânsia por dados é infinita, mas não as obras humanas - Instituto Humanitas Unisinos - IHU