‘The New York Times’ leva OpenAI a tribunal. O futuro do ChatGPT pode estar em jogo


Uma placa do The New York Times está pendurada acima da entrada de seu prédio, quinta-feira, 6 de maio de 2021, em Nova York. O New York Times entrou com uma ação federal contra a OpenAI e a Microsoft na quarta-feira, 27 de dezembro de 2023, buscando acabar com a prática de usar material publicado para treinar chatbots.

Um grupo de organizações de notícias, liderado por O jornal New York Timeslevou OpenAI, fabricante do ChatGPT, ao tribunal federal na terça-feira em uma audiência que pode determinar se a empresa de tecnologia terá que enfrentar os editores em um julgamento de violação de direitos autorais de alto perfil.

Os processos de três editores contra a OpenAI e seu financiador, a Microsoft, foram fundidos em um único caso. Liderando cada um dos três casos combinados estão os Tempos, O jornal diário de Nova York e o Centro de Reportagens Investigativas.

Outras editoras, como a Associated Press, a News Corp. e a Vox Media, chegaram a acordos de partilha de conteúdos com a OpenAI, mas os três litigantes neste caso estão a seguir o caminho oposto: partir para a ofensiva.

A audiência de terça-feira centrou-se na moção de rejeição da OpenAI, uma fase crítica do caso em que um juiz irá encerrar o litígio para prosseguir a julgamento ou rejeitá-lo.

O principal argumento dos editores é que os dados que alimentam o ChatGPT incluem milhões de obras protegidas por direitos autorais de organizações de notícias, artigos que as publicações argumentam terem sido usados ​​sem consentimento ou pagamento – algo que os editores dizem que equivale a uma violação de direitos autorais em grande escala.

“Temos que acompanhar os dados”, disse Tempos a advogada Jennifer Maisel no tribunal na terça-feira. “Semelhante a como em casos criminais você segue o dinheiro.”

E se você seguir os dados, argumentou a equipe jurídica dos editores, o ChatGPT e a Microsoft estão lucrando com o trabalho jornalístico que foi digitalizado, processado e recriado sem pagamento ou consentimento. A Microsoft incorporou a tecnologia OpenAI em seu mecanismo de busca Bing.

“É substitutivo”, disse Tempos advogado Ian Crosby, o que significa que ChatGPT e Bing se tornaram, para algumas pessoas, um substituto para o trabalho original dos editores. Esse ponto, se comprovado, é fundamental para vencer um caso de violação de direitos autorais.

Em documentos judiciais, Crosby expandiu ao escrever que o “uso ilegal do trabalho do The Times pela OpenAI para criar produtos de inteligência artificial que competem com ele ameaça a capacidade do The Times de fornecer esse serviço”.

“Usar a valiosa propriedade intelectual de terceiros dessa maneira, sem pagar por isso, tem sido extremamente lucrativo” para a OpenAI, continuou ele.

A OpenAI argumentou que a grande quantidade de dados usados ​​para treinar seu bot de inteligência artificial foi protegida por regras de “uso justo”. Essa é uma doutrina da lei americana que permite que material protegido por direitos autorais seja usado para fins educacionais, de pesquisa ou de comentários.

Para passar no teste de uso justo, a obra em questão deve ter transformado a obra protegida por direitos autorais em algo novo, e a nova obra não pode competir com a original no mesmo mercado, entre outros fatores.

Para defender que o uso do texto é transformador, a OpenAI e a equipe jurídica da Microsoft explicaram ao juiz Sidney Stein, nomeado pelo presidente Bill Clinton, como grandes modelos de linguagem, como o ChatGPT, funcionam.

Os advogados das empresas disseram que quando os modelos de inteligência artificial da OpenAI são alimentados com dados, eles são classificados em uma série de “tokens”, unidades que tornam a análise dos dados mais gerenciável. Eventualmente, o modelo pode reconhecer padrões.

Joseph Gratz, advogado da OpenAI, disse que regurgitar artigos inteiros “não é o que foi projetado para fazer e nem o que faz” quando se trata de como o ChatGPT opera.

“Este não é um sistema de recuperação de documentos. É um modo de linguagem amplo”, disse Gratz.

Gratz alegou que os exemplos de infração citados pelo Tempos no processo deveria ter ocorrido somente após “milhares de dezenas de milhares” de consultas. Em essência, Gratz argumentou que os editores prepararam o chatbot para cuspir texto que foi retirado dos sites dos editores.

A Microsoft diz que Tempos está usando seu ‘poder e seu megafone’ para desafiar tecnologias ameaçadoras

Escrevendo em sua moção de demissão, os advogados da Microsoft, o maior investidor da OpenAI, escreveram que não era ilegal para a OpenAI ingerir esse texto jornalístico.

“Neste caso, o New York Times usa seu poder e seu megafone para desafiar o mais recente e profundo avanço tecnológico: o Large Language Model, ou LLM”, escreveram eles no processo judicial, descrevendo a tecnologia que sustenta o ChatGPT. “Apesar das afirmações do The Times, a lei de direitos autorais não é um obstáculo maior para o LLM do que foi para o videocassete (ou a pianola, a copiadora, o computador pessoal, a Internet ou o mecanismo de busca).”

Mas as organizações noticiosas argumentam que não só o sucesso global do ChatGPT dependeu, em parte, da recolha de uma grande quantidade de artigos protegidos por direitos de autor, mas que o ChatGPT é agora efectivamente um concorrente como fonte de informação fiável.

Isso fez parte da discussão no tribunal na terça-feira, quando outro aspecto de como o ChatGPT funciona se tornou objeto de debate. É conhecido como “geração aumentada de recuperação”. Em inglês simples: integra informações atualizadas e mais específicas da web nas respostas do chatbot.

Embora algumas dessas informações, como grandes seções de notícias, possam não ter feito parte dos dados de treinamento do chatbot, elas ainda podem aparecer nos resultados do ChatGPT.

Steven Lieberman, advogado de O jornal diário de Nova Yorkdisse: “Isso permite o uso gratuito”, uma referência aos leitores que recorrem às recriações de artigos de jornal da OpenAI, em vez de acessar o site de uma editora.

O que poderia acontecer a seguir?

De acordo com a denúncia apresentada por o Temposa OpenAI deveria ser responsabilizada por bilhões de dólares em danos por copiar e usar ilegalmente o arquivo do jornal. A ação também pede a destruição do conjunto de dados do ChatGPT.

Isso seria um resultado drástico. Se os editores ganharem o caso e um juiz federal ordenar a destruição do conjunto de dados, isso poderá derrubar completamente a empresa, uma vez que forçaria a OpenAI a recriar o seu conjunto de dados baseando-se apenas em obras que foi autorizada a utilizar.

A lei federal de direitos autorais também acarreta penalidades financeiras severas, com os infratores enfrentando multas de até US$ 150 mil por cada infração “cometida intencionalmente”.

“Se você copia milhões de obras, pode ver como isso se torna um número potencialmente fatal para uma empresa”, disse Daniel Gervais, codiretor do programa de propriedade intelectual da Universidade Vanderbilt, que estuda IA ​​generativa. disse à NPR em agosto de 2023quando o Tempos estava considerando uma ação legal contra OpenAI antes entrando com uma ação naquele dezembro. “A lei de direitos autorais é uma espada que pairará sobre as cabeças das empresas de IA por vários anos, a menos que elas descubram como negociar uma solução”.

Embora não tenha emitido uma decisão na terça-feira, o juiz Stein disse que decidirá em breve se o caso contra a OpenAI pode prosseguir ou se será arquivado.