As próximas mudanças do Reddit tentam proteger a plataforma contra rastreadores de IA

O Reddit anunciou na terça-feira que está atualizando seu Protocolo de Exclusão de Robôs (arquivo robots.txt), que informa aos bots web automatizados se eles estão autorizados a rastrear um site.

Historicamente, o arquivo robots.txt era usado para permitir que os motores de busca rastreassem um site e então direcionassem as pessoas para o conteúdo. No entanto, com o aumento da IA, os sites estão sendo rastreados e usados para treinar modelos sem reconhecer a fonte real do conteúdo.

Junto com o arquivo robots.txt atualizado, o Reddit continuará limitando a taxa e bloqueando bots e rastreadores desconhecidos de acessar sua plataforma. A empresa informou ao TechCrunch que os bots e rastreadores serão limitados ou bloqueados se não cumprirem a Política de Conteúdo Público do Reddit e não tiverem um acordo com a plataforma.

O Reddit diz que a atualização não deve afetar a maioria dos usuários ou atores de boa fé, como pesquisadores e organizações, como o Internet Archive. Em vez disso, a atualização é projetada para dissuadir empresas de IA de treinar seus grandes modelos de linguagem no conteúdo do Reddit. Claro, os rastreadores de IA podem ignorar o arquivo robots.txt do Reddit.

O anúncio vem alguns dias após uma investigação da Wired descobrir que a startup de busca alimentada por IA, Perplexity, estava roubando e rastreando conteúdo. A Wired descobriu que a Perplexity parece ignorar solicitações para não rastrear seu site, mesmo tendo bloqueado a startup em seu arquivo robots.txt. O CEO da Perplexity, Aravind Srinivas, respondeu às alegações e disse que o arquivo robots.txt não é um quadro legal.

As próximas mudanças do Reddit não afetarão as empresas com as quais tem acordo. Por exemplo, o Reddit tem um acordo de US$ 60 milhões com o Google que permite à gigante das buscas treinar seus modelos de IA no conteúdo da plataforma social. Com essas mudanças, o Reddit está sinalizando para outras empresas que desejam usar os dados do Reddit para treinar IA que elas terão que pagar.

“Qualquer pessoa que acesse o conteúdo do Reddit deve cumprir nossas políticas, incluindo aquelas em vigor para proteger os redditors,” disse o Reddit em um post em seu blog. “Somos seletivos sobre com quem trabalhamos e confiamos com acesso em larga escala ao conteúdo do Reddit.”

O anúncio não é uma surpresa, pois o Reddit lançou uma nova política algumas semanas atrás que foi projetada para orientar como os dados do Reddit estão sendo acessados e usados por entidades comerciais e outros parceiros.