Posts de Tumblr e WordPress serão usados para treinar IA

Dados do Tumblr e do WordPress.com serão vendidos para o treinamento de inteligência artificial (IA). A Automattic, dona das plataformas, está prestes a fechar um contrato com OpenAI e Midjourney para oferecer acesso às informações que ajudariam a desenvolver novos modelos e aprimorar as tecnologias já existentes.

  • De onde o ChatGPT tira as informações?
  • O que é ChatGPT? | Como usar a IA em português

Os detalhes foram revelados pelo site 404 Media, que tevee acesso a documentos internos sobre a transação entre as empresas. A Automattic também confirmou no seu blog oficial que faz parcerias com companhias de IA, mas não citou nomes. 

Poder de escolha

A aproximação será destinada apenas aos conteúdos disponíveis nas redes de blogs Tumblr e WordPress.com, sem atingir o programa WordPress para ser instalado em servidores próprios. Por outro lado, ainda não há informações sobre o impacto do acordo com sites que utilizam o plugin Jetpack. 


CT no Flipboard: você já pode assinar gratuitamente as revistas Canaltech no Flipboard do iOS e Android e acompanhar todas as notícias em seu agregador de notícias favorito.

Com a parceria, as publicações disponíveis em blogs criados em qualquer uma das duas ferramentas serão coletadas para treinar modelos de inteligência artificial. Todavia, a Automattic liberou um botão para que os proprietários das páginas impeçam o compartilhamento das informações para a OpenAI, Midjourney e demais parceiros.

Essa decisão chegou a virar um questionamento interno quando um funcionário perguntou se há garantias de que os parceiros não vão coletar os dados caso os usuários recusem. A resposta veio do chefe de IA da Automattic, Andrew Spittle:

“Quero que este seja um processo contínuo em que defendemos regularmente a exclusão de conteúdos anteriores com base nas preferências atuais. Pediremos que o conteúdo seja excluído e removido de quaisquer treinamentos futuros. Acredito que os parceiros honrarão isso com base em nossas conversas com eles até o momento. Não creio que eles ganhem muito ao mantê-lo”, diz o executivo.

Dados públicos do WordPress.com serão usados para treinamento de IA (Imagem: StockSnap/Pixabay)
Dados públicos do WordPress.com serão usados para treinamento de IA (Imagem: StockSnap/Pixabay)

Controvérsias

Apesar da opção para conter o compartilhamento de dados, algumas dúvidas pairam no ar. Em outro diálogo interno, o gerente de produto do Tumblr, Cyle Cage, cita uma compilação de dados controversa que entrou em um pacote que seria compartilhado com os novos parceiros.

É o caso de publicações de blogs com senha, conteúdos que foram excluídos, suspensos ou marcados como “explicito”, além de respostas privadas e posts de grandes parceiros, como o antigo blog de música da Apple. Os engenheiros, porém, prepararam uma lista para excluir os dados que não deveriam entrar no pacote.

Não está claro, no entanto, se essas informações chegaram a ser repassadas para as empresas responsáveis pelo algoritmos de IA.

Automattic confirma parcerias

No seu site, a Automattic disse que trabalha “diretamente com empresas selecionadas de IA, desde que seus planos estejam alinhados com o que interessa à nossa comunidade: atribuição, cancelamento e controle”. Os seus parceiros, por sua vez, devem respeitar as configurações para cancelar o compartilhamento de dados.

“Também planejamos dar um passo adiante e atualizar regularmente todos os parceiros sobre pessoas que recentemente optaram por sair e pedir que seu conteúdo seja removido de fontes anteriores e de treinamentos futuros”, diz a publicação.

A empresa ainda ressaltou que vai compartilhar apenas conteúdos públicos do Tumblr e WordPress.com de usuários que deram o consentimento nas configurações das plataformas.

“Atualmente, não existe nenhuma lei que exija que os rastreadores sigam essas preferências, embora isso possa mudar em breve com a legislação pendente na União Europeia”, observa. “Como empresas respeitáveis seguem essas configurações, elas são o melhor método para impor como o conteúdo é rastreado na web.”

Leia a matéria no Canaltech.

Trending no Canaltech:

  • Vídeo mostra construção de cidade faraônica com 170 km no deserto
  • Ferro espacial é encontrado em tesouro espanhol de 3 mil anos
  • Dell lança novo XPS 16 no Brasil com preço avassalador
  • 7 formas de confirmar a Teoria da Relatividade no dia a dia
  • Wolverine revela armadura de adamantium que o torna indestrutível
  • Xiaomi lista os primeiros celulares que vão receber o HyperOS
Adicionar aos favoritos o Link permanente.