IAs erram ao fazer busca por notícias, mostra estudo

O Grok 3, inteligência artificial da xAI, apresentou o pior resultado de busca por citações de notícias. É o que mostra um estudo feito pela Columbia Journalism Review (CJR), para avaliar como os chatbots de IA acessam, apresentam e citam o conteúdo. Durante a análise, a plataforma teve uma taxa de erro de 94% em todas as respostas fornecidas durante a análise. 

  • O que é Grok 3? Conheça a nova IA revelada por Elon Musk
  • Detalhes do GPT-5, novo modelo do ChatGPT, são antecipados; saiba o que esperar

A pesquisa utilizou trechos de notícias de diferentes jornais em prompts para buscar o título, a data, veículo e o endereço da matéria através de chatbots através dos seus mecanismos de pesquisa. Para isso, foram aplicados 200 comandos em oito IAs (ChatGPT, Perplexity, Perplexity Pro, DeepSeek, Copilot, Grok-2, Grok-3 e Gemini) e as respostas foram classificadas em seis rótulos:

  • Correto: todos os atributos (recuperação da matéria, veículo e link) estão corretos;
  • Correto, mas incompleto: alguns atributos estão corretos, mas ainda falta informação;
  • Parcialmente incorreto: alguns atributos estão corretos e outros incorretos;
  • Completamente incorreto: todos os atributos estão incorretos;
  • Não fornecido: nenhuma informação foi revelada;
  • Bloqueado: o veículo bloqueou acesso de IAs.
Estudo analisa resutados de busca por citações de notícias em chatbots com IA (Imagem: Reprodução/Columbia Journalism Review)
Estudo analisa resutados de busca por citações de notícias em chatbots com IA (Imagem: Reprodução/Columbia Journalism Review)

Os resultados do Grok-3 refletem um aspecto geral das respostas de todas as IAs analisadas. Segundo a pesquisa, coletivamente, os chatbots forneceram respostas incorretas para mais de 60% das consultas feitas.


Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

Além dos retornos com erros, as ferramentas também entregavam links quebrados que levavam a erros de páginas ou encaminhavam para sites que continham o conteúdo previamente distribuído pelo veículo original.  

Somente o Grok-3 apresentou 117 erros de página devido ao fornecimento de URLs com problemas. A mesma situação aconteceu com o Gemini, que indicou 127 artigos que levaram à páginas de erro. No entanto, em grande parte das respostas, as IAs identificaram o veículo que continha a citação do prompt.

Apesar da constância dos erros apresentados pelas IAs, a Perplexity AI foi a que menos indicou informações erradas sobre as notícias, com uma taxa de 37% de respostas incorretas. Já o Copilot foi a plataforma menos respondeu aos prompts

Versões premium de IAs também erram

A pesquisa do CJR indicou que versões premium dos chatbots, como o Perplexity Pro e Grok-3, apresentaram respostas mais corretas do que as versões gratuitas. Contudo, também demonstraram uma tendência a fornecer respostas incorretas com mais convicção. 

De acordo com o estudo, essa discrepância surge principalmente da tendência desses modelos em apresentar respostas definitivas, mesmo quando incorretas, em vez de admitir a incerteza.

A questão central vai além dos erros factuais e se estende ao “tom de voz autoritário” dos chatbots, que pode dificultar a distinção entre informações confiáveis e enganosas pelos usuários,segundo o levantamento.

(Reprodução: Columbia Journalism Review)
Todos os quadrados do gráfico representam as respostas das IA a um prompt de acordo com os critérios da pesquisa (Reprodução: Columbia Journalism Review)

Quais foram as conclusões do estudo?

As pesquisadoras, ao analisarem os chatbots, identificaram diversos problemas, tais como a dificuldade em recusar perguntas que não podem ser respondidas com precisão, o que resultou em respostas incorretas ou especulativas. Elas também observaram que os chatbots premium apresentaram respostas incorretas com maior confiança do que os gratuitos

Além disso, muitos chatbots ignoraram as preferências do Protocolo de Exclusão de Robôs, em que proprietários de sites autorizam o acesso ou não das IAs. A pesquisa também identificou que as ferramentas de busca generativas também fabricam links e citam versões de artigos distribuídas fora do site original.

Por fim, o estudo apontou que os acordos de licenciamento de conteúdo com fontes de notícias não garantem a citação precisa nas respostas dos chatbots, o que pode levar à desinformação.

O que dizem as companhias?

Durante o levantamento, as pesquisadoras procuraram os desenvolvedores das plataformas de IA que foram utilizadas durante o estudo. No entanto, somente a OpenAI e Microsoft se posicionaram a respeito.

Em nota, a dona do ChatGPT disse que os usuários descobrem conteúdo de qualidade por meio de resumos, citações, links claros e atribuição e que colabora com parceiros “para melhorar a precisão das citações em linha e respeitar as preferências do editor, incluindo habilitar como eles aparecem na pesquisa gerenciando o OAI-SearchBot em seu robots.txt”.

Já a Microsoft afirmou que “respeita o padrão robots.txt e honra as instruções fornecidas por sites que não querem que o conteúdo de suas páginas seja usado com os modelos de IA generativos da empresa”.

Leia mais:

  • DeepSeek vs Gemini: conheça 5 diferenças entre os chatbots
  • ChatGPT Pro vs ChatGPT Plus: o que muda entre os planos?
  • Como usar o DeepSeek R1 na Perplexity

VÍDEO: Tinha que ser a IA de novo! Como a IA desfigurou o Chaves

 

Leia a matéria no Canaltech.

Adicionar aos favoritos o Link permanente.