Quase 40% das páginas da web de 2013 sumiram, diz estudo

Um novo estudo sobre a disponibilidade de páginas e conteúdos na web revela que uma grande quantidade de informações desapareceu da internet nos últimos anos e gera links quebrados nos sites. Segundo os dados do Pew Research Center, 38% das as páginas da web que existiam em 2013 já não estão mais acessíveis. Olhando para o período entre 2013 e 2023, cerca de um quarto de todas as páginas estão indisponíveis.

  • O que é o erro 404 e como resolver esse problema
  • Sua conexão não é particular | Como resolver

Além das páginas na web, a pesquisa também analisou o desaparecimento de publicações na plataforma X (o antigo Twitter) — e um em cada cinco tuítes não estava mais com visibilidade pública dentro de três meses após a postagem.

Sumiço de conteúdos na web

Para realizar o estudo, o Pew Research Center coletou uma amostra de cerca de 1 milhão de páginas da web dos arquivos do Common Crawl — um serviço que guarda o histórico da internet com registros dos sites em diferentes momentos.


Siga o Canaltech no Twitter e seja o primeiro a saber tudo o que acontece no mundo da tecnologia.

Aproximadamente 90 mil páginas foram analisadas em cada ano entre 2013 e 2023 para elaborar a estatística de disponibilidade dos conteúdos. A amostragem revelou que 25% de todas essas páginas não existem mais na internet.

Segundo o resultado do estudo, há dois tipos diferentes de links quebrados: 16% são de páginas individuais que não estão mais acessíveis, mas que são de sites ainda funcionais; enquanto 9% são de domínios inteiros que já não estão mais no ar.

Páginas mais antigas são, como era de se esperar, as que tiveram maior parcela de links inacessíveis — 38% da amostra de 2013 não estavam mais disponíveis em 2023. Todavia, os anos subsequentes também apresentam uma porcentagem elevada de conteúdos “extintos”:

Ano % de links quebrados
2013 38%
2014 35%
2015 31%
2016 30%
2017 26%
2018 31%
2019 32%
2020 27%
2021 22%
2022 15%
2023 8%

Segundo o Pew Research Center, 23% dos sites de notícias contêm links quebrados independente da audiência e do tráfego que possuem. Já entre as páginas do governo, a parcela cai para 21%. Na Wikipédia, porém, os dados são ainda mais alarmantes. A pesquisa mostra que 54% dos links nas seções de referência já não estão mais acessíveis.

Tuítes que não estão mais visíveis

Na análise sobre a rede social X (quando ainda se chamava Twitter), o estudo coletou quase 5 milhões de tuítes publicados entre 8 de março e 27 de abril de 2023 e monitorou a disponibilidade dessas postagens até junho.

Ao final do período de observação, a pesquisa verificou que 18% dos conteúdos já não estavam mais visíveis na plataforma. Segundo o estudo, “na maioria dos casos, isso ocorreu porque a conta que postou originalmente o tuíte se tornou privada, suspensa ou totalmente excluída”.

A partir da amostragem, o Pew Research Center identificou ainda algumas curiosidades: tuítes removidos ou excluídos tendem a vir de contas mais recentes, com relativamente poucos seguidores e atividade modesta na rede social.

Além disso, o estudo verificou que não havia diferença no porcentual de remoção entre retuítes, posts com citações e tuítes originais, mas o número é menor quando se trata de respostas na plataforma —apenas 12% das respostas estavam inacessíveis após o período de monitoramento.

Leia a matéria no Canaltech.

Trending no Canaltech:

  • Robô da Sony faz microcirurgia em grão de milho; veja
  • Caixa fora do ar? Clientes relatam instabilidade nesta segunda (20)
  • Novos notebooks Dell têm chip Snapdragon e até 27 horas de bateria
  • Itaú fora do ar? App tem instabilidade nesta segunda-feira (20)
  • WhatsApp vai restringir perfis que mandam muitas mensagens
  • Cientistas chineses descobrem cura do diabetes tipo 2
Adicionar aos favoritos o Link permanente.