Wikisource:Esplanada/Eliminações via bot (jan2014)

Wikisource, a biblioteca livre
Saltar para a navegação Saltar para a pesquisa

Tento abaixo ser didático sem ser enfadonho. Se não entenderem uma ou mais partes, fiquem à vontade para perguntar. Lugusto 01h18min de 18 de dezembro de 2013 (UTC)

Discussão em aberto de 17/12/2013 a 1º/01/2014

Explicação

Identifiquei uma necessidade de "faxina" em alguns milhares de páginas. Minha proposta é de eliminar tais páginas pela Delete.Bot (D ctrib E logs BM), como feito em outras ocasiões.

Nós tínhamos o procedimento de que, após anunciada a necessidade de eliminar grandes quantias de páginas, e formado consenso para as eliminar, eu poderia simplesmente aplicar as flags de sysop+bot nessa conta. O histórico de eliminações anteriores pode ser conferido na própria página de usuário.

Isso era possível por eu ser sysop e burocrata. No entanto, como renunciei anos atrás, voltando apenas a poucos dias, sou apenas um administrador regular, não tendo como aplicar essas flags. Por isso, esta discussão é para verificar a concordância da eliminação das páginas e a concordância em conceder flag temporária de sysop+bot ao User:Delete.Bot.

Blocos de páginas a eliminar
  • Candido de Figueiredo 1913
    • É um dicionário livre, de conteúdo aberto e mais do que bem-vindo ao acervo do Wikisource. No entanto, a forma como eu disponibilizei parte dele em 2009 está bem complicada. Incompleto (a equipe responsável ainda não tinha, naquela altura, concluído o proofread dele), com verbetes apresentando diversos problemas por falhas minhas ao importar e, ainda, inflando de forma totalmente artificial a quantia de unidades de texto totais disponíveis.
    • Para todos efeitos ele já está disponível online, com interface amigável. Mesmo assim, ainda é interessante o ter por completo. Enquanto estudamos forma de fazer isso, e já sabendo que a atual deu problemas, me parece mais prudente eliminar tais páginas.
    • Ou seja, o conteúdo em si é válido, será eliminada apenas a tentativa atual.
    • Mais de 64 mil unidades de texto e cerca de dez categorias envolvidas.
  • Fragmentos de páginas a revisar via mw:Extension:ProofreadPage de relatórios de CPIs/CPMIs brasileiras
    • Caso parecido com o acima. Logo no começo da disponibilização da extensão começamos a converter os relatórios do formato PDF para o DJVU (o formato PDF ainda não era suportado pela ferramenta) e a extrair o texto embutido nos arquivos para as wiki-páginas individuais que representam cada página individual.
    • Além do Wikisource lusófono sempre ter sido pequeno, é uma quantia monstruosa de páginas para um tema muito específico. E uma quantia ridiculamente pequena delas que, em todos esses anos, recebeu alguma iniciativa de revisão.
    • Há o agravante de potenciais problemas com pessoas vivas. De fato já tivemos um, registrado aqui.
    • Os arquivos em DJVU serão mantidos, bem como seus índices (as páginas de prefixo Galeria:). O conteúdo segue válido. Quando/se alguém se interessar, basta extrair de forma automática o texto embutido (recurso hoje presente na ferramenta de revisão).
    • 6356 páginas a eliminar, já descontadas as 11 que receberam algum tipo de revisão.
Impactos estatísticos
  • Em levantamento que fiz no dia 8, o Wikisource lusófono cairia da posição de 9º maior dentre os 64 wikis para o 12º maior. Pouco impacto "publicitário", digamos assim. Mas, como de mais de 96 mil unidades de texto cairíamos para cerca 32 mil unidades de texto, estaríamos mais próximos de nossa realidade de tamanho (este é um wiki mantido por realmente poucas pessoas)
Procedimento a ser adotado
  • Eliminar as páginas em questão via delete.py do Pywikibot, pela conta Delete.Bot (D ctrib E logs BM). Para tanto, seria solicitada flag de sysop+bot na referida conta, pelo tempo máximo de três dias (a operação total levará pouco tempo e eu pedirei a remoção de ambas as flags dessa conta assim que concluir os procedimentos necessários, esse prazo de três dias é mais por segurança, caso concedam as flags em algum dia que eu não possa me conectar.

Discussão em aberto de 17/12/2013 a 1º/01/2014

Sintam-se à vontade para dúvidas, comentários, sugestões, críticas e eventuais concordâncias. Lugusto 01h18min de 18 de dezembro de 2013 (UTC)

Eu estou de acordo com todos os pontos. Sobre o Candido de Figueiredo, seria interessante fazer um levantamento da quantidade de verbetes ou tamanho dos verbetes por letra para decidir uma modo alternativo de dividi-lo e acomodá-lo ao source. Giro720 msg 02h09min de 23 de dezembro de 2013 (UTC)
Atualizando: em Usuário:Delete.Bot listei as páginas, neste link avisei o pessoal dos outros Wikisources sobre a deleção em massa e aqui a solicitação de flags que já fiz no Meta-Wiki. Lugusto 17h26min de 1 de janeiro de 2014 (UTC)

Feito[editar]

A eliminação em massa já foi concluída algumas horas atrás. Se alguém se interessar, fiz cópias locais das páginas de status antes e depois:

Tipo Antes Depois diff
Geral [1] [2] [3]
ProofreadPage [4] [5] [6]

Lugusto 04h28min de 3 de janeiro de 2014 (UTC)