Wikisource:Esplanada/Recursos para a modernização automática dos textos

Wikisource, a biblioteca livre

Depois que comecei a formatação do livro de Elementos de Arithmetica, passei a manter uma tabela para usar como base na manutenção de um script que automatiza parte da correção do OCR daquele texto.

Conforme o primeiro capítulo foi ficando pronto, imaginei que seria bem útil para os leitores do(s) Wikisource(s) dispor de uma ferramenta que realizasse uma "modernização automática" dos textos mais antigos, nos quais aparecem diversas palavras cuja grafia atual é bem diferente do que era na época em que os textos foram escritos.

A pouco tempo eu sugeri na Wikipédia a adaptação do conversor de idiomas usado pelos chineses, para que os leitores da Wikipédia tenham a opção de visualizar adaptações automáticas dos artigos para a variante que escolhessem (ver proposta e a tabela de exemplo para pt-BR). O mesmo recurso seria aplicável aqui no Wikisource, mas com a vantagem extra de poder realizar a modernização dos textos antigos para a ortografia atual, bastando ao leitor apenas clicar em um link quando isso desejar.

Em algum momento posterior me deparei com a proposta sobre wikis em múltiplos dialetos feita na wiki do planejamento estratégico da Wikimedia, e em sua página de discussão um dos administradores do Wikisource francês (o VIGNERON) sugeriu a mesma aplicação para lidar com os dialetos antigos presentes nos Wikisources.

Sendo assim, fui até o Wikisource multilingual e coloquei a proposta em pauta no Scriptorim. Acabei descobrindo que os franceses inclusive já utilizam algo do mesmo estilo, só que feito via javascript. Isso não é muito bom em termos de acessibilidade (e talvez de eficiência), se comparado com a mesma funcionalidade implementada diretamente no MediaWiki, em PHP, mas já é um grande avanço. Quem quiser conhecer e testar o recurso dos franceses, pode experimentar abrir a página fr:Le Corbeau et le Renard e clicar no link "Texte modernisé" disponível na barra lateral: o script consultará tabela que eles mantém e fará a modernização do texto da página.

Gostaria de saber o que acham da ideia de instalar o conversor do MediaWiki por aqui, com o objetivo de fornecer aos leitores a funcionalidade de modernização dos textos?

PS: Quem quiser pode comentar lá no Wikisource multilingual também. Helder 01h18min de 31 de Agosto de 2010 (UTC)

Isso é muito interessante. Vi os exemplos da fr.ws que me agradaram muito. No nosso caso, isso não resolveria para os textos mais antigos, anteriores ao sec. XVI, no qual continuaremos a manter duas versões, mas sem dúvida seriam aplicáveis para os textos posteriores ao séc. XVIII. Eu sou meio chato na questão de usar extensões php (por que o controle do que pode ser feito é pequeno, e sempre dependemos dos devs), mas quando tiver tempo darei uma olhada com mais cuidado nos javascript disponívieis. Giro720 msg 16h01min de 3 de Setembro de 2010 (UTC)
Se quiser testar uma adaptação do javascript, basta colocar no seu vector.js:
importScript("User:Helder.wiki/Scripts/Base.js")
importScript("User:Helder.wiki/Scripts/Modernisation.js")
Então, ao acessar uma página como Elementos de Arithmetica/Capítulo 1, deve aparecer um novo menu no topo (como na imagem ao lado), com opções para realizar a conversão com base nos dicionários que que forem esboçados para cada variante (portuguesa ou brasileira) do nosso idioma. O dicionário está sendo construído na página Wikisource:Modernização/Dicionário. Adicionalmente, é possível usar este CSS para inserir pequenas bandeiras ao lado das opções de modernização de cada país. Helder 14h14min de 10 de Setembro de 2010 (UTC)

Uma nova funcionalidade: é possivel destacar as palavras que sofrerem atualização ortográfica, como na imagem. Isso pode ser útil para quem estiver fazendo a conferência das páginas (e da modernização). Quem for usar só precisa definir

var displayChanges = true;

na sua página de scripts e definir um CSS que lhe agrade, como no exemplo a seguir (que faz a conversão para pt-BR ficar sobre um fundo verde e a pt-PT sobre um azul):

.v-pt-br {
	background-color: #AAFFAA;
}
 
.v-pt-pt {
	background-color: #AAAAFF;
}

Não sei dizer se quando se usa a versão que fornece o destaque o desempenho é o mesmo que antes ou se a eficiência piora (provavelmente não melhora a velocidade, mas como facilita o trabalho de revisão, uma coisa compensa a outra...). Helder 17h39min de 21 de Setembro de 2010 (UTC)