Re: [gnome-gl] =?iso-8859-1?q?Proxecto_de_servizo_web_centralizado_de?= =?iso-8859-1?q?_corpus_ling=FC=EDstico_e_plugin_para_gtranslator?=



Para o caso das buscas coido que lucene é a mellor opción.

Grazas polas suxestións, vou completando o documento.

O Mar, 01-02-2011 ás 13:29 +0100, Leandro Regueiro escribiu:
> 2011/2/1 Leandro Regueiro <leandro regueiro gmail com>:
> > 2011/1/31 Fran Diéguez <fran dieguez mabishu com>:
> >> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor
> >> de TMX centralizado.
> >>
> >> Temos un pequeno documento descritivo do proxecto accesíbel en linha.
> >> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA
> >>
> >> Calquera suxestión é ben recibida mediante esta mesma rolda de correo.
> >
> > Que fai aí a referencia a TBX?
> >
> > Na lista de «Aplicativos existentes» pódense indicar outros como
> > «Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de
> > tradución.
> >
> > En «Servizos existentes» non sei se a intención é listar os servizos
> > ofrecidos pola comunidade ou se tamén se poden incluír outros como o
> > Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de
> > Mancomún http://corpus.mancomun.org/xestermos.php
> >
> > Non uses «insertar», é «inserir».
> >
> > «Comom podes ver aínda»??
> >
> > Que sexa capaz de xestionar memorias non só para en->gl, senón tamén
> > para en->es, en->fr... É máis, nin sequera se debería asumir que o
> > inglés é o idioma de partida.
> >
> > Permitir busca inversa gl->en (como en openTran).
> >
> > Unha característica interesante podería ser a posibilidade de poder
> > crear áreas temáticas e permitir incluír/quitar memorias a unha
> > temática concreta (ou a varias). Por exemplo as memorias de GIMP e
> > Krita corresponderían á temática de «Retoque de imaxe» e pertencerían
> > a diferentes proxectos. Ademais diso podería haber varias memorias
> > para cada un deses programas (como xa tedes indicado no documento).
> > Evidentemente deberíase poder listar as memorias pertencentes a unha
> > temática, e habería que listar as temáticas ás que pertence unha
> > memoria dada. Isto poderiase implementar como unha especie de nube de
> > etiquetas ou algo polo estilo.
> >
> > Outra cousa importante é poder eliminar ou corrixir traducións
> > puntuais de calquera memoria de tradución, porque despois de xerarse
> > puido atoparse algún erro na tradución.
> >
> > Tamén se debería poder substituír unha versión específica dunha
> > memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP)
> > cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP
> > pero con varias cadeas corrixidas).
> >
> > Para buscas puntuais (consulta en vivo) como a do exemplo de «This
> > button closes the window» eu de vós nin sequera devolvía os resultados
> > en XML senón só directamente en JSON.
> >
> > Poñede un sistema que permita descargar mediante REST (ou o que sexa)
> > unha/varias/todas as memorias de tradución que haxa no servidor. Así
> > por exemplo o Gtranslator ao detectar que se traduce do inglés ao
> > galego, enviaria unha consulta ao servidor para recuperar a lista de
> > memorias de tradución do inglés ao galego e permitirialle ao usuario
> > seleccionar as que desexe descargar, e a continuación Gtranslator
> > solicitaría o envío de todos eses TMX para gardalos en local. Despois
> > Gtranslator permitiria crear memorias de tradución con eses TMX e en
> > cada proxecto poderianse configurar as memorias de tradución a usar. A
> > parte interesante é que o servidor permita baixar a chuzo todas as
> > memorias e que o programa CAT as recupere automaticamente sen molestar
> > ao usuario demasiado.
> >
> > Isto último complementariase con Autoterm, que ven sendo unha
> > funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal
> > onde está o glosario para cada idioma, e de non ter xa unha copia
> > local descárgao automaticamente e o usuario xa pode traballar usando o
> > glosario, e todo isto sen molestar ao usuario para nada:
> > http://translate.sourceforge.net/wiki/virtaal/autoterm
> >
> >
> > No engadido para Gtranslator eu indicaría que ademais de buscar
> > automáticamente resultados para a cadea actual, sería boa idea
> > permitir seleccionar parte da cadea orixinal e premendo un atallo de
> > teclado (ou usando unha opción do menú contextual ao premer enriba do
> > texto seleccionado) se poida buscar esa subcadea no servidor de
> > memorias. É moi común ao traducir documentación que haxa cadeas longas
> > con referencias nomes de accións ou opcións que se traduciron na GUI,
> > e polo tanto esta opción sería útil.
> >
> > Ademais no engadido para Gtranslator debería ser útil poder indicar
> > que só se pidan resultados para certas memorias de tradución. Isto
> > reduciría a carga no servidor, e ademais tamén pode ser que elimine
> > resultados non desexados xa que por exemplo no servidor pode haber
> > memorias de tradución de versións moi vellas de Firefox onde «tab»
> > aparece seguido como «separador» e non como «lapela». Estas
> > indicacións de memorias a usar pode que incluso interese poñelas na
> > configuración do proxecto de Gtranslator.
> >
> > Unha cousa importante é que o servidor ao devolver resultados de busca
> > devolva primeiro os resultados das memorias máis recentes.
> > Evidentemente habería que limitar o número de resultados devoltos (15
> > xa serían excesivos, creo eu).
> >
> > Nas buscas non deberían devolverse resultados cun «match ratio»
> > inferior ao 70%. En certos sistemas de memorias de tradución incluso
> > piden unha concordancia maior. Pero evidentemente isto non debería
> > aplicarse a cadeas moi longas, xa que é común que na tradución de
> > documentación as cadeas longas se separen en dúas ou tres, polo que un
> > resultado que só concorde no 30% para unha cadea orixinal de 100
> > palabras pode que non sexa un resultado tan malo.
> >
> > Cando se me ocorran máis comentarios xa os irei enviando.
> >
> > Deica.
> 
> Para o das buscas igual vos interesa usar Xapian: http://xapian.org/
> 
> Eu teño na lista de tarefas pendentes investigar se me sería útil para
> o meu PFC.
> 
> Deica
> _______________________________________________
> Rolda de correo de gnome-gl-list
> gnome-gl-list gnome org
> http://mail.gnome.org/mailman/listinfo/gnome-gl-list

-- 
Fran Diéguez
Ubuntu Member and coordinator of Galician L10n Team of GNOME
GPG: 43DD 1B00 035F A764 4986  E695 98BB 6626 A2A4 F9B8

Attachment: signature.asc
Description: This is a digitally signed message part



[Date Prev][Date Next]   [Thread Prev][Thread Next]   [Thread Index] [Date Index] [Author Index]