Re: [gnome-gl] =?utf-8?q?Proxecto_de_servizo_web_centralizado_de_corp?= =?utf-8?q?us_ling=C3=BC=C3=ADstico_e_plugin_para_gtranslator?=

From: Leandro Regueiro <leandro regueiro gmail com>
To: Proxecto Trasno <proxecto trasno net>, Rolda GNOME Galego <gnome-gl-list gnome org>
Subject: Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator
Date: Tue, 1 Feb 2011 13:29:27 +0100

2011/2/1 Leandro Regueiro <leandro regueiro gmail com>:
> 2011/1/31 Fran Diéguez <fran dieguez mabishu com>:
>> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor
>> de TMX centralizado.
>>
>> Temos un pequeno documento descritivo do proxecto accesíbel en linha.
>> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA
>>
>> Calquera suxestión é ben recibida mediante esta mesma rolda de correo.
>
> Que fai aí a referencia a TBX?
>
> Na lista de «Aplicativos existentes» pódense indicar outros como
> «Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de
> tradución.
>
> En «Servizos existentes» non sei se a intención é listar os servizos
> ofrecidos pola comunidade ou se tamén se poden incluír outros como o
> Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de
> Mancomún http://corpus.mancomun.org/xestermos.php
>
> Non uses «insertar», é «inserir».
>
> «Comom podes ver aínda»??
>
> Que sexa capaz de xestionar memorias non só para en->gl, senón tamén
> para en->es, en->fr... É máis, nin sequera se debería asumir que o
> inglés é o idioma de partida.
>
> Permitir busca inversa gl->en (como en openTran).
>
> Unha característica interesante podería ser a posibilidade de poder
> crear áreas temáticas e permitir incluír/quitar memorias a unha
> temática concreta (ou a varias). Por exemplo as memorias de GIMP e
> Krita corresponderían á temática de «Retoque de imaxe» e pertencerían
> a diferentes proxectos. Ademais diso podería haber varias memorias
> para cada un deses programas (como xa tedes indicado no documento).
> Evidentemente deberíase poder listar as memorias pertencentes a unha
> temática, e habería que listar as temáticas ás que pertence unha
> memoria dada. Isto poderiase implementar como unha especie de nube de
> etiquetas ou algo polo estilo.
>
> Outra cousa importante é poder eliminar ou corrixir traducións
> puntuais de calquera memoria de tradución, porque despois de xerarse
> puido atoparse algún erro na tradución.
>
> Tamén se debería poder substituír unha versión específica dunha
> memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP)
> cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP
> pero con varias cadeas corrixidas).
>
> Para buscas puntuais (consulta en vivo) como a do exemplo de «This
> button closes the window» eu de vós nin sequera devolvía os resultados
> en XML senón só directamente en JSON.
>
> Poñede un sistema que permita descargar mediante REST (ou o que sexa)
> unha/varias/todas as memorias de tradución que haxa no servidor. Así
> por exemplo o Gtranslator ao detectar que se traduce do inglés ao
> galego, enviaria unha consulta ao servidor para recuperar a lista de
> memorias de tradución do inglés ao galego e permitirialle ao usuario
> seleccionar as que desexe descargar, e a continuación Gtranslator
> solicitaría o envío de todos eses TMX para gardalos en local. Despois
> Gtranslator permitiria crear memorias de tradución con eses TMX e en
> cada proxecto poderianse configurar as memorias de tradución a usar. A
> parte interesante é que o servidor permita baixar a chuzo todas as
> memorias e que o programa CAT as recupere automaticamente sen molestar
> ao usuario demasiado.
>
> Isto último complementariase con Autoterm, que ven sendo unha
> funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal
> onde está o glosario para cada idioma, e de non ter xa unha copia
> local descárgao automaticamente e o usuario xa pode traballar usando o
> glosario, e todo isto sen molestar ao usuario para nada:
> http://translate.sourceforge.net/wiki/virtaal/autoterm
>
>
> No engadido para Gtranslator eu indicaría que ademais de buscar
> automáticamente resultados para a cadea actual, sería boa idea
> permitir seleccionar parte da cadea orixinal e premendo un atallo de
> teclado (ou usando unha opción do menú contextual ao premer enriba do
> texto seleccionado) se poida buscar esa subcadea no servidor de
> memorias. É moi común ao traducir documentación que haxa cadeas longas
> con referencias nomes de accións ou opcións que se traduciron na GUI,
> e polo tanto esta opción sería útil.
>
> Ademais no engadido para Gtranslator debería ser útil poder indicar
> que só se pidan resultados para certas memorias de tradución. Isto
> reduciría a carga no servidor, e ademais tamén pode ser que elimine
> resultados non desexados xa que por exemplo no servidor pode haber
> memorias de tradución de versións moi vellas de Firefox onde «tab»
> aparece seguido como «separador» e non como «lapela». Estas
> indicacións de memorias a usar pode que incluso interese poñelas na
> configuración do proxecto de Gtranslator.
>
> Unha cousa importante é que o servidor ao devolver resultados de busca
> devolva primeiro os resultados das memorias máis recentes.
> Evidentemente habería que limitar o número de resultados devoltos (15
> xa serían excesivos, creo eu).
>
> Nas buscas non deberían devolverse resultados cun «match ratio»
> inferior ao 70%. En certos sistemas de memorias de tradución incluso
> piden unha concordancia maior. Pero evidentemente isto non debería
> aplicarse a cadeas moi longas, xa que é común que na tradución de
> documentación as cadeas longas se separen en dúas ou tres, polo que un
> resultado que só concorde no 30% para unha cadea orixinal de 100
> palabras pode que non sexa un resultado tan malo.
>
> Cando se me ocorran máis comentarios xa os irei enviando.
>
> Deica.

Para o das buscas igual vos interesa usar Xapian: http://xapian.org/

Eu teño na lista de tarefas pendentes investigar se me sería útil para
o meu PFC.

Deica

Follow-Ups:
- Re: [gnome-gl] =?iso-8859-1?q?Proxecto_de_servizo_web_centralizado_de?= =?iso-8859-1?q?_corpus_ling=FC=EDstico_e_plugin_para_gtranslator?=
  - From: Fran Dieguez

References:
- Re: [gnome-gl] =?utf-8?q?Proxecto_de_servizo_web_centralizado_de_corp?= =?utf-8?q?us_ling=C3=BC=C3=ADstico_e_plugin_para_gtranslator?=
  - From: Leandro Regueiro

[Date Prev][Date Next] [Thread Prev][Thread Next] [Thread Index] [Date Index] [Author Index]