Re: [gnome-gl] =?utf-8?q?Proxecto_de_servizo_web_centralizado_de_corp?= =?utf-8?q?us_ling=C3=BC=C3=ADstico_e_plugin_para_gtranslator?=

From: Leandro Regueiro <leandro regueiro gmail com>
To: Proxecto Trasno <proxecto trasno net>, Rolda GNOME Galego <gnome-gl-list gnome org>
Subject: Re: [gnome-gl] Proxecto de servizo web centralizado de corpus lingüístico e plugin para gtranslator
Date: Tue, 1 Feb 2011 13:27:30 +0100

2011/1/31 Fran Diéguez <fran dieguez mabishu com>:
> Nas vindeiras semanas comezará o desenvolvemento do proxecto do servidor
> de TMX centralizado.
>
> Temos un pequeno documento descritivo do proxecto accesíbel en linha.
> https://docs.google.com/document/pub?id=1BbNy-aUMXyLAwh2Y5RQ7fvvGbqCDbChBuFF9_4HN7IA
>
> Calquera suxestión é ben recibida mediante esta mesma rolda de correo.

Que fai aí a referencia a TBX?

Na lista de «Aplicativos existentes» pódense indicar outros como
«Virtaal», «Pootle», «WordForge Editor» que tamén usan memorias de
tradución.

En «Servizos existentes» non sei se a intención é listar os servizos
ofrecidos pola comunidade ou se tamén se poden incluír outros como o
Logaliza http://sli.uvigo.es/CLUVI/index.html#logaliza ou o corpus de
Mancomún http://corpus.mancomun.org/xestermos.php

Non uses «insertar», é «inserir».

«Comom podes ver aínda»??

Que sexa capaz de xestionar memorias non só para en->gl, senón tamén
para en->es, en->fr... É máis, nin sequera se debería asumir que o
inglés é o idioma de partida.

Permitir busca inversa gl->en (como en openTran).

Unha característica interesante podería ser a posibilidade de poder
crear áreas temáticas e permitir incluír/quitar memorias a unha
temática concreta (ou a varias). Por exemplo as memorias de GIMP e
Krita corresponderían á temática de «Retoque de imaxe» e pertencerían
a diferentes proxectos. Ademais diso podería haber varias memorias
para cada un deses programas (como xa tedes indicado no documento).
Evidentemente deberíase poder listar as memorias pertencentes a unha
temática, e habería que listar as temáticas ás que pertence unha
memoria dada. Isto poderiase implementar como unha especie de nube de
etiquetas ou algo polo estilo.

Outra cousa importante é poder eliminar ou corrixir traducións
puntuais de calquera memoria de tradución, porque despois de xerarse
puido atoparse algún erro na tradución.

Tamén se debería poder substituír unha versión específica dunha
memoria de tradución (por exemplo a memoria da versión 2.6.0 de GIMP)
cunha nova versión (por exemplo un novo TMX da versión 2.6.0 de GIMP
pero con varias cadeas corrixidas).

Para buscas puntuais (consulta en vivo) como a do exemplo de «This
button closes the window» eu de vós nin sequera devolvía os resultados
en XML senón só directamente en JSON.

Poñede un sistema que permita descargar mediante REST (ou o que sexa)
unha/varias/todas as memorias de tradución que haxa no servidor. Así
por exemplo o Gtranslator ao detectar que se traduce do inglés ao
galego, enviaria unha consulta ao servidor para recuperar a lista de
memorias de tradución do inglés ao galego e permitirialle ao usuario
seleccionar as que desexe descargar, e a continuación Gtranslator
solicitaría o envío de todos eses TMX para gardalos en local. Despois
Gtranslator permitiria crear memorias de tradución con eses TMX e en
cada proxecto poderianse configurar as memorias de tradución a usar. A
parte interesante é que o servidor permita baixar a chuzo todas as
memorias e que o programa CAT as recupere automaticamente sen molestar
ao usuario demasiado.

Isto último complementariase con Autoterm, que ven sendo unha
funcionalidade Virtaal que le dun ficheiro de configuración de Virtaal
onde está o glosario para cada idioma, e de non ter xa unha copia
local descárgao automaticamente e o usuario xa pode traballar usando o
glosario, e todo isto sen molestar ao usuario para nada:
http://translate.sourceforge.net/wiki/virtaal/autoterm


No engadido para Gtranslator eu indicaría que ademais de buscar
automáticamente resultados para a cadea actual, sería boa idea
permitir seleccionar parte da cadea orixinal e premendo un atallo de
teclado (ou usando unha opción do menú contextual ao premer enriba do
texto seleccionado) se poida buscar esa subcadea no servidor de
memorias. É moi común ao traducir documentación que haxa cadeas longas
con referencias nomes de accións ou opcións que se traduciron na GUI,
e polo tanto esta opción sería útil.

Ademais no engadido para Gtranslator debería ser útil poder indicar
que só se pidan resultados para certas memorias de tradución. Isto
reduciría a carga no servidor, e ademais tamén pode ser que elimine
resultados non desexados xa que por exemplo no servidor pode haber
memorias de tradución de versións moi vellas de Firefox onde «tab»
aparece seguido como «separador» e non como «lapela». Estas
indicacións de memorias a usar pode que incluso interese poñelas na
configuración do proxecto de Gtranslator.

Unha cousa importante é que o servidor ao devolver resultados de busca
devolva primeiro os resultados das memorias máis recentes.
Evidentemente habería que limitar o número de resultados devoltos (15
xa serían excesivos, creo eu).

Nas buscas non deberían devolverse resultados cun «match ratio»
inferior ao 70%. En certos sistemas de memorias de tradución incluso
piden unha concordancia maior. Pero evidentemente isto non debería
aplicarse a cadeas moi longas, xa que é común que na tradución de
documentación as cadeas longas se separen en dúas ou tres, polo que un
resultado que só concorde no 30% para unha cadea orixinal de 100
palabras pode que non sexa un resultado tan malo.

Cando se me ocorran máis comentarios xa os irei enviando.

Deica.

Follow-Ups:
- Re: [gnome-gl] =?utf-8?q?Proxecto_de_servizo_web_centralizado_de_corp?= =?utf-8?q?us_ling=C3=BC=C3=ADstico_e_plugin_para_gtranslator?=
  - From: Leandro Regueiro

[Date Prev][Date Next] [Thread Prev][Thread Next] [Thread Index] [Date Index] [Author Index]