Machine Translation – How it Works, What Users Expect, and What They Get

Los sistemas de traducción automática (MT) ahora son omnipresentes. Esta ubicuidad se debe a una combinación de una mayor necesidad de traducción en el mercado global actual y un crecimiento exponencial en el poder de cómputo que ha hecho que tales sistemas sean viables. Y bajo las circunstancias adecuadas, los sistemas de traducción automática son una herramienta poderosa. Ofrecen traducciones de baja calidad en situaciones en las que una traducción de baja calidad es mejor que ninguna traducción, o en las que una traducción aproximada de un documento grande entregada en segundos o minutos es más útil que una buena traducción entregada en tres semanas.

Desafortunadamente, a pesar de la amplia accesibilidad de la MT, está claro que el propósito y las limitaciones de tales sistemas con frecuencia se malinterpretan y su capacidad se sobreestima ampliamente. En este artículo, quiero dar una breve descripción de cómo funcionan los sistemas MT y, por lo tanto, cómo se pueden utilizar mejor. Luego, presentaré algunos datos sobre cómo se usa la MT basada en Internet en este momento, y mostraré que existe un abismo entre el uso previsto y el real de tales sistemas, y que los usuarios aún necesitan educación sobre cómo usar los sistemas de MT de manera efectiva. .

Cómo funciona la traducción automática

Es posible que haya esperado que un programa de traducción por computadora usaría las reglas gramaticales de los idiomas en cuestión, combinándolas con algún tipo de “diccionario” en memoria para producir la traducción resultante. Y, de hecho, así es esencialmente como funcionaban algunos sistemas anteriores. Pero la mayoría de los sistemas de MT modernos en realidad adoptan un enfoque estadístico que es bastante “lingüísticamente ciego”. Esencialmente, el sistema está entrenado en un corpus de traducciones de ejemplo. El resultado es un modelo estadístico que incorpora información como:

– “cuando las palabras (a, b, c) ocurren en sucesión en una oración, hay un X% de posibilidades de que las palabras (d, e, f) ocurran en sucesión en la traducción” (NB no tiene ser el mismo número de palabras en cada par);
– “Dadas dos palabras sucesivas (a, b) en el idioma de destino, si la palabra (a) termina en -X, hay un X% de posibilidades de que la palabra (b) termine en -Y”.

Dada una gran cantidad de tales observaciones, el sistema puede traducir una oración al considerar varias traducciones candidatas, hechas al unir palabras casi al azar (en realidad, a través de algún proceso de ‘selección ingenua’), y elegir la estadísticamente más probable. opción.

Al escuchar esta descripción de alto nivel de cómo funciona la MT, la mayoría de las personas se sorprenden de que un enfoque tan “lingüísticamente ciego” funcione. Lo que es aún más sorprendente es que normalmente funciona mejor que los sistemas basados ​​en reglas. Esto se debe en parte a que confiar en el análisis gramatical en sí mismo introduce errores en la ecuación (el análisis automatizado no es completamente preciso y los humanos no siempre están de acuerdo sobre cómo analizar una oración). Y entrenar un sistema en “texto simple” le permite basar un sistema en muchos más datos de lo que sería posible de otro modo: los corpus de textos analizados gramaticalmente son pequeños y pocos y distantes entre sí; las páginas de “texto desnudo” están disponibles en billones.

Sin embargo, lo que este enfoque significa es que la calidad de las traducciones depende en gran medida de qué tan bien se representen los elementos del texto de origen en los datos utilizados originalmente para entrenar el sistema. Si accidentalmente escribe he will return o vous avez demander (en lugar de he will return o vous avez demandé), el sistema se verá obstaculizado por el hecho de que es poco probable que secuencias como will return hayan ocurrido muchas veces en el corpus de entrenamiento (o peor, puede haber ocurrido con un significado completamente diferente, ya que necesitaban que su testamento se devolviera al abogado). Y dado que el sistema tiene poca noción de gramática (para averiguar, por ejemplo, que devolvió es una forma de retornar, y “el infinitivo es probable después de que lo hará”), en efecto, tiene poco para continuar.

De manera similar, puede pedirle al sistema que traduzca una oración que sea perfectamente gramatical y común en el uso diario, pero que incluya características que no han sido comunes en el corpus de entrenamiento. Los sistemas de traducción automática suelen estar capacitados en los tipos de texto para los que las traducciones humanas están fácilmente disponibles, como documentos técnicos o comerciales, o transcripciones de reuniones de parlamentos y conferencias multilingües. Esto le da a los sistemas de MT un sesgo natural hacia ciertos tipos de texto formal o técnico. E incluso si el corpus de entrenamiento todavía cubre el vocabulario cotidiano, la gramática del habla cotidiana (como usar tú en lugar de usted en español, o usar el tiempo presente en lugar del tiempo futuro en varios idiomas) puede no hacerlo.

Sistemas de traducción automática en la práctica

Los investigadores y desarrolladores de sistemas de traducción por computadora siempre han sido conscientes de que uno de los mayores peligros es la percepción errónea por parte del público de su propósito y limitaciones. Somers (2003)[1]observando el uso de MT en la web y en las salas de chat, comenta que: “Esta mayor visibilidad de MT ha tenido una serie de efectos secundarios. […] Sin duda, existe la necesidad de educar al público en general sobre la baja calidad de la traducción automática sin procesar y, lo que es más importante, por qué la calidad es tan baja”. .

Como ilustración, presentaré una pequeña muestra de datos de un servicio de traducción automática español-inglés que pongo a disposición en el sitio web Español-Inglés. El servicio funciona tomando la entrada del usuario, aplicando algunos procesos de “limpieza” (como corregir algunos errores ortográficos comunes y descifrar instancias comunes de “lenguaje de SMS”) y luego buscar traducciones en (a) un banco de ejemplos del el diccionario español-inglés del sitio, y (b) un motor MT. Actualmente, Google Translate se usa para el motor MT, aunque es posible que se use un motor personalizado en el futuro. Las cifras que presento aquí son de un análisis de 549 consultas español-inglés presentadas al sistema desde máquinas en México[2]– en otras palabras, asumimos que la mayoría de los usuarios están traduciendo desde su idioma nativo.

Primero, ¿para qué usan las personas el sistema MT? Para cada consulta, intenté una “mejor conjetura” sobre el propósito del usuario para traducir la consulta. En muchos casos, el propósito es bastante obvio; en algunos casos, existe una clara ambigüedad. Con esa advertencia, juzgo que en aproximadamente el 88 % de los casos, el uso previsto es bastante claro y clasifico estos usos de la siguiente manera:

  • Buscando una sola palabra o término: 38%
  • Traducir un texto formal: 23%
  • Sesión de chat en Internet: 18%
  • Tareas para el hogar: 9%

Una observación sorprendente (¡si no alarmante!) es que, en una gran proporción de casos, los usuarios usan el traductor para buscar una sola palabra o término. De hecho, el 30% de las consultas consistía en una sola palabra. El hallazgo es un poco sorprendente dado que el sitio en cuestión también tiene un diccionario español-inglés, y sugiere que los usuarios confunden el propósito de diccionarios y traductores. Aunque no está representado en las cifras sin procesar, hubo claramente algunos casos de búsquedas consecutivas en las que parecía que un usuario estaba dividiendo deliberadamente una oración o frase que probablemente se habría traducido mejor si se hubieran dejado juntas. Tal vez como consecuencia de la sobreexplotación de los estudiantes en el uso del diccionario, vemos, por ejemplo, una consulta de cuarto para (“cuarto para”) seguida inmediatamente por una consulta de un número. Claramente existe la necesidad de educar a los estudiantes y usuarios en general sobre la diferencia entre el diccionario electrónico y el traductor automático.[3]: en particular, que un diccionario guiará al usuario a elegir la traducción apropiada dado el contexto, pero requiere búsquedas de una sola palabra o de una sola frase, mientras que un traductor generalmente funciona mejor con oraciones completas y dada una sola palabra o término, simplemente reportar la traducción estadísticamente más común.

Estimo que en menos de una cuarta parte de los casos, los usuarios están usando el sistema MT para su propósito “entrenado” de traducir o resumir un texto formal (y están ingresando una oración completa, o al menos una oración parcial en lugar de un sustantivo aislado frase). Por supuesto, es imposible saber si alguna de estas traducciones estaba destinada a su publicación sin más pruebas, lo que definitivamente no es el propósito del sistema.

El uso para traducir textos formales ahora casi rivaliza con el uso para traducir sesiones informales de chat en línea, un contexto para el cual los sistemas de MT generalmente no están capacitados. El contexto del chat en línea plantea problemas particulares para los sistemas de MT, ya que son comunes características como la ortografía no estándar, la falta de puntuación y la presencia de coloquialismos que no se encuentran en otros contextos escritos. Para que las sesiones de chat se traduzcan de manera efectiva, probablemente se requiera un sistema dedicado entrenado en un corpus más adecuado (y posiblemente personalizado).

No es demasiado sorprendente que los estudiantes utilicen sistemas de traducción automática para hacer sus tareas. Pero es interesante notar hasta qué punto y cómo. De hecho, el uso para la tarea incluye una mezcla de “uso justo” (comprender un ejercicio) con un intento de “hacer que la computadora haga su tarea” (con resultados previsiblemente nefastos en algunos casos). Las consultas categorizadas como deberes incluyen oraciones que obviamente son instrucciones para ejercicios, además de ciertas oraciones que explican generalidades triviales que serían poco comunes en un texto o conversación, pero que son típicas en los ejercicios de deberes para principiantes.

Sea cual sea el uso, un problema tanto para los usuarios del sistema como para los diseñadores es la frecuencia de errores en el texto de origen que pueden dificultar la traducción. De hecho, más del 40% de las consultas contenían este tipo de errores, y algunas consultas contenían varios. Los errores más comunes fueron los siguientes (se excluyeron las consultas de palabras sueltas y términos en el cálculo de estas cifras):

  • Acentos que faltan: 14% de consultas
  • Puntuación faltante: 13%
  • Otro error ortográfico: 8%
  • Oración gramaticalmente incompleta: 8%

Teniendo en cuenta que en la mayoría de los casos, los usuarios que traducían desde su idioma nativo parecen subestimar la importancia de usar la ortografía estándar para tener la mejor oportunidad de una buena traducción. Más sutilmente, los usuarios no siempre entienden que la traducción de una palabra puede depender de otra, y que el trabajo del traductor es más difícil si los constituyentes gramaticales están incompletos, por lo que consultas como hoy es día de no son infrecuentes. Tales consultas dificultan la traducción porque la posibilidad de que una oración en el corpus de entrenamiento tenga, digamos, una preposición “colgante” como esta será escasa.

¿Lecciones por aprender…?

En la actualidad, todavía existe un desajuste entre el rendimiento de los sistemas de MT y las expectativas de los usuarios. Veo que la responsabilidad de cerrar esta brecha está en manos tanto de los desarrolladores como de los usuarios y educadores. Los usuarios deben pensar más en hacer que sus oraciones de origen sean “compatibles con MT” y aprender a evaluar la salida de los sistemas de MT. Los cursos de idiomas deben abordar estos problemas: aprender a usar herramientas de traducción informática de manera efectiva debe verse como una parte relevante del aprendizaje de un idioma. Y los desarrolladores, incluyéndome a mí, debemos pensar en cómo podemos hacer que las herramientas que ofrecemos se adapten mejor a las necesidades de los usuarios de idiomas.

notas

[1] Somers (2003), “Traducción automática: los últimos avances” en The Oxford Handbook of Computational Linguistics, OUP.
[2] Este número impar se debe simplemente a que las consultas que coincidieron con los criterios de selección se capturaron con probabilidad aleatoria dentro de un marco de tiempo fijo. Cabe señalar que el sistema para deducir el país de una máquina a partir de su dirección IP no es del todo exacto.
[3] Si el usuario ingresa una sola palabra en el sistema en cuestión, se muestra un mensaje debajo de la traducción que sugiere que el usuario obtendrá un mejor resultado utilizando el diccionario del sitio.

From Marcus Santamaria, comes a Country education that is saint for anyone from 30 to 96 age of age who wants to rapidly and easily get by in real-life Nation to verbalise with their amigos: Click Here

Please follow and like us:

Leave a Reply