Desambiguación en Lingüística y Lingüística Computacional

En lingüística, la desambiguación es el proceso de determinar qué sentido de una palabra se está utilizando en un contexto particular. También conocido como desambiguación léxica.

En lingüística computacional, este proceso discriminativo se llama desambiguación de sentido de palabra (WSD).

Ejemplos y observaciones

"Sucede que nuestra comunicación, en diferentes idiomas por igual, permite que la misma forma de palabra se use para significar cosas diferentes en transacciones comunicativas individuales. La consecuencia es que uno tiene que descubrir, en una transacción particular, el significado deseado de un palabra dada entre sus sentidos potencialmente asociados. ambigüedades que surgen de tales asociaciones de significado de forma múltiple están en el nivel léxico, a menudo tienen que resolverse por medio de un contexto más amplio del discurso que incorpora la palabra. Por lo tanto, los diferentes sentidos de la palabra 'servicio' solo se pueden distinguir si se puede mirar más allá de la palabra misma, como en el contraste de 'servicio del jugador en Wimbledon' con 'el servicio del camarero en Sheraton'. Este proceso de identificación de significados de palabras en un discurso se conoce generalmente como sentido de las palabras desambiguación (WSD) "(Oi Yee Kwong, Nuevas perspectivas sobre estrategias computacionales y cognitivas para la desambiguación del sentido de las palabras. Springer, 2013)

Desambiguación Léxica y Desambiguación de Sentido de Palabras (WSD)

"Léxico desambiguación en su definición más amplia es nada menos que determinar el significado de cada palabra en contexto, que parece ser un proceso en gran medida inconsciente en las personas. Como un problema computacional, a menudo se describe como 'AI completo', es decir, un problema cuya solución presupone una solución para completar la comprensión del lenguaje natural o el razonamiento de sentido común (Ide y Véronis 1998).

"En el campo de la lingüística computacional, el problema generalmente se llama desambiguación del sentido de la palabra (WSD) y se define como el problema de determinar computacionalmente qué 'sentido' de una palabra se activa mediante el uso de la palabra en un contexto particular. WSD es esencialmente una tarea de clasificación: los sentidos de las palabras son las clases, el contexto proporciona la evidencia y cada aparición de una palabra se asigna a una o más de sus posibles clases en función de la evidencia. Esta es la caracterización tradicional y común de WSD que ve como un proceso explícito de desambiguación con respecto a un inventario fijo de sentidos de palabras. Se supone que las palabras tienen un conjunto finito y discreto de sentidos de un diccionario, una base de conocimiento léxico o una ontología (en este último, los sentidos corresponden a conceptos que una palabra lexicaliza). También se pueden usar inventarios específicos de la aplicación. Por ejemplo, en una configuración de traducción automática (MT), uno puede tratar las traducciones de palabras como sentidos de palabras, un enfoque que es beco Cada vez es más factible debido a la disponibilidad de grandes cuerpos paralelos multilingües que pueden servir como datos de capacitación. El inventario fijo de WSD tradicional reduce la complejidad del problema, pero existen campos alternativos ... "(Eneko Agirre y Philip Edmonds," Introducción ". Desambiguación del sentido de las palabras: algoritmos y aplicaciones. Springer, 2007)

Homonimia y Desambiguación

"Léxico desambiguación es adecuado especialmente para casos de homonimia, por ejemplo, una ocurrencia de bajo debe asignarse a cualquiera de los elementos léxicos bajo1 o bajo2, dependiendo del significado pretendido.

"La desambiguación léxica implica una elección cognitiva y es una tarea que inhibe los procesos de comprensión. Debe distinguirse de los procesos que conducen a una diferenciación de los sentidos de las palabras. La primera tarea se realiza de manera bastante confiable también sin mucha información contextual, mientras que la segunda no lo es (cf. Veronis 1998, 2001). También se ha demostrado que las palabras homónimas, que requieren desambiguación, ralentizan el acceso léxico, mientras que las palabras polisémicas, que activan una multiplicidad de sentidos de palabras, aceleran el acceso léxico (Rodd ea 2002).

"Sin embargo, tanto la modificación productiva de los valores semánticos como la elección directa entre elementos léxicamente diferentes tienen en común que requieren información adicional no léxica". (Peter Bosch, "Productividad, polisemia y indexicalidad predicada". Lógica, Lenguaje y Computación: 6to Simposio Internacional de Tbilisi sobre Lógica, Lenguaje y Computación, ed. por Balder D. ten Cate y Henk W. Zeevat. Springer, 2007)

Desambiguación de la categoría léxica y el principio de probabilidad

"Corley y Crocker (2000) presentan un modelo de cobertura amplia de categoría léxica desambiguación basado en el Principio de probabilidad. Específicamente, sugieren que para una oración que consiste en palabras w0 0... wnorte, el procesador de oraciones adopta la secuencia de voz más probable t0 0... tnorte. Más específicamente, su modelo explota dos probabilidades simples: (yo) la probabilidad condicional de la palabra wyo dado una parte particular del discurso tyo, y (ii) la probabilidad de tyo dada la parte anterior del discurso ti-1. A medida que se encuentra cada palabra de la oración, el sistema le asigna esa parte del discurso tyo, que maximiza el producto de estas dos probabilidades. Este modelo aprovecha la idea de que muchas ambigüedades sintácticas tienen una base léxica (MacDonald et al., 1994), como en (3):

(3) Los precios / marcas del almacén son más baratos que el resto.

"Estas oraciones son temporalmente ambiguas entre una lectura en la que precios o hace es el verbo principal o parte de un sustantivo compuesto. Después de ser entrenado en un corpus grande, el modelo predice la parte más probable del discurso para precios, contabilizando correctamente el hecho de que las personas entienden precio como sustantivo pero hace como verbo (ver Crocker y Corley, 2002, y referencias citadas allí). El modelo no solo explica una gama de preferencias de desambiguación arraigadas en la ambigüedad de categoría léxica, sino que también explica por qué, en general, las personas son muy precisas para resolver tales ambigüedades "(Matthew W. Crocker," Modelos racionales de comprensión: abordar el Paradoja del rendimiento ". Psicolingüística del siglo XXI: cuatro piedras angulares, ed. por Anne Cutler. Lawrence Erlbaum, 2005)