MeCab: Japonés en la programación
Nos pusimos en contacto con una estudiante de japonés (¿Nuevo miembro de ADEJI?) que trabaja de programadora. Charlamos sobre posibles formas de aprovechar la tecnología de análisis morfológico japonés dentro del estudio y enseñanza del idioma.
MeCab es uno de los analizadores más populares. Lo que hace este programa es, básicamente, separar las palabras (recordemos que en japonés no hay espacios entre palabras) y decir qué tipo de palabra es cada una (sustantivo, verbo, adjetivo, etc.). Esto podría ser útil si, por ejemplo, se contara con una base de datos de libros, blogs o subtítulos de películas. Uno de los posibles usos sería un buscador avanzado de ejemplos de palabras. No solo buscaría palabras en sí, sino también podría reconcoer conjugaciones de las mismas. Esto último podría ser útil para algún alumno que esté estudiando, por ejemplo, la gramática なければなりません y requiera un puñado de ejemplos reales con contexto.
MeCab utiliza un algoritmo basado en Viterbi, común en los sistemas que emplean Modelos Ocultos de Markov. El proceso se puede resumir así:
- El texto de entrada es considerado una secuencia de caracteres sin separación.
- Se genera un grafo de posibles segmentaciones, donde cada nodo representa una posible palabra (o "morfema", es decir, un fragmento mínimo capaz de expresar un significado).
- Se usa el algoritmo de Viterbi para encontrar el camino más probable a través de ese grafo, es decir, la mejor secuencia de palabras y sus clases gramaticales.
- Un diccionario de morfemas (como ipadic, unidic, etc.)
- Un conjunto de costos (frecuencias y transiciones morfosintácticas) entrenado con corpus.
Por ejemplo (verbo 食べる):
食べ, 動詞, 自立, 一段, 連用形, 食べる, タベ, タベ
MeCab por defecto devuelve una lista de líneas, una por morfema, con sus análisis. Por ejemplo:
すしをたべました
Se convierte en:
すし 名詞,一般,*,*,*,*,すし,スシ,スシ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
たべ 動詞,自立,*,*,一段,連用形,たべる,タベ,タベ
まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
Cada palabra viene con toda su info gramatical (como en un diccionario electrónico).
Ahora bien, volviendo a nuestra historia de la programadora. Están ansiosos para saber en qué terminó todo, ¿no? La verdad es que el tema está aún muy crudo, por eso no damos más información. Estamos aún en fases experimentales. La verdad que todo esto de lo analizadores morfológicos (que por cierto, en japonés se dice 形態素解析「けいたいそかいせき」) es un mundo nuevo para mí.
¿Sabés de programación (PostgreSQL, Express, React y Node.js) y japonés? ¿Te interesan los analizadores morfológicos japoneses? Si querés ser parte de este proyecto ponete en contacto con nosotros. ¿Quién sabe? A lo mejor si terminamos cocinando algo concreto de todo esto podríamos exponerlo en alguna charla ADEJI y "bajarlo a tierra" para el usuario común.

Comentarios
Publicar un comentario