Evaluación semiautomática de textos asistida por Inteligencia Artificial
Por: Luis de la Fuente Valentín
Las técnicas de Procesamiento de Lenguaje Natural están actualmente en un punto de desarrollo que permite abordar tareas realmente innovadoras. Cuestiones como el mero tratamiento de texto como datos para la realización de búsquedas y estadísticas, o incluso la capacidad de analizar el sentimiento o la emoción asociada a un texto son cuestiones bien consolidadas en el estado del arte. La investigación actual, que se apoya principalmente en el uso técnicas de Deep Learning, es cada vez más capaz de analizar un texto por su significado global, y no sólo por sus palabras individuales. Es decir, es cada vez más capaz de hacer algo similar a entender el texto.
Nos acercamos poco a poco a una funcionalidad que supondrá un pequeño gran salto cualitativo, como es la posibilidad de evaluar un texto (es decir, la respuesta que haya dado un alumno a una pregunta planteada por el profesor) de forma automática o semiautomática. ¿Es esto en realidad posible? Antes de responder, es necesario reflexionar sobre la forma en la que una actividad es calificada.
Una rúbrica de calificación de una actividad se centrará, como norma general, en el nivel semántico. Es decir, el profesor debe determinar si el texto habla del tema por el que se ha preguntado, si las afirmaciones que se hacen son correctas y si se está respondiendo de forma precisa a la pregunta planteada. Dependiendo del nivel de enseñanza, puede aparecer también de forma explícita una penalización por las faltas de ortografía que contenga el texto. Una cuestión que habitualmente no aparece de forma explícita pero sí implícita es la calidad de la redacción. Dicho de otra forma: el profesor no puntúa mejor o peor por una mala redacción de la respuesta, pero una mala redacción puede ser causa de que el profesor no entienda la respuesta, y por tanto la otorgue una baja calificación.
En resumidas cuentas, una rúbrica de calificación trabaja el texto en los niveles ortográfico, sintáctico y semántico. Por tanto, para determinar si una inteligencia artificial es capaz de realizar la calificación automática de un texto, debemos analizar cada uno de estos contextos por separado.
El primero de ellos es el nivel ortográfico. ¿Puede una máquina evaluar la ortografía de un texto? Hace muchos años que los sistemas de revisión ortográfica están integrados con los procesadores de texto. La simple comparación de cada palabra del texto con un diccionario determina si la palabra existe o no, lo que detecta errores en la mayoría de los casos. Este sería el caso de “labor” vs “lavor”. En otros casos más complejos de resolver, la palabra existe y está bien escrita, pero no está debidamente ubicada en la oración, como por ejemplo el uso de “abrazo” en la oración “ella abrazo a su hijo”, en la que vemos que se ha confundido con “abrazó”. En este caso, habrá que completar el análisis ortográfico con un análisis sintáctico que determine si una palabra está bien ubicada en una oración. Con un alto grado de acierto, el nivel ortográfico está debidamente resuelto con las herramientas actuales.
Un poco más difícil es el nivel sintáctico, en el que se determina si las oraciones están debidamente estructuradas. Y más aún, si la estructura de las oraciones facilita o dificulta la lectura. Se trata de un campo en el que la tecnología puede aportar un buen catálogo de soluciones. Un procesador de lenguaje natural puede, por ejemplo, saber si las oraciones de un texto están correctamente construidas, si son excesivamente simples o excesivamente complejas, o si hay un uso excesivo de adverbios o voz pasiva. Esto es gracias a la potencia de los analizadores sintácticos y morfosintácticos, que ya están consolidados en el campo del Procesamiento de Lenguaje Natural.
Con el estado del arte actual, el problema verdaderamente pendiente de resolver está en el nivel semántico, que se encarga de verificar si el significado contenido en el texto responde a las expectativas de la rúbrica. O, en otras palabras, si el alumno ha contestado bien a la pregunta. Con técnicas de Question Answering es posible encontrar, entre un gran volumen de documentos, un fragmento de texto que responda a una pregunta concreta. Sin embargo, son estrategias que están probadas para un volumen grande de documentos, y cuyo sistema de reconocimiento de patrones requiere un gran volumen de datos para su entrenamiento. Son modelos, principalmente basados en Deep Learning, cuya aplicación al caso de la rúbrica no es trivial. La publicación de BERT, y sus parientes en español, abre la puerta al uso de redes pre entrenadas, lo que aumentará la versatilidad de este tipo de sistemas.
En el grupo DDS, y a través del proyecto PLeNTaS, estamos trabajando en un sistema que aborde estos tres niveles: ortográfico, sintáctico y semántico. El objetivo final es que el sistema sea capaz de rellenar una rúbrica, y que esta rúbrica pueda servir de feedback temprano para el alumno. Sin embargo, aún quedan muchas cuestiones por resolver antes de llegar a dicho objetivo. Una de ellas es la explicabilidad: la capacidad del sistema de dotar de explicaciones comprensibles por humanos a la calificación otorgada en la rúbrica. Otra cuestión no menos importante es evaluar el impacto que en el proceso de enseñanza/aprendizaje que pueda causar un sistema de este tipo: ¿afectará a la metodología de enseñanza?, ¿el feedback automático tendrá el mismo efecto cognitivo que el feedback otorgado por un humano?
La calificación automática de ejercicios de respuesta abierta es todavía un objetivo lejano, pero las investigaciones actuales ya están a la puerta de conseguir los primeros objetivos parciales. Sin duda, un camino apasionante desde el punto de vista del conocimiento.