Active Learning como paradigma para la clasificación automática de documentos.

 En actualidad, I+D+i, Noticias

machine learning con logo de Abox

Grupo Adapting está trabajando con el apoyo de científicos y expertos en Ingeniería Artificial para lograr que sus sistemas permitan una mayor automatización de las tareas de gestión documental, incrementando productividad, evitando errores de clasificación y reduciendo así la carga de trabajo de los usuarios de su plataforma de software Abox-ECM.

Es importante destacar el avance que han tenido en los últimos años los métodos de IA y, en particular, las tecnologías de Machine Learning para el descubrimiento de patrones y la clasificación automática de contenidos digitales.

Una de las áreas de mayor interés es “Active Learning” o “Aprendizaje Activo”. El aprendizaje activo es un caso especial de aprendizaje automático en el que un algoritmo de aprendizaje puede consultar interactivamente a un usuario (o fuente experta de información) para etiquetar nuevos puntos de datos con las salidas deseadas. En la literatura estadística, a veces también se le llama diseño experimental óptimo (ver diagrama).

Hay situaciones en las que los datos sin etiquetar son abundantes pero el etiquetado manual es muy costoso, como sería el escenario de la gestión documental en las empresas. En tal escenario, los algoritmos de aprendizaje pueden consultar activamente al usuario/experto para obtener etiquetas. Este tipo de aprendizaje iterativo supervisado se llama aprendizaje activo. Dado que el algoritmo elige los ejemplos, el número de ejemplos para aprender un concepto puede ser a menudo mucho menor que el número requerido en el aprendizaje supervisado normal.

La diferencia principal o fundamental entre un aprendizaje activo y uno pasivo es la capacidad de consultar instancias basadas en consultas anteriores y las respuestas (etiquetas) de esas consultas. Como se indicó antes, todos los escenarios de aprendizaje activo requieren algún tipo de medida de la información de las instancias no etiquetadas.

proceso de active learning

A continuación, describimos tres estrategias de consulta al usuario/ experto:

  • Menor Confianza: en esta estrategia, el software selecciona la instancia para la cual tiene la menor confianza en su etiqueta más probable.
  • Muestreo de margen: el defecto de la estrategia anterior, es que sólo toma en consideración la etiqueta más probable y no tiene en cuenta las otras probabilidades de la etiqueta. La estrategia de muestreo de márgenes trata de superar esta desventaja seleccionando la instancia que tiene la menor diferencia entre la primera y la segunda etiqueta más probable.
  • Muestreo de entropía: para utilizar todas las probabilidades de etiqueta posibles, se utiliza una medida popular llamada entropía. La fórmula de entropía se aplica a cada instancia y se consulta la instancia con el mayor valor.

En los próximos meses, Grupo Adapting irá dotando de Inteligencia Artificial a todas sus plataformas de software de gestión de documentos electrónicos, ayudando a sus clientes en la búsqueda de productividad y un mayor aprovechamiento de sus sistemas de información e inversiones en tecnología.

 


Sigue Nuestras redes sociales y mantente enterado de la novedad del mundo documental:

Escribe un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

equipo revisando estadísticas