- -
UPV
 

Reto21dias_ago24-Codificación y clasificación automática (NLM vs IA generativa LLM). Parte 10. Explicación del producto final logrado

En este video, voy a mostrarte las tablas de resultados y cómo puedo utilizarlas para el caso de uso que me había planteado. Así podrás comprobar que el código que he estado presentando en otros videos y las cosas que he comentado tienen un producto final que se usa y funciona. Primero, voy a explicar cuáles son los datos de partida que he utilizado en este piloto. He estructurado un dataset que contiene tanto las categorías a clasificar como los artículos a clasificar. Las primeras filas son las categorías, que comiencen con "cat" para indicar que son categorías. He incluido varias categorías numeradas (1, 2, 3, 4, etc.) porque en algún momento podría querer utilizar solo un subconjunto de ellas. Estas categorías representan diferentes prácticas de recursos humanos, como prácticas de alta implicación, prácticas de recursos humanos sostenibles, etc. Cada categoría tiene una descripción breve (de 150-200 palabras) y en algunos casos también una descripción más larga. Luego, en la parte inferior del dataset, tengo los 15 artículos que voy a clasificar. Cada artículo tiene una etiqueta con el autor y el año, el título y el resumen. He marcado el "tipo" de cada fila, indicando que los que empiezan con "art" son los artículos a clasificar, y los que empiezan con "cat" son las categorías. Además, he hecho una clasificación previa de los artículos, agrupándolos en función de si tratan sobre prácticas de alta implicación, prácticas de recursos humanos (como Green HRM o trabajo remoto), o temas más alejados como gestión de operaciones o docencia universitaria. Con este dataset, voy a ejecutar los modelos de clasificación y analizar los resultados. La idea es que los artículos más cercanos a las categorías de prácticas de alta implicación aparezcan en las primeras posiciones del ranking, mientras que los más alejados queden en las últimas. En las siguientes pestañas de la hoja de cálculo, podrás ver más detalles de los resultados, como el tiempo de procesamiento de cada modelo, la longitud de los embeddings, la categoría más próxima para cada artículo según cada modelo, y una tabla de similitud que muestra gráficamente cómo se agrupan los artículos. El objetivo final es poder utilizar este ranking para optimizar el proceso de revisión sistemática de literatura. En lugar de revisar los artículos de forma aleatoria, puedo empezar por los más cercanos a las categorías de interés y avanzar progresivamente hacia los más lejanos, lo cual me permitiría ahorrar tiempo y esfuerzo, y reducir la fatiga y los sesgos de los revisores. #ProcesamientoLenguajeNatural #AprendizajeAutomático #MétodosInvestigación #LLM #ML #NLP #reto21dias


EMAS upv