- -
UPV
 

Reto21dias_ago24-Codificación y clasificación automática (NLM vs IA generativa LLM). Resumen días 2 a 4. Mostrar codigo python para vectoriazacion

En este video, se presentan los resultados de haber probado tres modelos diferentes para trabajar con un conjunto de datos. Dos de estos modelos están relacionados con modelos de lenguaje natural (LLM) y uno con modelos de vectorización. Se explica que primero se conectó a su repositorio de GitHub para acceder a los archivos de datos y luego a su carpeta de Google Drive para guardar los resultados intermedios. Se instalaron las principales librerías que se necesitaban. Luego se procedió a leer el documento de datos, recortarlo para trabajar solo con las 12 dimensiones de las prácticas de alta implicación y las dos primeras columnas. Se hicieron pruebas de tokenización y generación de embeddings. A continuación, se probó un primer código que permitió calcular los embeddings, las distancias de coseno y realizar un clustering con K-means. Se presentaron los resultados en gráficos de 2D y 3D. Posteriormente, se probó otro código utilizando el modelo DistilBERT, repitiendo el proceso de generar embeddings, calcular distancias y hacer clustering. También se probó un modelo de vectorización, siguiendo un procedimiento similar. Los principales aspectos que se tratan son: Prueba de diferentes modelos de lenguaje natural y vectorización Procesamiento de datos: lectura, recorte y preparación Generación de embeddings Cálculo de distancias de coseno Aplicación de clustering (K-means) Visualización de resultados en gráficos 2D y 3D Los matices clave son: Se está explorando y comparando diferentes enfoques para trabajar con el conjunto de datos Se está buscando encontrar el modelo más adecuado para las necesidades Se está interesado en entender las similitudes y diferencias entre las prácticas de alta implicación a través de los resultados de los modelos Se está probando diferentes formas de presentar y visualizar los resultados #ProcesamientoLenguajeNatural #AprendizajeAutomático #MétodosInvestigación #LLM #ML #NLP #reto21dias


EMAS upv