En mi séptimo día del reto, he estado realizando pruebas con vectorización, utilizando diferentes modelos de Sentence Transformers. Primero, comenté a Claude3.5 Sonet que tengo una capacidad de cómputo limitada, ya que estoy usando la versión gratuita de Google Colab, que solo cuenta con 12 GB de RAM sin GPU. Él me recomendó varios modelos de Sentence Transformers que podrían funcionar bien en mi entorno. Le expliqué que todos mis textos serán en inglés y que la tarea que quiero realizar es de clasificación. Él me sugirió tres modelos prioritarios, pero también me recomendó otros que podrían ser más intensivos en recursos computacionales. He creado un código que me permite ejecutar todos estos modelos. Durante la ejecución, he ido monitorizando el consumo de RAM, el cual se ha mantenido en niveles razonables, incluso con los modelos más grandes que no me habían sido recomendados inicialmente. Para probar los modelos, he seleccionado 7 artículos que cubren diferentes categorías: prácticas de alta implicación, prácticas de recursos humanos sostenibles, trabajo remoto y modelos no tradicionales de trabajo. He pedido a cada modelo que clasifique estos artículos en estas categorías. Los resultados muestran que algunos modelos, como el AL Distil Roberta V1 y el Parafrase Multilingual V2, han logrado clasificar correctamente la mayoría de los artículos. Otros, en cambio, han presentado algunos errores, como confundir una práctica de alta implicación con People Analytics. Esto me ha hecho reflexionar sobre la posible superposición en las definiciones de algunas categorías, lo que podría estar afectando a los resultados de clasificación. También he confirmado que los embeddings generados por estos modelos son deterministas, es decir, que ante el mismo texto producen los mismos resultados. En general, este ejercicio me ha permitido explorar diferentes opciones de modelos de vectorización y entender mejor el impacto de las limitaciones de mi entorno computacional, así como algunas consideraciones sobre la definición de las categorías a clasificar. #ProcesamientoLenguajeNatural #AprendizajeAutomático #MétodosInvestigación #LLM #ML #NLP #reto21dias
6:06 · 2024
2:30 · 2024
8:54 · 2024