08 Dic 2025 |
|
El estudio se ha publicado en una revista internacionalUn equipo de la UAH ha liderado una investigación pionera que demuestra que los modelos de inteligencia artificial más avanzados son capaces de clasificar contenido ilícito de la Dark Web sin necesidad de entrenamiento previo, alcanzando niveles de precisión muy elevados y mostrando un comportamiento consistente con analistas humanos. Este trabajo, desarrollado en el Departamento de Ciencias de la Computación, constituye el primer estudio comparativo de ocho grandes modelos de lenguaje comerciales aplicados a la clasificación automática de textos procedentes de redes ocultas. El artículo principal, publicado en la revista internacional Electronics (MDPI), lleva por título “Zero-Shot Classification of Illicit Dark Web Content with Commercial LLMs: A Comparative Study on Accuracy, Human Consistency, and Inter-Model Agreement”, y analiza modelos como GPT-4o, Gemini 2.0 Flash, Claude 3.5 Haiku, DeepSeek o Grok, empleando el dataset CoDA con 10.000 documentos reales de la Dark Web. Los resultados muestran precisiones muy altas —DeepSeek Chat (0,87 F1), Grok (0,868), Gemini Flash (0,861)— además de una fuerte consistencia intermodelo y un excelente acuerdo con anotadores humanos. El estudio confirma que los LLMs comerciales representan una herramienta eficaz para el análisis forense de contenido ilícito en entornos anónimos, multilingües y altamente volátiles. Además, recientemente se ha publicado un segundo artículo internacional, “Classifying illicit dark web content through zero-shot prompting: An empirical study with GPT models”, en la revista Information Processing & Management, donde se evalúan cuatro modelos GPT (GPT-4.1, GPT-4.1-mini, GPT-4.1-nano y o4-mini). Este estudio establece un nuevo rendimiento de referencia en clasificación zero-shot de contenido de la Dark Web, alcanzando un F1 ponderado de 0,885 y mostrando una estabilidad de salida muy elevada (TARa@10 superior a 0,96). También se confirma un comportamiento robusto en escenarios multilingües y se analizan las categorías más complejas desde el punto de vista semántico. Dirigido por Víctor Pablo Prado Sánchez, el estudio evalúa modelos como GPT-4o, Claude 3. 5 Haiku y DeepSeek Chat, entre otros, utilizando un conjunto de datos llamado CoDA, que contiene 10. 000 documentos de la Dark Web en categorías como Drogas, Armas y Fraude. Los resultados indican que todos los modelos lograron altos niveles de precisión en la tarea de clasificación sin ajuste previo, siendo DeepSeek Chat el que obtuvo la mejor puntuación. |