Medical Artificial Intelligence text Detection in Multilingual settings (MedAID-ML)

Datos y Recursos

Interoperabilidad


Categorías


Información Adicional

Campo Valor
Identificador http://hdl.handle.net/10261/389309
Autoría
Proyecto
Nombre Medical Artificial Intelligence text Detection in Multilingual settings (MedAID-ML)
Descripción

Este conjunto de datos se creó recopilando corpus de autoría humana de varios centros de salud pública y generando datos adicionales mediante tres LLM diferentes: GPT-4o, Mistral-7B y Llama3-1. Incluimos textos en inglés, español, alemán y francés del ámbito biomédico. La versión actual recopila un 50 % de textos generados por IA y un 50 % de textos escritos por humanos. A continuación, se detallan los datos utilizados:

Biblioteca Cochrane: Base de datos de metaanálisis y revisiones sistemáticas con resultados actualizados de estudios clínicos. Se utilizaron resúmenes de revisiones sistemáticas en los cuatro idiomas.

Ensayos Clínicos Europeos (EUCT): Esta agencia supervisa y evalúa los productos farmacéuticos de la Unión Europea (UE). Descargamos datos paralelos de los informes públicos de evaluación (EPAR) de 12 nuevos medicamentos, así como datos de los protocolos de ensayos clínicos y los criterios de elegibilidad. Nos aseguramos de que los datos se publicaran únicamente desde enero de 2025 hasta la fecha. El objetivo era recopilar datos que podrían no haberse utilizado para entrenar a los LLM en nuestros experimentos.

Agencia Europea de Medicamentos (EMA): Esta agencia supervisa y evalúa los productos farmacéuticos de la Unión Europea (UE). Descargamos datos paralelos de los informes públicos de evaluación (EPAR) de 12 nuevos medicamentos, así como datos de los protocolos de ensayos clínicos y los criterios de elegibilidad. Nos aseguramos de que los datos se publicaran únicamente desde enero de 2025 hasta la fecha. El objetivo era recopilar datos que podrían no haberse utilizado para entrenar a los LLM en nuestros experimentos.

Autoridad Europea de Seguridad Alimentaria (AESA): Este sitio web ofrece una amplia gama de datos sobre consumo de alimentos y datos de control químico/biológico. Seleccionamos únicamente los temas que consideramos necesarios para nuestros objetivos, por lo que incluimos un total de 51. Procesamiento: dividimos manualmente los artículos con más de 1350 palabras y verificamos manualmente su corrección y alineación en todos los idiomas.

Portal Europeo de Información sobre Vacunación (EVIP): Ofrece información actualizada sobre vacunas y vacunación. Las fichas informativas están disponibles en todos los idiomas y constan de 20 textos cada una.

Inmunizar: Immunize.org (anteriormente conocida como la Coalición de Acción para la Inmunización) es una organización con sede en EE. UU. dedicada a proporcionar recursos integrales de inmunización a profesionales de la salud y al público en general. Las Hojas de Información sobre Vacunas (VIS) se han traducido a varios idiomas, pero no todas contienen todas las VIS. Se ofrecen en formato PDF: 25 están en español, francés e inglés, pero solo 21 en alemán. Solo se utilizaron PDF que coincidían en todos los idiomas.

Migración y Salud - Ministerio de Salud de Alemania (BFG): Este portal ofrece información sanitaria multilingüe adaptada a migrantes y refugiados. «Salud para todos» es un archivo PDF que ofrece una guía del sistema sanitario alemán, disponible en español, inglés y alemán. Procesamiento: Dos temas, de menos de 100 palabras, se fusionaron con el siguiente para garantizar la conservación del contexto.

Orphadata (INSERM): una base de conocimiento completa sobre enfermedades raras y medicamentos huérfanos, en formatos reutilizables y de alta calidad, disponible en 12 idiomas oficiales de la UE. Recopilamos definiciones, signos y síntomas, y fenotipos de 4389 enfermedades raras en inglés, alemán, español y francés. Procesamiento: Dado que cada definición tiene aproximadamente el mismo tamaño y formato, simplemente agrupamos 5 definiciones para ampliar el texto por tema.

PubMed (Biblioteca Nacional de Medicina): descargamos resúmenes disponibles en inglés, español, francés y alemán.

Wikipedia: un proyecto de enciclopedia multilingüe colaborativo, gratuito y basado en la web. Seleccionamos contenido (bio)médico disponible en inglés, alemán, español y francés. Para garantizar que los textos no se generaran automáticamente, solo utilizamos artículos anteriores al lanzamiento de ChatGPT, es decir, anteriores al 30 de noviembre de 2022. Procesamiento: fue necesaria una limpieza de datos; también eliminamos todos los temas con menos de 5 palabras o dividimos aquellos con más de 9 oraciones en partes de igual longitud. De estos archivos divididos, nos aseguramos de que contengan un mínimo de 100 palabras y solo utilizamos los contenidos o temas disponibles en los tres idiomas.

[Descripción de los métodos utilizados para la recopilación/generación de datos] Las estadísticas y los métodos del corpus se explican en el siguiente artículo: Patrick Styll, Leonardo Campillos-Llanos, Jorge Fernández-García, Isabel Segura-Bedmar (2025) «MedAID-ML: Un conjunto de datos multilingüe de textos biomédicos para la detección de contenido generado por IA». En revisión.

[Métodos de procesamiento de los datos] - Web-scraping de datos de contenido HTML y archivos PDF disponibles en los sitios web de contenidos de salud. - Postprocesamiento y limpieza de datos (por ejemplo, eliminación de espacios en blanco redundantes o saltos de línea) y homogeneización de la longitud del texto. - Generación de contenidos correspondientes mediante IA generativa utilizando tres grandes modelos de lenguaje: GPT-4o, Mistral-7B y Llama3-1. - Formateo de contenidos en formato JSON.

[Archivos] 1) Archivos JSON: Se dividen en TRAIN y TEST. Cada archivo contiene una lista de hashes para cada texto, y cada hash contiene los siguientes campos: • text: el contenido textual. • data_source: el repositorio fuente del texto. • filename: el nombre del archivo original del que se obtuvieron los datos. • source: etiqueta que indica si se trata de un texto escrito por humanos (HUMAN) o del LLM utilizado para generarlo ("gpt4o", "mistral" o "llama"). • "language": el código de idioma del texto: alemán ("de"), inglés ("en"), español ("es") o francés ("fr"). • "target": una etiqueta binaria para indicar si el texto fue escrito por humanos ("0") o por IA ("1"). • "ratio": la proporción del texto creado con IA: "0,5" para textos generados por IA y "null" para textos humanos.

El corpus consta de 13.292 textos comparables y paralelos en cuatro idiomas: alemán, inglés, español y francés. El total de tokens es de 3.795.449. Este recurso está destinado al entrenamiento y la evaluación de modelos para la detección de textos médicos creados mediante inteligencia artificial generativa.

Temáticas
  • Ciencia y tecnología
  • Salud
Etiquetas
Fecha de creación 2025-05-14T00:00:00
Fecha última actualización 2025-09-09T07:15:08
Frecuencia de actualización
Idiomas
  • Español
  • Inglés
  • Francés
Cobertura geográfica
    Cobertura geográfica. Internacional Europa
    Cobertura temporal
    • Desde 2025-03-15 hasta 2025-03-15
    Vigencia del recurso
    Recursos relacionados
    Normativa
      Instituto
      Publicador Publicador - Digital.CSIC
      Observaciones

      Cita recomendada: Styll, Patrick; Campillos-Llanos, Leonardo; 2025; Medical Artificial Intelligence text Detection in Multilingual settings (MedAID-ML) [Dataset]; DIGITAL.CSIC; https://doi.org/10.20350/digitalCSIC/17276