Estás viendo una versión antigua de este conjunto de datos. Para ver la versión actual, click aquí.

Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp)

Datos y Recursos

Interoperabilidad


Información Adicional

Campo Valor
Identificador https://hdl.handle.net/10261/373675
Autoría
Proyecto
Nombre Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp)
Descripción

[Descripción de los métodos utilizados para la recopilación/generación de datos] Las estadísticas y los métodos del corpus se explican en el siguiente artículo: Federico Ortega-Riba, Leonardo Campillos-Llanos, Doaa Samy (2025) «Lexical Simplification in Spanish Texts For Patients: The Complex Word Identification Task» (Simplificación léxica en textos en español para pacientes: la tarea de identificación de palabras complejas). (En proceso de revisión). [Métodos de procesamiento de los datos] Anotación manual de palabras complejas (CW) según los criterios definidos en la guía explicada en el artículo complementario.

Agradecemos enormemente a los siguientes colegas que revisaron dos veces un subconjunto de textos con el fin de calcular la concordancia entre anotadores: Ana R. Terroba-Reinares (Fundación Rioja Salud) [ORCID: 0000-0003-1582-6481]; Ana Valverde-Mateos (Unidad de Terminología Médica, Real Academia Nacional de Medicina de España) [ORCID: 0000-0003-1610-0770].

El corpus está compuesto por 225 textos en español anotados con palabras complejas (CW). Contiene tres tipos de textos: formularios de consentimiento (75 textos), anuncios de ensayos clínicos (75 textos) y documentos de información para pacientes (75 textos). Este recurso está destinado a entrenar modelos, evaluar y realizar experimentos sobre la identificación de palabras complejas en textos médicos en español.

El corpus contiene tres tipos de textos: 1. Formularios de consentimiento (75 textos), 2. Anuncios de ensayos clínicos (75 textos) y 3. Folletos informativos para pacientes (75 textos).

Temáticas
  • Ciencia y tecnología
  • Salud
Etiquetas
Fecha de creación 2024-12-04T00:00:00
Fecha última actualización 2025-11-05T12:45:28
Frecuencia de actualización
Idiomas Inglés
Cobertura geográfica España
Cobertura geográfica. Internacional
Cobertura temporal
  • Desde 2024-01-01 hasta 2024-07-31
Vigencia del recurso
Recursos relacionados
Normativa
    Instituto
    Publicador Publicador - Digital.CSIC
    Observaciones

    Cita recomendada: Ortega Riba, Federico; Campillos-Llanos, Leonardo; 2024; Corpus for Complex Word Identification in Medical Spanish Texts (CWI-Med-Sp) [Dataset]; DIGITAL.CSIC; https://doi.org/10.20350/digitalCSIC/16706