Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp)

Datos y Recursos

Interoperabilidad

RDF/XML (DCAT-AP)application/rdf+xml

Descargar

Información Adicional

Campo	Valor
Identificador	http://hdl.handle.net/10261/373675
Autoría	Federico Ortega Riba Leonardo Campillos-Llanos
Proyecto	info:eu-repo/grantAgreement/AEI/Plan Es...
Nombre	Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp)
Descripción	[Descripción de los métodos utilizados para la recopilación/generación de datos] Las estadísticas y los métodos del corpus se explican en el siguiente artículo: Federico Ortega-Riba, Leonardo Campillos-Llanos, Doaa Samy (2025) «Lexical Simplification in Spanish Texts For Patients: The Complex Word Identification Task» (Simplificación léxica en textos en español para pacientes: la tarea de identificación de palabras complejas). (En proceso de revisión). [Métodos de procesamiento de los datos] Anotación manual de palabras complejas (CW) según los criterios definidos en la guía explicada en el artículo complementario. Agradecemos enormemente a los siguientes colegas que revisaron dos veces un subconjunto de textos con el fin de calcular la concordancia entre anotadores: Ana R. Terroba-Reinares (Fundación Rioja Salud) [ORCID: 0000-0003-1582-6481]; Ana Valverde-Mateos (Unidad de Terminología Médica, Real Academia Nacional de Medicina de España) [ORCID: 0000-0003-1610-0770]. El corpus está compuesto por 225 textos en español anotados con palabras complejas (CW). Contiene tres tipos de textos: formularios de consentimiento (75 textos), anuncios de ensayos clínicos (75 textos) y documentos de información para pacientes (75 textos). Este recurso está destinado a entrenar modelos, evaluar y realizar experimentos sobre la identificación de palabras complejas en textos médicos en español. El corpus contiene tres tipos de textos: 1. Formularios de consentimiento (75 textos), 2. Anuncios de ensayos clínicos (75 textos) y 3. Folletos informativos para pacientes (75 textos).
Temáticas	Ciencia y tecnología Salud
Etiquetas	Documentos de información a pacientes Corpus anotado Simplificación de textos médicos Procesamiento del Lenguaje Natural Biom... Formularios de consentimiento Ensayos clínicos
Fecha de creación	2024-12-04T00:00:00
Fecha última actualización	2025-11-05T12:45:28
Frecuencia de actualización
Idiomas	Inglés
Cobertura geográfica	España
Cobertura geográfica. Internacional
Cobertura temporal	Desde 2024-01-01 hasta 2024-07-31
Vigencia del recurso
Recursos relacionados	http://hdl.handle.net/10261/387368 https://brat.nlplab.org/
Normativa
Instituto	Instituto de Lengua, Literatura y Antropología (ILLA), CSIC
Publicador	Publicador - Digital.CSIC
Observaciones	Cita recomendada: Ortega Riba, Federico; Campillos-Llanos, Leonardo; 2024; Corpus for Complex Word Identification in Medical Spanish Texts (CWI-Med-Sp) [Dataset]; DIGITAL.CSIC; https://doi.org/10.20350/digitalCSIC/16706

Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp)

Datos y Recursos

Interoperabilidad

Categorías

Información Adicional