Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp)
Datos y Recursos
Interoperabilidad
Categorías
Información Adicional
| Campo | Valor |
| Identificador | http://hdl.handle.net/10261/373675 |
|---|---|
| Autoría | |
| Proyecto | |
| Nombre | Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp) |
| Descripción |
[Descripción de los métodos utilizados para la recopilación/generación de datos] Las estadísticas y los métodos del corpus se explican en el siguiente artículo: Federico Ortega-Riba, Leonardo Campillos-Llanos, Doaa Samy (2025) «Lexical Simplification in Spanish Texts For Patients: The Complex Word Identification Task» (Simplificación léxica en textos en español para pacientes: la tarea de identificación de palabras complejas). (En proceso de revisión). [Métodos de procesamiento de los datos] Anotación manual de palabras complejas (CW) según los criterios definidos en la guía explicada en el artículo complementario. Agradecemos enormemente a los siguientes colegas que revisaron dos veces un subconjunto de textos con el fin de calcular la concordancia entre anotadores: Ana R. Terroba-Reinares (Fundación Rioja Salud) [ORCID: 0000-0003-1582-6481]; Ana Valverde-Mateos (Unidad de Terminología Médica, Real Academia Nacional de Medicina de España) [ORCID: 0000-0003-1610-0770]. El corpus está compuesto por 225 textos en español anotados con palabras complejas (CW). Contiene tres tipos de textos: formularios de consentimiento (75 textos), anuncios de ensayos clínicos (75 textos) y documentos de información para pacientes (75 textos). Este recurso está destinado a entrenar modelos, evaluar y realizar experimentos sobre la identificación de palabras complejas en textos médicos en español. El corpus contiene tres tipos de textos: 1. Formularios de consentimiento (75 textos), 2. Anuncios de ensayos clínicos (75 textos) y 3. Folletos informativos para pacientes (75 textos). |
| Temáticas |
|
| Etiquetas | |
| Fecha de creación | 2024-12-04T00:00:00 |
| Fecha última actualización | 2025-11-05T12:45:28 |
| Frecuencia de actualización | |
| Idiomas | Inglés |
| Cobertura geográfica | España |
| Cobertura geográfica. Internacional | |
| Cobertura temporal |
|
| Vigencia del recurso | |
| Recursos relacionados | |
| Normativa |
|
| Instituto | |
| Publicador | Publicador - Digital.CSIC |
| Observaciones |
Cita recomendada: Ortega Riba, Federico; Campillos-Llanos, Leonardo; 2024; Corpus for Complex Word Identification in Medical Spanish Texts (CWI-Med-Sp) [Dataset]; DIGITAL.CSIC; https://doi.org/10.20350/digitalCSIC/16706 |
