-
Corpus para la identificación de palabras complejas en textos médicos en espa...
[Descripción de los métodos utilizados para la recopilación/generación de datos] Las estadísticas y los métodos del corpus se explican en el siguiente artículo: Federico Ortega-Riba, Leonardo Campillos-Llanos, Doaa Samy (2025) «Lexical Simplification...
Instituto: Instituto de Lengua, Literatura y Antropología (ILLA), CSIC
-
SimpMedLexSp (Simple Medical Lexicon for Spanish)
A medical lexicon of 14013 pairs of technical word forms and the corresponding simplified synonym or definition. It is aimed at automatic text simplification in Spanish. A subset of the lexicon (4642 term entries) was also normalized to Unified Medical...
Instituto: Instituto de Lengua, Literatura y Antropología (ILLA), CSIC
-
CLARA-MeD corpus
A collection of 24.298 pairs of professional and simplified texts (>96 million tokens): 1) Drug leaflets and summaries of product characteristics (10 211 pairs of texts, >82M words); 2) Cancer-related information summaries (201 pairs of texts,...
Instituto: Instituto de Lengua, Literatura y Antropología (ILLA), CSIC
