Conjunto de

Corpus para la identificación de palabras complejas en textos médicos en espa...

[Descripción de los métodos utilizados para la recopilación/generación de datos] Las estadísticas y los métodos del corpus se explican en el siguiente artículo: Federico Ortega-Riba, Leonardo Campillos-Llanos, Doaa Samy (2025) «Lexical Simplification...

Instituto: Instituto de Lengua, Literatura y Antropología (ILLA), CSIC
- zip
- txt
Documentos de información a pacientes Corpus anotado Simplificación de textos médicos Procesamiento del Lenguaje Natural Biom... Formularios de consentimiento Ensayos clínicos
CLARA-MeD simplified sentences

This dataset contains 1200 manually simplified sentences (144 019 tokens) from clinical trials in Spanish. A total of 1040 announcements from the European Clinical Trials Register (EudraCT) were analyzed to select sentences with ambiguities or...

Instituto: Instituto de Lengua, Literatura y Antropología (ILLA), CSIC
- txt
- tsv
- pdf
Prcesamiento del Lenguaje Natural en Bi... Frases paralelas Simplificación textual en medicina
CLARA-MeD corpus

A collection of 24.298 pairs of professional and simplified texts (>96 million tokens): 1) Drug leaflets and summaries of product characteristics (10 211 pairs of texts, >82M words); 2) Cancer-related information summaries (201 pairs of texts,...

Instituto: Instituto de Lengua, Literatura y Antropología (ILLA), CSIC
- txt
- zip
Comparación de corpus Frases paralelas Simplificación de textos médicos Procesamiento del Lenguaje Natural en b...

Usted también puede acceder a este registro utilizando los API (ver API Docs).

3 conjuntos de datos encontrados

Corpus para la identificación de palabras complejas en textos médicos en espa...

CLARA-MeD simplified sentences

CLARA-MeD corpus