MedTitles - A multimodal dataset of Spanish medical videos and aligned transcripts

Datos y Recursos

Interoperabilidad


Categorías


Información Adicional

Campo Valor
Identificador http://hdl.handle.net/10261/398113
Autoría
Proyecto
Nombre MedTitles - A multimodal dataset of Spanish medical videos and aligned transcripts
Descripción

MedTitles es un conjunto de datos de 30 horas de vídeos y audios médicos en español, sincronizados con los subtítulos correspondientes. Los vídeos se obtuvieron de proveedores médicos autorizados en línea.

Contiene los siguientes datos:

Un estándar de referencia de 20 horas de 290 vídeos y audios, cada uno revisado por dos anotadores humanos. Un estándar de plata de 10 horas de 76 vídeos y audios, en los que solo se revisaron las transcripciones médicas. Un diccionario de pronunciación de palabras médicas en español, para usar con Montreal Forced Aligner. El conjunto de datos contiene grabaciones de un total de 402 hablantes diferentes (200 hombres y 202 mujeres).

Este repositorio contiene solo los audios y las transcripciones. Póngase en contacto con los autores para obtener los vídeos correspondientes.

Los archivos se harán públicos el 2 de Agosto de 2026.

Temáticas Ciencia y tecnología
Etiquetas
Fecha de creación 2025-08-25T00:00:00
Fecha última actualización 2025-08-26T07:15:07
Frecuencia de actualización
Idiomas Inglés
Cobertura geográfica
    Cobertura geográfica. Internacional
    Cobertura temporal
    Vigencia del recurso
    Recursos relacionados
    Normativa
      Instituto
      Publicador Publicador - Digital.CSIC
      Observaciones

      Cita recomendada: Campillos-Llanos, Leonardo; 2025; MedTitles - A multimodal dataset of Spanish medical videos and aligned transcripts [Dataset]; Zenodo; Version v1; https://doi.org/10.5281/zenodo.16729213