У нас вы можете посмотреть бесплатно Defensa de Tesis – Clara Villalba – 08/10/2025 – 13 hs. или скачать в максимальном доступном качестве, видео которое было загружено на ютуб. Для загрузки выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием видео, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса ClipSaver.ru
Defensa de Tesis de Maestría Título: “Respuesta a Preguntas Visuales en Español: Un Enfoque para la Asistencia a Personas con Discapacidad Visual” Tesista: Clara Villalba Director: Dr. Juan Manuel Pérez Co-directora: Dra. María Elena Buemi Jurados: Dr. Marcos Gómez Dra. Lucía Pedraza Dra. Manuela Cerdeiro Resumen: La Respuesta a Preguntas Visuales (en inglés Visual Question Answering VQA) es un problema reciente que une los campos de la visión por computadora y el procesamiento del lenguaje natural, generando un gran interés en las comunidades de aprendizaje profundo. En este tipo de problemas, una máquina debe responder una pregunta dada una imagen asociada, es decir, dada una imagen y una pregunta en lenguaje natural sobre dicha imagen, la tarea consiste en proporcionar una respuesta precisa en lenguaje natural. La idea de responder preguntas visuales (VQA) se remonta a los años 60 y 70, con los primeros intentos de vincular la visión por computadora con el procesamiento del lenguaje natural. Un ejemplo temprano es el trabajo de Winograd (1972) con el sistema SHRDLU, que permitía a los usuarios interactuar con un entorno de bloques a través de preguntas y comandos en lenguaje natural. Otro trabajo relevante es el de Marr (1982), que, aunque centrado en la teoría de la visión, tocó aspectos de cómo una máquina podría interpretar y responder a preguntas basadas en escenas visuales. Estos primeros trabajos sentaron las bases para la investigación, aunque el término y el campo específico de VQA como lo conocemos hoy no se desarrollaron hasta décadas después. Desde entonces, el área ha sido ampliamente investigada. Sin embargo, adaptar estos sistemas a situaciones y usuarios reales es complicado, ya que pueden diferir significativamente de los ejemplos sintéticos y generados artificialmente. En este trabajo, aplicaremos la tarea de respuesta a preguntas visuales (VQA) para desarrollar aplicaciones que ayuden a personas con discapacidad visual a responder en tiempo real preguntas sobre imágenes del mundo real. Utilizaremos la base de datos VizWiz, presentada en el paper VizWiz Grand Challenge: Answering Visual Questions from Blind People, la cual está compuesta por imágenes y preguntas generadas por personas con discapacidad visual, lo que lo diferencia de otros datasets de VQA que suelen ser creados por personas sin esta discapacidad. Este dataset se ha diseñado específicamente para abordar problemas de accesibilidad, con el objetivo de desarrollar tecnologías que asistan a personas con discapacidad visual en su vida diaria. Además, enfrentaremos el desafío adicional de trabajar en español, ya que actualmente no existe un dataset en este idioma para esta tarea. Para superar esta limitación, nos dedicaremos a traducir al español el conjunto de datos VizWiz, permitiendo así la adaptación y desarrollo de soluciones accesibles para la comunidad hispanohablante.