Benchmark para Modelos Multimodales (MLLMs)

Sube una imagen, selecciona un modelo y una tarea, y obtén resultados de captioning o VQA.

Subir Imagen

Seleccionar Modelo

Seleccionar Tarea

Pregunta VQA (opcional, solo para VQA)

Subtítulo Generado

Respuesta VQA

Métricas (Tiempo, VRAM, BLEU)

Tiempo Captioning (s)

Tiempo VQA (s)

VRAM (GB)

BLEU Score

para mejroar la velocidad de inferencia, descarga en local y usar GPU avanzada.
La métrica BLEU usa una referencia genérica y puede no reflejar la calidad real.
Para más detalles, consulta el repositorio del paper.