Projects

Updated 11 months ago

maestro • Rank 10.5 • Science 54%

streamline the fine-tuning process for multimodal models: PaliGemma 2, Florence-2, and Qwen2.5-VL

captioning fine-tuning florence-2 multimodal objectdetection paligemma phi-3-vision qwen2-vl transformers vision-and-language vqa

Mathematics (40%)

Updated 11 months ago

lrv-instruction • Rank 5.7 • Science 41%

[ICLR'24] Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

chatgpt evaluation evaluation-metrics foundation-models gpt gpt-4 hallucination iclr iclr2024 llama llava multimodal object-detection prompt-engineering vicuna vision vision-and-language vqa

Updated 11 months ago

sutd-trafficqa • Science 41%

[CVPR2021] SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events

annotations cvpr cvpr2021 dataset multimodal multimodal-deep-learning paper traffic-events video-qa video-reasoning vqa vqa-dataset

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Open Source Science

maestro • Rank 10.5 • Science 54%

lrv-instruction • Rank 5.7 • Science 41%

sutd-trafficqa • Science 41%