NeurIPS 2024

Poster

Thu 11:00

Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization
Xinyu Lyu · Beitao Chen · Lianli Gao · Hengtao Shen · Jingkuan Song

Workshop

Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference under Ambiguities
Zheyuan Zhang · Fengyuan Hu · Jayjun Lee · Freda Shi · Parisa Kordjamshidi · Joyce Chai · Ziqiao Ma

Poster

Fri 16:30

Revisiting Few-Shot Object Detection with Vision-Language Models
Anish Madan · Neehar Peri · Shu Kong · Deva Ramanan

Workshop

HuLE-Nav: Human-Like Exploration for Zero-Shot Object Navigation via Vision-Language Models
Peilong Han · Min Zhang · Jianye Hao · Hongyao Tang · YAN ZHENG

Poster

Fri 11:00

G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training
Che Liu · Cheng Ouyang · Sibo Cheng · Anand Shah · Wenjia Bai · Rossella Arcucci

Poster

Thu 11:00

Micro-Bench: A Microscopy Benchmark for Vision-Language Understanding
Alejandro Lozano · Jeffrey Nirschl · James Burgess · Sanket Rajan Gupte · Yuhui Zhang · Alyssa Unell · Serena Yeung

Poster

Fri 11:00

Image2Struct: Benchmarking Structure Extraction for Vision-Language Models
Josselin Roberts · Tony Lee · Chi Heem Wong · Michihiro Yasunaga · Yifan Mai · Percy Liang

Poster

Thu 16:30

Hidden in Plain Sight: Evaluating Abstract Shape Recognition in Vision-Language Models
Arshia Hemmat · Adam Davies · Tom Lamb · Jianhao Yuan · Philip Torr · Ashkan Khakzar · Francesco Pinto

Poster

Thu 11:00

MemVLT: Vision-Language Tracking with Adaptive Memory-based Prompts
Xiaokun Feng · Xuchen Li · Shiyu Hu · Dailing Zhang · wu meiqi · Jing Zhang · Xiaotang Chen · Kaiqi Huang

Workshop

Assisted Few-Shot Learning for Vision-Language Models in Agricultural Stress Phenotype Identification
Muhammad Arbab Arshad · Talukder "Zaki" Jubery · Asheesh Singh · ARTI SINGH · Chinmay Hegde · Baskar Ganapathysubramanian · Aditya Balu · Adarsh Krishnamurthy · Soumik Sarkar

Poster

Thu 11:00

Multilingual Diversity Improves Vision-Language Representations
Thao Nguyen · Matthew Wallingford · Sebastin Santy · Wei-Chiu Ma · Sewoong Oh · Ludwig Schmidt · Pang Wei Koh · Ranjay Krishna

Poster

UKnow: A Unified Knowledge Protocol with Multimodal Knowledge Graph Datasets for Reasoning and Vision-Language Pre-Training
Biao Gong · Shuai Tan · Yutong Feng · Xiaoying Xie · Yuyuan Li · Chaochao Chen · Kecheng Zheng · Yujun Shen · Deli Zhao

Main Navigation

198 Results