Paper-Conference | Ziyuan Huang

Towards Better Vision-Inspired Vision-Language Models

Multi-modal large language models with hierarchical visual features and deeper vision-language interactions.

Jun 1, 2024

Res-tuning: A flexible and efficient tuning paradigm via unbinding tuner from backbone

Memory and parameter efficient fine-tuning.

Feb 13, 2024

Towards Real-World Visual Tracking with Temporal Contexts

Temporal context aware object tracker.

Aug 22, 2023