Articles
로딩 중…
在跨模态表征学习中,将不同模态的信号映射至统一的共享表示空间,进而驱动检索、理解与生成等一系列下游任务,是其核心目标。 而文本在所有模态中具有天然的独特性。它不仅是一种输入信号,更是人类对世界进行结构化认知、梳理概念体系以及开放世界知识的载体。正因为此,文本监督的质量,往往决定了跨模态表征空间的上限。更强大的文本监督信号能够引导模型在对齐过程中,学习到更复杂、更细粒度,也更具语义结构的表征空间。…