Meta发布类GPT-4o多模态模型Chameleon

原标题：Meta发布类GPT-4o多模态模型Chameleon

导读：

之家月日消息距离谷歌一年一度的开发者大会仅剩不到一个月的时间预计谷歌将在大会上发布手机但也有可能会有其它硬件新品亮相近日一款神秘的谷歌设备通过了美国联邦通信委员会的认证该设备型...

IT之家 4 月 23 日消息，距离谷歌一年一度的 I / O 开发者大会仅剩不到一个月的时间。预计谷歌将在大会上发布 Pixel 8a 手机，但也有可能会有其它硬件新品亮相。近日，一款神秘的谷歌设备通过了美国联邦通信委员会 (FCC) 的认证。该设备型号为 G4SKY，具体功能尚不清楚，但从...

5月21日消息:最近发布了一个名为的多模态模型，它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族，能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构，使用文本、图像和代码混合模态完成训练，并且对图像进行分词化，生成交错的文本和图像序列。

Chameleon模型的创新之处在于其早期融合方法，所有处理流程从一开始就映射到一个共同的表示空间，让模型能够无缝处理文本和图像。它在各种任务上展示了广泛的能力，包括视觉问答、图像标注、文本生成、图像生成和长形式混合模态生成。在图像标注任务上，Chameleon达到了最先进的性能，并且在文本任务上超越了Llama-2，与Mixtral8x7B和Gemini-Pro等模型竞争。

论文地址:https://arxiv.org/pdf/2405.09818

Chameleon模型在技术上面临了重大挑战，Meta的研究团队引入了一系列架构创新和训练技术。例如，他们开发了新的图像分词器，基于8192大小的codebook，将512×512的图像编码为1024个离散的token。此外，Chameleon使用了sentencepiece开源库训练的BPE分词器。

在预训练阶段，Chameleon使用了混合模态数据，包括纯文本、文本-图像对以及文本和图像交错的多模态文档。预训练分为两个阶段，第一阶段无监督学习，第二阶段混合更高质量的数据。

Chameleon模型在基准评估中全面超越了Llama2，在常识推理、阅读理解、数学问题和世界知识领域都取得了显著的效果。在人工评估和安全测试中，Chameleon-34B的表现也远远超过了Gemini Pro和GPT-4V。

尽管Chameleon缺少GPT-4o中的语音能力，但Meta的产品管理总监表示，他们非常自豪能够支持这个团队，并希望让GPT-4o更接近开源社区。这可能意味着不久的将来，我们可能会得到一个开源版的GPT-4o。

Chameleon模型的发布，展示了Meta在多模态模型领域的重大进展，它不仅推动了多模态模型的发展，也为未来的研究和应用提供了新的可能性。