【新智元导读】贾佳亚团队提出VLM模型Mini-Gemini，堪比GPT-4+DALL-E 3王炸组合，一上线就刷爆了多模态任务榜单！读得懂梗图，做得了学术，用代码就能复现数学函数图。

刷爆多模态任务榜单，超强视觉语言模型Mini-Gemini来了！

效果堪称是开源社区版的GPT-4+DALL-E 3王炸组合。

不仅如此，这款由港中文终身教授贾佳亚团队提出的多模态模型，一经发布便登上了PaperWithCode热榜。

Demo地址: http://103.170.5.190:7860/

论文地址：https://arxiv.org/pdf/2403.18814.pdf

具体来说，Mini-Gemini提供了2B小杯到34B的超大杯的不同选择。

凭借超强的图文理解力，Mini-Gemini在多个指标上，直接媲美Gemini Pro，GPT-4V。

目前，研究团队将Mini-Gemini的代码、模型、数据全部开源。

更有意思的是，超会玩梗的Mini-Gemini线上Demo已经发布，人人皆可上手试玩。

Mini-Gemini Demo放出后受到广大网友关注，一番「尝鲜」后，有人认为：Mini-Gemini跟商业模型差不了多少！

为何这么说？

图片理解天花板

当前，绝大多数多模态模型仅支持低分辨率图像输入和文字输出。

而在实际场景中，许多任务都需要对高清图像进行解析，并用图像的形式进行展现。

举个例子，Mini-Gemini能够看懂面包九宫格图片教程，并进行手把手教学。

拍一张苹果店Mac电脑信息图，Mini-Gemini能够将两种尺寸的Mac不同参数进行对比。

有网友看过后表示，「妈妈再也不用担心我的生活了」。

更重要的是，Mini-Gemini在保留超强的图像理解和推理能力的同时，还解锁了图像的生成能力，就如同ChatGPT和生成模型的结合。

下面，让我们通过几个例子来更直观地感受这种能力：

推理再生成，更精准了

还记得谷歌Gemini的官方演示视频么？

当用户给出两个毛线团并问出能用它们做什么时，Gemini可以识别出图片内容并给出相应的建议。

当我们把相似的输入给到Mini-Gemini，它会怎么回答呢？

可以发现，Mini-Gemini也可以识别出图片中的元素，并且合理地建议，同时生成了一只对应的毛线小熊。

通过一些抽象的多模态指令来让模型给出推理，并生成合适的图片，这个操作就很像是ChatGPT和DALLE3的联动了！

接下来让Mini-Gemini做自己最擅长的推理和图片理解，看看它表现。

比如，理解图片中的矛盾点并举一反三。

输入冰川中的仙人掌，它会解释其中的矛盾并生成一张热带雨林中北极熊的图片：

图片呈现了仙人掌的典型栖息地与冰的存在之间的视觉矛盾，因为在沙漠环境中自然不会出现冰。

Mini-Gemini正是理解了这种矛盾点，才生成了一张北极熊出现在热带雨林的图片。