【新智元导读】擅长「种草」的小红书正加大技术自研力度,两个月内接连开源三款模型!最新开源的首个多模态大模型dots.vlm1,基于自研视觉编码器构建,实测看穿色盲图,破解数独,解高考数学题,一句话写李白诗风,视觉理解和推理能力都逼近Gemini 2.5 Pro闭源模型。
最近的AI圈只能说是神仙打架,太卷了。
OpenAI终于发了开源模型,Claude从Opus 4升级到4.1,谷歌推出生成游戏世界的Genie 3引发社区热议。
国产模型这边,就在前几天,HuggingFace上排在最前面的10个开源模型还都来自国内。
国产模型前10霸榜和gpt-oss开源后直冲第一
但其实仔细观察这些排名靠前的开源模型,能发现一个「现象」:这些模型大部分都是文本模型,不具备多模态能力。
OpenAI首次开源的模型,也都是文本模型
如果说具备「多模态」能力,还要「好用」,并且是开源的模型,还真的数不出几个。
这边是一群文本模型神仙打架,那边小红书人文智能实验室(Humane Intelligence Lab,hi lab)在昨天低调开源了视觉语言模型dots.vlm1,给VLM带来了意想不到的惊喜。
为什么我们要关注一个不知名团队开源的视觉语言模型?
一个理由是,hi lab在上周开源的dots.ocr文档解析模型冲上了Huggingface的热榜第七,其基础模型是一个17亿参数的「小模型」,但依然实现了业界领先的SOTA性能,成功引起了我们的注意。
这个团队有在认真做事啊!
仔细看了看这个团队的架构和愿景,发现「hi lab」是由小红书内部大模型技术与应用产品团队合并升级而来,在关于hi lab的官方介绍中,特别强调了「将研发重点放在了多元智能形态上」。
他们希望通过融合人际智能、空间智能、音乐智能、人文关怀等各种智能形态,不断拓展人机交互的可能性。
对多模态的信仰和投入的决心可见一斑。
而dots.vlm1,正是小红书hi lab研发并开源的首个多模态大模型。
这个模型基于hi lab全自研的12亿参数NaViT视觉编码器和DeepSeek V3的大语言模型构建,在视觉的理解和推理任务上均有不俗的表现,接近了SOTA水平,并且在纯文本任务中仍保持竞争力。
在主要的视觉评测集上,比如MMMU/MathVision/OCR Reasoning,dots.vlm1的整体表现已接近当前领先模型Gemini 2.5 Pro与Seed-VL1.5 Thinking,显示出较强的图文理解与推理能力。
在典型的文本推理任务(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在GPQA等更多样的推理任务上仍存在差距。
总体来看,dots.vlm1在视觉多模态能力方面已接近SOTA水平。
Github Repo:
https://github.com/rednote-hilab/dots.vlm1
Huggingface Model:
https://huggingface.co/rednote-hilab/dots.vlm1.inst
Demo :
https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo
在实测中,我们发现,不论是空间关系理解、复杂图表推理、OCR识别、高考题评测、STEM难题、写诗等各个方面,dots.vlm1的表现都远超预期。
实测惊艳,很能打
首先是空间理解,比如这个包含常见物体空间关系图。
为了避免模型靠着语义来跳过真正的理解过程,随机给两个关系打上马赛克,然后让dots.vlm1来定义物体的空间关系。
最终模型成功识别,精准给出了「between」和「above」的关系。
面对复杂图表,dots.vlm1也具备强大的分析能力。
比如要求从下面图表提取分数为50-59分,并且模型名称中带有字母P的模型。
dots.vlm1在思考过程中即可同步多段逻辑判断,像这种多链条复杂推理体现了dots.vlm1不仅能「看」,还能「思考」。
同样地,即使是数独问题,dots.vlm1也能完美地完成解题。
模型第一步会将问题格式化,方便后续计算。
然后开始逐步试算和检查,可以看到dots.vlm1将图片中的数独问题转化为了向量描述,确实是一种聪明的做法。
在长时间的思考过程中,我们还发现了类似DeepSeek「啊哈时刻」,dots.vlm1在某个阶段还喊出拟人化的「Yes!」。
不过仔细看了思考过程后,发现第一步向量化转化时,(3,8)位置的6被识别到(3,9)位置上,但是模型依然「严格按照数独规范」,最后强行将(6,9)位置的6变成8。
这个推理过程有点太强了!这意味着模型是真正的在思考和推理。
解决这个数独问题的思考时间非常长,关键是如此长时间思考,模型并没有中断。
dotas.vlm1的图像识别能力也非常强,不论是常见还是冷门的,还是人类都很难识别的图片。
比如经典的红绿色盲数字问题。
dots.vlm1一次性全部答对,不论是颜色和形状识别都很准。
另外是一个VLM经常遇到的「数数」问题,模型需要识别图片中的物体种类和数量。
这些问题对于人类来说很简单,但是对于VLM就没那么容易了。
在这种「目标搜索」任务中VLM的表现,会随着场景里目标数量的增多而迅速下降。
可以看到当物体数量超过6个时,VLM的准确率急剧下降。
dots.vlm1很好的完成了左上、左下和右上的数量识别;右下人类也很难数得清,但dots.vlm1依然在思考过程中努力数了个大概。
再接着看看推理能力。
比如你正在组团前往故宫博物院,你们一行一共8人(7名成人和一名12岁的儿童),你们打算参观中轴线、三大殿和珍宝馆,应该购买哪个服务最省钱?
dots.vlm1很快就整合信息所有信息计算出了最佳方案,非常细节,模型发现了中轴线其实已经包含了三大殿,选择了中轴线+珍宝馆的方案。
这个「数学计算」似乎有点简单,那就来个复杂的,第一时间就想到今年的高考数学题。
