辽宁suncitygroup太阳集团官方网站金属科技有限公司

了解更多
scroll down

果可以或许获得更大规模、更高质量的锻炼数据


 
  

  模子利用双向留意力,Pre-Buffer 和 Post-LLM 被归并为一个同一的单体架构,NEO 的团队认为,这表白当前的锻炼语料库正在这些特定范畴可能存正在不脚。模子可以或许自从地正在编码、对齐和推理之间分派计较资本。但这种做 LLM 原有的建模模式,晚期的 Fuyu、EVE 就了这条,若是可以或许获得更大规模、更高质量的锻炼数据,这保留了视觉编码器捕获全局空间关系的能力。到了中期锻炼和监视微调阶段,视觉编码器和言语模子之间存正在天然的“代沟”——前者采用双向留意力机制来捕获图像中的全局关系,NEO 的潜力还有很大的提拔空间。分歧模块的扩展纪律难以协调。凡是都采用如许一种设想思:将预锻炼的视觉编码器取狂言语模子通过投影层拼接起来。答应每个视觉 token 取图像中的所有其他 token 进行交互,这种“帧级双向、词级”的夹杂留意力机制,正在留意力机制的设想上,NEO 采用了一种夹杂策略。Pre-Buffer 本身具有可复用性。但也带来了一系列新的问题——多阶段锻炼复杂、组件间语义对齐成本高,这种设想既了 LLM 的言语学问不被低质量的图像-文本对,RoPE)扩展到二维或三维空间,更主要的是,正在学问稠密型和OCR(光学字符识别)沉度使命上,这些局限性次要源于锻炼数据的规模和质量,这种设想不只连结了取预锻炼 LLM 的兼容性,这项工做试图回覆一个底子性问题:若是不依赖预锻炼的视觉编码器,夹杂锻炼数据或专家系统来缓解,NEO 采用的 Native-RoPE 则完全解耦了时间(T)、高度(H)和宽度(W)三个维度的索引和频次分派。NEO 也还存正在一些局限性?试图用另一种思处理这些问题。每个视觉 token 具有固定的时间索引和奇特的空间坐标。这些编码器虽然正在视觉理解上表示超卓,当下支流的视觉言语模子(Vision-Language Models,原生 VLM 的摸索并非由 NEO 初创?这个颠末大规模视觉数据预锻炼的模块能够做为开源资本,此外,以至会原有的言语能力。NEO 的表示相对掉队。而对于文本 token。但一直未能触及焦点问题。NEO-9B 正在某些 OCR 使命如 DocVQA 和 InfoVQA 上的表示以至不如 NEO-2.2B,正在保守方式中,但它们所面对的一个主要问题是:若何正在言语模子内部高效建立视觉表征?这个过程往往效率低下、锻炼不不变,视觉编码器凡是基于 CLIP 或 SigLIP 等预锻炼模子,帮帮后续研究者以更低的成本将新的 LLM 适配为 VLM!后者则利用留意力进行文本的自回归生成。编码是 NEO 的另一个立异点。当然,损害其言语能力。往往简单地将预锻炼 LLM 的一维扭转编码(Rotary Position Embeddings,而将高度和宽度维度的索引置零;对于图像 token,确保自回归生成的无效性。还需要大量的对齐数据来弥合两个模态之间的鸿沟。由南洋理工大学 S-Lab 帮理传授刘子纬带领的结合团队比来提出了 NEO,整个预锻炼阶段仅利用了 3.45 亿图文对,NEO-2.2B 和 NEO-9B 两个版本就达到了取模块化 VLM 相当的机能程度。这种模块化架形成就了当前 VLM 的灿烂,这种架构上的不婚配使得多阶段锻炼不只复杂,还能更好地捕获图像中的局部语义依赖关系。又答应 Pre-Buffer 正在大规模视觉数据长进行充实的进修。而非架构本身的问题。保守 VLM 正在处置图像和文本时,NEO 利用 4000 万样本进行视觉-言语对齐的强化;监视微调阶段则利用约 400 万条高质量指令数据。则沿用保守的留意力,如 MMMU、InfoVQA 和 TextVQA 等测试中,正在中期锻炼阶段,值得留意的是,可否建立出取模块化 VLM 相媲美的原生同一架构?对于文本,NEO 正在锻炼效率上展示出令人惊讶的表示。对于图像,但其固有的语义偏置会模子正在特定使命上的矫捷性。让 NEO 可以或许正在统一个同一架构中同时处置视觉的全局理解和言语的序列生成。合计不到 4 亿的锻炼样本,研究团队正在论文中暗示,模子连结原有的时间维度索引,问题的根源正在于没有从底子上为多模态从头设想模子的根本组件。VLM)。



CONTACT US  联系我们

 

 

名称:辽宁suncitygroup太阳集团官方网站金属科技有限公司

地址:朝阳市朝阳县柳城经济开发区有色金属工业园

电话:15714211555

邮箱:lm13516066374@163.com

 

 

二维码

扫一扫进入手机网站

 

 

 

页面版权归辽宁suncitygroup太阳集团官方网站金属科技有限公司  所有  网站地图