StarVector – 开源多模态视觉语言模型,图像秒变矢量代码,支持图像和文本到 SVG 生成

资讯2天前发布 up博主
13 0

StarVector 由 ServiceNow Research、Mila - Quebec AI Institute 和 ETS Montreal 联合开发的全新开源多模态视觉-语言模型。它将传统的图像矢量化过程巧妙地转化为一个代码生成任务 ,这种基于视觉-语言模型架构的方法,使得 StarVector 能够真正理解图像的视觉内容,直接在 SVG 代码空间中进行操作,生成描述这些视觉元素的 SVG 代码。充分利用了 SVG 语言的丰富特性和灵活性 。

 

StarVector – 开源多模态视觉语言模型,图像秒变矢量代码,支持图像和文本到 SVG 生成StarVector是什么

StarVector 是开源的多模态视觉语言模型,ServiceNow Research、Mila – Quebec AI Institute 和 ETS Montreal 联合开发,专注于将图像和文本转换为可缩放矢量图形(SVG)代码。 模型采用多模态架构,能同时处理图像和文本信息,直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 文件。StarVector 在包含超过 200 万个 SVG 样本的 SVG-Stack 数据集上训练,提供 StarVector-1B 和 StarVector-8B 两种规模,满足不同需求。

StarVector – 开源多模态视觉语言模型,图像秒变矢量代码,支持图像和文本到 SVG 生成

StarVector的主要功能

  • 图像到 SVG 的转换(Image-to-SVG):能将图像直接转换为 SVG 代码,实现图像的矢量化。
  • 文本到 SVG 的生成(Text-to-SVG):可以根据文本指令生成相应的 SVG 图形。

StarVector的技术原理

  • 多模态架构:StarVector 采用多模态架构,将视觉和语言模型无缝集成。通过视觉编码器(如 Vision Transformer 或 CLIP 图像编码器)提取图像的视觉特征,然后通过适配器(Adapter)将这些特征映射到语言模型的嵌入空间,生成视觉标记。这些视觉标记与文本嵌入一起输入到语言模型中,实现对图像和文本的统一处理。
  • 图像编码与视觉标记生成:图像编码器(如 Vision Transformer)将输入图像分割成小块并转换为隐藏特征。通过非线性适配器投影到语言模型的嵌入空间,形成视觉标记。能捕捉图像的关键视觉特征,如形状、颜色分布和结构布局。
  • 语言模型与 SVG 代码生成:StarVector 使用基于 StarCoder 的语言模型,在训练期间,模型通过 SVG 代码的下一个标记预测任务进行监督学习。在推理阶段,模型基于输入图像的视觉标记来自回归地预测 SVG 代码。
  • 大规模数据集训练:StarVector 在包含超过 200 万个 SVG 样本的 SVG-Stack 数据集上进行训练。数据集涵盖了多样化的 SVG 样本,支持图像到 SVG 和文本到 SVG 的多样化任务。StarVector 引入了 SVG-Bench 评估基准,用于全面评估模型性能。
  • 性能优势:StarVector 在图像到 SVG 和文本到 SVG 的任务中表现出色。生成的 SVG 文件更紧凑、语义更丰富,有效利用了 SVG 原语。在 SVG-Bench 基准测试中,StarVector 在多个指标上优于传统方法和深度学习基线模型。

StarVector的项目地址

  • 项目官网:https://starvector.github.io/
  • Github仓库:https://github.com/joanrod/star-vector
  • arXiv技术论文:https://arxiv.org/pdf/2312.11556

StarVector的应用场景

  • 图标生成:根据文本描述或图像输入快速生成 SVG 图标,用于网页导航栏、按钮等。
  • 艺术创作:艺术家可以用 StarVector 将创意草图或文字描述转化为矢量艺术作品,方便后续编辑和修改。
  • 动画制作:生成的 SVG 图形可以作为动画制作的基础元素,进一步开发成动态效果。
  • 编程教育:学生可以通过 StarVector 学习 SVG 代码的生成和编辑,提高编程和图形设计能力。
  • 技术图表生成:根据文本描述生成技术图表,如流程图、结构图等,用于工程文档和技术说明。
  • 数据可视化:将数据可视化为 SVG 图形,方便在网页或报告中展示,同时保持图形的可编辑性和可扩展性。
© 版权声明

相关文章

暂无评论

none
暂无评论...