腾讯混元DiT推出6G小显存版本混元Captioner正式对外开源

作者：小编更新时间2024-07-05 08:56:18 点击数：

腾讯的混元文生图大模型（混元DiT）最近进行了升级，发布了6G显存版本的模型，使得个人电脑用户也能轻松运行。这个版本与LoRA、ControlNet等插件已经适配至Diffusers库，并且新增了对Kohya图形化界面的支持，降低了开发者训练个性化LoRA模型的门槛。混元DiT模型升级至1.2版本，图片质感和构图都有所提高。

同时，腾讯还开源了混元文生图打标模型“混元Captioner”，这个模型支持中英文双语，并且针对文生图场景进行了优化，能更准确地理解中文语义，输出结构化、完整和准确的图片描述。它还能识别知名人物和地标，并允许开发者补充个性化背景知识。

此外，混元Captioner模型的开源，使得全球的文生图研究者和数据标注人员能够提升图像描述质量，生成更全面、准确的图片描述，提升模型效果。生成的数据集不仅可以用于训练基于混元DiT的模型，也适用于其他视觉模型的训练。

混元DiT模型的三大更新包括小显存版本的推出、Kohya训练界面的接入以及模型升级至1.2版本，这些都进一步降低了使用门槛并提升了图片质量。混元DiT模型的生成图片质感更佳，但之前对显存的高要求让许多开发者望而却步。现在，混元DiT推出了小显存版本，最低仅需6G显存即可运行，且经过与Hugging Face的合作，小显存版本和相关插件已经适配到Diffusers库中，简化了使用成本。

Kohya是一个开源的轻量化模型微调训练服务，提供了图形化界面，广泛用于扩散模型类文生图模型的训练。用户可以通过Kohya完成模型的全参精调和LoRA训练，无需编写代码。

混元Captioner模型通过构建结构化的图片描述体系，并通过多种来源提升描述的完整性，注入了大量背景知识，使得输出的描述更准确、完整。这些优化使得混元DiT成为最受欢迎的国产DiT开源模型之一，其Github Star数已经超过2.6k。

Chat gpt人工智能机器人在线使用

一键快速搭建属于自己AI机器人