替你试过了,消费级显卡可以跑的开源文生图SOTA模型,顶级渲染、高密度文本绘图
4月15日百度开源文生图模型ERNIE-Image模型参数量仅8B24GB显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。它基于单流 Diffusion TransformerDiT架构并配有一个轻量级 Prompt Enhancer用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下达到了开源文生图模型中的领先水平。同时开源的还有蒸馏版本ERNIE-Image Turbo仅需 8 步推理即可生成高保真图像在保持图像质量的同时大幅提升生成速度。ERNIE-Image的模型权重、推理代码已在魔乐社区同步开源遵循Apache2.0协议欢迎开发者下载体验。 模型链接https://modelers.cn/models/PaddlePaddle/ERNIE-Imagehttps://modelers.cn/models/PaddlePaddle/ERNIE-Image-Turbo 体验空间https://modelers.cn/spaces/chicheng/ERNIE-Image-Turbo01 模型亮点小模型强性能以8B 参数实现“以小搏大”在多项 benchmark 上全面超越其他开源模型与 Seedream 持平媲美 NanoBanana 系列。精准的语义遵循从容驾驭复杂细节约束、多主体关系和知识密集型描述的prompt模型能够保持较强的理解与执行能力生成结果高度贴合用户意图。卓越的文字渲染中、英、日、韩复杂示意图、学术图表、商业海报等场景字形清晰、笔画准确、支持密集文字渲染。清晰的结构化生成在海报、漫画、分镜、故事板和多面板图像等结构化视觉任务中ERNIE-Image 能更好地保持布局逻辑和画面组织。广泛的风格覆盖模型支持写实摄影和辨识度较强的风格化视觉表达包括更柔和、更具电影感的画面风格在动漫、分镜图截图、二次元、剪影、老照片等多元风格中均表现突出创意边界更广。友好的部署体验得益于较紧凑的模型规模ERNIE-Image 可以运行在 24G VRAM 的消费级 GPU 上降低了研究、下游使用和模型适配的门槛。02 国际基准通杀开源全面SOTA在多个公开的国际基准上对 ERNIE-Image 进行评估结果表明在所有开源模型中ERNIE-Image 的综合表现处于领先位置展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是在文字渲染能力上ERNIE-Image 取得了开源模型的 SOTA 效果与NanoBanana等商业闭源模型同处第一梯队。03 生图效果ERNIE-Image在复杂指令跟随、文字渲染和结构化图像生成方面表现突出适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。同时模型也覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格。接下来让我们一起感受一下ERNIE-Image强大的生图效果。欢迎体验欢迎开发者在魔乐社区下载体验ERNIE-Image模型并在模型评论区留言交流https://modelers.cn/models/PaddlePaddle/ERNIE-Imagehttps://modelers.cn/models/PaddlePaddle/ERNIE-Image-Turbo