5月14日,腾讯宣告其旗下混元文生图大模型全面晋级,并对外开源。这也是首个中文原生的类 Sora 架构开源模型,填补了国产大模型在文生图先进架构上的空白。
人工智能是开展新质生产力的重要引擎,而大模型又是人工智能技能的重要开展趋势。其间,文生图是大模型使用的要点范畴,存在广泛的使用远景。
现在,干流的文生图开源生态根本环绕英文建造,像 Stable Diffusion 等干流开源模型,尽管某些特定的程度支撑中文输入,但其中心数据集仍以英文为主,对我国的言语、美食、文明、风俗都了解不行,更简单因翻译而发生语义不合甚至生成过错。建造自主可控且中文原生的大模型及相应的开源生态火烧眉毛。
腾讯混元文生图大模型,便是腾讯从零开始练习,从模型算法、机器学习框架到人工智能根底设施全链路自研的有用级大模型。
混元文生图以中文原生为根底,支撑中英文双语输入及了解,更了解中文语境,对我国的古诗词、俚语、美食、文明、风俗等都有更好的生成作用。
此外,晋级后的混元文生图模型采用了根据Transformer的分散模型架构(简称DiT),具有更强的可扩展性,在参数量越多的情况下,功能越强,有利于提高视觉模型生成作用及功率。这也是此前爆红的文生视频产品Sora 背面的关键技能。
现在,腾讯混元文生图模型参数量达15亿。评测多个方面数据显现,最新的腾讯混元文生图模型作用比较前代提高超越20%,远超开源的Stable Diffusion模型,在现在已开源的文生图模型中,归纳功能最佳,到达世界领先水平。
腾讯混元的文生图才能,现已广泛被用于资料创造、产品组成、游戏出图等多项事务及场景中。今年初,腾讯广告根据腾讯混元大模型,发布了一站式 AI 广告构思渠道腾讯广告妙思,可为广告主供给文生图、图生图、产品布景组成等多场景构思东西。多家干流媒体也现已将腾讯混元文生图用于新闻内容的辅助生产。
腾讯文生图负责人芦清林表明:“腾讯混元文生图的研制思路便是有用,坚持从实践中来,到实践中去。此次把最新一代模型完好开源出来,是期望与职业同享腾讯在文生图范畴的实践经验和研究成果,共建中文文生图开源生态,加快大模型职业开展。”
根据腾讯此次开源的文生图模型,开发者和企业无需从头练习,即可直接用于推理,并可根据混元文生图打造专属的AI绘画使用及服务,能节约很多人力及算力。通明揭露的算法,也让模型的安全性和可靠性得到保证。
一起,根据敞开、前沿的混元文生图根底模型,更有助于在以英文为主的文生图开源社区之外,丰厚以中文为主的文生图开源生态,构成更多样的原生插件,推进中文文生图研制技能和使用。