
只管最近几年来AIGC要害技能不停冲破,但图象天生范畴始终面对着一个“两难困境”:闭源模子机能强盛但难以私有化部署;开源方案于轻量化与高机能之间难以弃取,且缺少面向商用的专项能力。 针对于这一行业痛点,美团LongCat团队近日公布,开源其最新研发的LongCat-Image模子。该模子经由过程高机能模子架构设计、体系性的练习计谋及数据工程,以6B的紧凑参数范围,于文生图与图象编纂焦点能力上迫近了更年夜尺寸的头部模子,为开发者与财产界提供了一个“高机能、低门坎、全开放”的全新选择。 据先容,LongCat-Image的焦点上风于在其架构设计与练习计谋。 详细来看,模子采用文生图与图象编纂同源的架构,联合渐进式进修计谋,乐成于6B参数下实现了指令遵照精准度、生图质量与文字衬着能力的高效协同。 于图象编纂方面,LongCat-Image的“可控性”体现凸起,而机能冲破的要害于在一套慎密协同的练习范式及数据计谋。 为有用继续文生图模子的常识及美感,同时防止文生图后练习阶段收窄的状况空间对于编纂指令多样性的限定,团队一方面基在文生图Mid-training阶段模子举行初始化,并采用指令编纂与文生图多使命结合进修机制,深化对于繁杂多样化指令的理解;另外一方面,经由过程预练习阶段的多源数据和指令改写计谋,以和联合SFT阶段引入的人工精标数据,终极实现了指令遵照精准度、泛化性及编纂先后视觉一致性的配合晋升。 于GEdit-Bench及ImgEdit-Bench等权势巨子基准测试中,LongCat-Image均到达开源SOTA(当前最好)程度,可精准相应用户的多样化修改需求。 于中文文本衬着这一持久困扰业界的难题上,LongCat-Image也取患了很猛进展,经由过程课程进修计谋晋升字符笼罩度及衬着精准度:预练习阶段基在万万量级合成数据进修字形,笼罩通用规范汉字表的8105个汉字;SFT 阶段引入真实世界文本图象数据,晋升于字体、排版结构上的泛化能力;于RL(强化进修)阶段,引入OCR与美学双奖励模子,进一步晋升文本正确性与配景交融天然度。 该模子于ChineseWord评测中以90.7的患上分领先同类产物。不管是贸易海报中的繁杂笔划,还有是古诗词插图中的生僻字,LongCat-Image均能实现精准、天然的衬着,进一步拓展AI于设计范畴的运用界限。 为了晋升天生图象的审美与真实感,LongCat团队还有构建了体系性的数据筛选与匹敌练习框架。团队于预练习阶段严酷过滤低质量AIGC数据,并于RL阶段立异性引入AIGC内容检测器作为奖励模子,使用其匹敌旌旗灯号逆向指导模子进修真实世界的物理纹理、光影及质感,从而显著改善了AI画图常见的“塑料感”纹理。 周全的客不雅与主不雅评测数据均验证了LongCat-Image的能力:于客不雅基准测试中,其图象编纂患上分与中文衬着能力均领跑参评模子;于文生图使命上,GenEval与DPG-Bench的优秀体现证实了其比拟头部开源与闭源模子依然具有强竞争力。 于更切近用户体验的主不雅评测(文生图方面采用年夜范围的人工主不雅评分与图象编纂方面采用严酷的并列对于比评估)中,LongCat-Image于真实度方面比拟主流开闭源模子体现精彩,同时于文本-图象对于齐与合理度上到达开源SOTA程度;至在综合编纂质量及视觉一致性方面,虽然与Nano Banana等贸易闭源模子仍有必然差距,但于开源范畴已经形成领先上风。 值患上一提的是,为了构建一个更透明、开放、协作的开源生态体系,美团 LongCat团队这次周全开源了从Mid-training到Post-training的文生图多阶段模子和图象编纂模子,旨于撑持畴前沿研究到贸易运用的全流程。相干资源已经于Hugging Face及GitHub上线,用户也可于官网longcat.ai上体验。 与此同时,面向终端用户的“LongCat APP”也迎来庞大进级,全新上线的图生图功效与24个零门坎弄法模板,让平凡用户也能一键天生海报、精修人像,实现“专业AI创作零门坎”。 美团LongCat团队还有暗示:“咱们坚信,真实的技能前进源在社区的团体聪明。现诚邀泛博开发者体验模子、介入共建,与咱们配合基在这个高效能模子,摸索视觉天生的更多可能。” 相干链接: ·Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Image ·GitHub:https://github.com/meituan-longcat/LongCat-Image 雷峰网版权文章,未经授权禁止转载。详情见转载须知。
▲模子架构
▲客不雅基准测试机能对于比
▲人类主不雅评分对于比 并列对于比评估胜率