小模型逆袭!港科大携手快手打造全新“进化搜索”技术,让AI绘画抛弃“运气偏差”

在AI作画领域,一直以来都存在一个普遍认知:想要生成高质量的图片和视频,就必须依赖更大的模型、更多的参数和更强的算力。然而,来自香港科技大学和快手科技的研究团队最近提出的EvoSearch(进化搜索)技术,正在彻底颠覆这一固有观念。

image.png

这项技术最令人震撼的表现是:仅有865M参数的Stable Diffusion2.1模型在使用EvoSearch后,生成质量竟然超越了强大的GPT-4o;而1.3B参数的Wan模型配合EvoSearch,甚至能够与比它大10倍的14B模型平分秋色。

现有AI生成模型的困境

目前主流的AI生成模型主要分为两大类:扩散模型和流模型。扩散模型通过逐步去除噪声来生成清晰图像,类似于将模糊照片逐渐变清晰的过程;流模型则通过一系列平滑变换,直接将随机噪声塑造成目标图像。

为了提升这些模型的表现,业界普遍采用两种策略。一是在训练阶段不断增大模型规模、喂入更多数据,但这种"大力出奇迹"的方法成本极高,已经接近资源上限。二是在推理阶段进行优化,包括Best-of-N采样(生成N张图片选最好的一张)和粒子采样(维护多个候选方案并筛选优秀个体)等方法。

image.png

然而,这些现有方法都存在明显缺陷:Best-of-N方法效率低下,大量计算被浪费在生成"废品"上;粒子采样方法过于保守,容易困在局部最优解中,缺乏主动探索能力;其他微调方法要么需要额外训练,要么容易导致生成样本缺乏多样性。

EvoSearch:AI作画领域的"进化论"

EvoSearch的核心创新在于将达尔文进化论的思想引入AI生成过程。该方法将图像生成视为一个物种进化过程:首先生成初始"种群"(随机噪声),然后通过"适应度评估"对半成品进行打分,接着进行"优胜劣汰"选择优秀个体,最后通过专门设计的"变异"操作产生新的候选方案。

这种变异操作是EvoSearch的关键技术突破。对于初始噪声,系统通过添加适量高斯噪声实现变异;对于去噪过程中的中间状态,则借鉴随机微分方程采样的随机性注入方式,给中间状态引入可控扰动。这种设计既能探索新区域,又能保持优秀"基因"。

与传统方法相比,EvoSearch具有三大优势:主动探索而非被动筛选,能够跳出初始候选池限制;有效平衡探索与利用,避免过早收敛到局部最优;通用性强,适用于各种扩散模型和流模型,无需修改模型结构或额外训练。

实验结果:全方位"降维打击"

研究团队在图像和视频生成任务上进行了全面测试,结果显示EvoSearch在各项指标上都显著优于现有基线方法。

在图像生成方面,随着推理计算量增加,EvoSearch生成的图片质量和文本匹配度持续稳定提升,而其他方法很快达到瓶颈。对于复杂或容易产生歧义的提示词,EvoSearch能够更准确理解并生成符合要求的图片,同时在背景、姿态等方面展现出更丰富的多样性。

视频生成方面的表现更为惊人。无论使用万象Wan1.3B模型还是混元HunyuanVideo13B模型,EvoSearch的生成质量都显著超越基线方法。最令人印象深刻的是,当为Wan1.3B模型分配与Wan14B模型相同的推理时间预算时,前者配合EvoSearch的组合效果竟能与后者打平甚至超越。

值得注意的是,即使评价指标与EvoSearch搜索时使用的奖励函数不完全一致,该方法依然表现出良好的泛化能力,不容易被特定奖励函数误导。在人工评估中,EvoSearch生成的视频在视觉质量、动作质量、文本对齐和整体质量方面都获得了更高的胜率。

技术启示与未来展望

EvoSearch的成功为AI生成领域带来了重要启示。首先,在训练成本日益高昂的今天,通过在推理阶段投入更多计算来提升模型性能是一条极具价值的探索路径。其次,将生物进化中的选择和变异思想引入AI生成领域,能够有效克服传统搜索方法的局限性。

更重要的是,这项技术的成功离不开对扩散和流模型去噪过程的深入理解。EvoSearch真正掌握了这些模型在去噪过程中的状态空间结构特征,据此设计了针对性的变异策略,从而能够更有效地探索巨大的可能性空间。

当然,EvoSearch也存在进一步优化的空间。研究团队指出,未来的改进方向包括设计更智能的变异策略、更好地平衡探索和计算效率等。

这项技术向我们展示了一个重要趋势:即使不盲目追求更大的模型和更多的训练数据,通过在推理阶段运用更智慧的搜索策略,我们依然可以挖掘出AI模型更深层次的潜力。EvoSearch正在开启AI创作的"智能进化"时代,让小模型也能创造出令人惊艳的作品。

项目主页:https://tinnerhrhe.github.io/evosearch/

代码:https://github.com/tinnerhrhe/EvoSearch-codes

论文:https://arxiv.org/abs/2505.17618

猜你喜欢

超级精灵手表六翼萌星的评测如何?了解六翼萌星的获取方法与使用体验
超级精灵手表六翼萌星的评测如何?了解六翼萌星的获取方法与使用体验

在超级精灵手表中有很多的精灵,六翼萌星就是其中之一,这是一个非常可爱的精灵,那么六翼萌星怎么获得?想知道的就来看看吧!

最后纪元微笑遗容的吸血机制分析及职业适配策略全面攻略
最后纪元微笑遗容的吸血机制分析及职业适配策略全面攻略

最后纪元微笑遗容吸血机制与职业适配攻略

武侠乂手游中墨衍录的获取位置及如何获取墨衍录的详细攻略
武侠乂手游中墨衍录的获取位置及如何获取墨衍录的详细攻略

在武侠乂手游中有不少的功法,这些功法玩家可以通过不同的方式获取,墨衍录就是其中一款功法,这是一款非常厉害的功法,下面就

王者荣耀侍魂联动版本之上分攻略:最佳英雄选择与玩法解析
王者荣耀侍魂联动版本之上分攻略:最佳英雄选择与玩法解析

王者荣耀侍魂联动版本上分英雄选择指南

爆炒江湖丝绸之路限时任务10怎么做 丝绸之路限时任务10菜谱深是什么
爆炒江湖丝绸之路限时任务10怎么做 丝绸之路限时任务10菜谱深是什么

爆炒江湖丝绸之路活动已经开启了,在活动中有不少的任务,限时任务10就是其中之一,那么限时任务10怎么完成?下面就来看看吧

火影忍者:终极风暴羁绊的快速解锁方法与自定义胜利策略技巧分享
火影忍者:终极风暴羁绊的快速解锁方法与自定义胜利策略技巧分享

火影忍者:终极风暴羁绊快速解锁以自订胜利技巧

哈利波特魔法觉醒无名之书魔法石下的通关攻略与喝酒顺序的详细解析
哈利波特魔法觉醒无名之书魔法石下的通关攻略与喝酒顺序的详细解析

在哈利波特魔法觉醒中有很多的关卡,这些关卡都有不同的通关方法,无名之书魔法石下就是其中之一,那么无名之书魔法石下怎么过

《刀塔传奇》英雄大百科:探索山丘之王——矮人王奥丁之子的独特技能与战斗策略
《刀塔传奇》英雄大百科:探索山丘之王——矮人王奥丁之子的独特技能与战斗策略

前言:楼主写这个英雄大百科的目的并不是为了说明这个英雄有多么的强势。也不是为了和大家分享竞技场心得和搭配。楼主的目的只是

杀戮尖塔未来科技流卡牌组合最佳搭配策略详解与终极指南
杀戮尖塔未来科技流卡牌组合最佳搭配策略详解与终极指南

杀戮尖塔未来科技流卡牌搭配终极指南

无尽之战中的妖怪合成玩法,随意组合才是王道!
无尽之战中的妖怪合成玩法,随意组合才是王道!

无尽之战是一款单机塔防游戏,游戏分本地和竞技场。竞技场就是玩家携带的三张卡牌与随机出现的卡牌比生命值,这里就不作赘述。下