GPT4o以及Gemini 2.0 Pro的图片编辑功能,肯定是采用的预训练大模型+Diffusion模型的技术路线。类似方法的论文前几天我正好看过。
GPT4o的相对来说更好一些,一个是具有In-context learning的能力(得益于可以输入多图),再一个是采用了两段式生成,即先生成图片再上采样的方法,所以生成的分辨率比Gemini高很多。
GPT4o以及Gemini 2.0 Pro的图片编辑功能,肯定是采用的预训练大模型+Diffusion模型的技术路线。类似方法的论文前几天我正好看过。
GPT4o的相对来说更好一些,一个是具有In-context learning的能力(得益于可以输入多图),再一个是采用了两段式生成,即先生成图片再上采样的方法,所以生成的分辨率比Gemini高很多。
作者最新文章
热门分类
国际TOP
国际最新文章