新闻资讯-歌剧话剧
谷歌&MIT何恺明团队:视觉大模型像LLM一样高效Scaling,指路连续token+随机生成顺序
梦晨 发自 凹非寺量子位 | 公众号 QbitAI视觉自回归模型的Scaling,往往不像在语言模型里那样有效。谷歌&MIT何恺明团队联手,有望打破这一局面,为自回归文生图模型的扩展指出一个方向:基于连续token的模型比离散token模型在视觉质量上更好。随机顺序生成与光栅顺序相比在GenEval测试上得分明显更好。
标签:
何恺
mit何恺
token
相关资讯
更多>>
谷歌&MIT何恺明团队:视觉大模型像LLM一样高效扩展
10-20 19:44