首页 期刊 电子技术与软件工程 利用自然语言文本描述进行图像编辑 【正文】

利用自然语言文本描述进行图像编辑

作者:周作为; 钱真真 北京交通大学计算机与信息技术学院、交通数据分析与挖掘北京市重点实验室; 北京市100044
生成对抗网络   多模态   图像编辑  

摘要:本文研究了利用自然语言文本描述对图像进行编辑的多模态问题。本文的目标是,输入一张原始图像以及一句自然语言文本描述,输出一张经过编辑的图像,并且图像在满足给定自然语言文本描述的同时,保留与文本描述无关的其他细节。在本文中,整体网络采用生成对抗网络结构。在生成器部分,通过引入重构损失,实现模型对于文本描述无关图像区域的保持。通过引入文本图像相关度损失,以一种半监督的方式,对生成器的训练进行指导,从而实现更精细化的利用文本描述对图像进行编辑。在判别器部分,结合判别损失以及条件判别损失,指导生成器生成更具真实效果以及符合自然语言文本描述的图像。通过生成器和判别器的对抗训练,最终实现利用自然语言文本描述实现精准编辑图像。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅