雷锋网 AI 科技评论按:「在你离开家之前,先照一照镜子,再拿掉一件东西。」这是优雅的可可·香奈儿 (Coco Chanel) 曾经说过的一句名言,意思是指小小的改变,也可能对一个人的时尚程度造成很大的影响。无论是摘掉一件配饰、选择一件领口更高的衬衫、把衬衫塞进裤子里或者换一条颜色更深的裤子,这些小调整通常能让现有的衣服显得更时尚。换句话说,身为一名普通消费者,我们无需将原有的衣柜推倒重来也能取得「质变」。
近期,一项研究工作试图让 AI 成为能够提供类似调整意见的小助手,且已取得初步成果。
这项成果是 Fashion++,如先前所说,这是一项可以通过对整体着装进行微调整以获得时尚感的方法。该模型由懂得学习服装编码的深度图像生成神经网络构成,其潜在编码能够根据形状和结构进行显式分解,从而允许模型分别对着装/表示以及颜色/模式/材料进行直接编辑。
只要给定一套原始服装,模型就会将其组成部分 (如包、衬衫、靴子等) 映射至对应各自的代码。
接着将具有辨别力的时尚模型作为编辑模块,从得分最大化角度逐步更新服装编码,达到改进服装风格的目的。
Fashion++ 框架。首先从纹理与形状编码器(Et 和 Es)中获得潜在特征,接着由编辑模块 F ++ 对潜在纹理特征 t 与形状特征 s 进行编辑。编辑完成后,形状生成器 Gs 首先将更新后的形状特征 s ++ 解码成 2D 分割掩码 m ++,然后我们利用它将更新后的纹理特征 t ++ 区域散播(region-wise broadcast)成一个二维特征映射 u ++。这个特征映射与更新后的分割掩码会被传递给纹理生成器 Gt,最终生成更新后的着装 x++。
让我们一起来看看最终的生成结果吧(建议点击大图进行观看):
只对形状/大小进行微调
只对颜色/图案进行微调
增添/除去衣服碎片
怎么样,是不是变得时尚时尚最时尚了呢?
AI 是怎么懂得时尚的?
一开始,为了让编辑模块具备判别时尚的能力,Fashion++ 的研究人员试图创建出这么一个训练数据集——由两组图片组成,图片中都是同一个人,只不过在不同组中穿着不同的服装,其中一组将被判定比另一组更加时尚。然而这样的合集实践起来不仅难度重重,而且一旦时尚风向转变了,该合集就会变得过时。另外一种方法是,将来自特定群体 (如网红) 的图像视为正面范例,而将另一组图像 (如日普通行人) 视为负面范例。然而这种方法也有问题,这种合集会导致身份与风格的混淆,分类器将发现两组之间与时尚无关的属性的区别。
最后,研究人员决定换一条思路,让模型从那些时尚达人的网络服装照中自动生成时尚度欠缺的照片。
具体流程上,先从一张「正面范例」的全身服装照开始,选择需要进行调整的部件,然后用另一套着装上的部件进行替换。为了增加替换部件有效降低时尚感的可能性,模型将从与原服装最不相似的选择中提取部件,主要根据 CNN features 的欧几里德距离 (Euclidean distance) 测量得出。
最后,再利用这些数据训练出一个具有三层多层级感知器 (MLP) 的时尚分类器 f。
这种训练方式不仅能让模型随着时尚的进化进行实时更新,同时模型也能基于这些编码器有效掌握微妙的服装协同作用。此外,由于训练照片主要采自于路人街拍,因此模型有机会学习到服装目录(catalog)所不具备关于合身与呈现方面的知识 (如掖好衣服、卷起衣服等),以及人们在日常情况下的自然搭配风格。
结论
当然,目前模型并非十全十美。服装分类模型、时尚分类器、编辑操作器,任何一方的不足,都可能导致糟糕的着装建议。
一些失败例子
无论如何,该工作依然为我们推介了一款充分考虑个性化、可伸缩性以及操作灵活性的生成框架,让我们通过微调即可优化着装问题。Fashion++ 研究人员也准备在未来的工作中进一步丰富训练资源的组合,让基于个人偏好风格或场合的调整成为可能。无论是从定量还是人为主观判断的角度,这项工作皆具有一定的推广意义。
论文链接:
https://arxiv.org/pdf/1904.09261.pdf
雷锋网(公众号:雷锋网) AI 科技评论雷锋网
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/135228.html