「技术综述」视频分类/行为识别研究综述,从数据集到方法

无监督图像分类问题是图像分类领域一项极具挑战的研究课题,本文介绍了无监督图像分类算法的发展现状,供大家参考学习。

作者 | 郭冰洋

编辑 | 言有三

1 简介

「技术综述」视频分类/行为识别研究综述,从数据集到方法

近年来,深度学习在图像识别领域取得了前所未有的进步,究其根本,可以归功于数据集容量的扩充和计算资源的提升。

现阶段的图像分类任务在很大程度上是靠监督学习实现的,即每个样本都有其对应的标签,通过深度神经网络来不断学习每个标签所对应的特征,并最终实现分类。这种情况下,数据集的容量、标签的质量往往对模型的性能起到决定性的作用。

如果将神经网络看做一辆在赛道上奔驰的F1赛车,数据集则是为其不断提供动力的能源。如果没有高质量的数据集作为基础,也就无法驱动神经网络进行训练。

高质量数据集自然会带来标注的困难,据统计,标记单张图像中的单个物体类别大约需要2到3秒的时间,但实际应用中的数据集往往包含上千上万张图片,整个标注过程就会变得格外漫长。尤其是在涉及到细粒度分类和多标签分类任务时,标注成本会随着目标数量、可辨识难度呈指数级增长。

「技术综述」视频分类/行为识别研究综述,从数据集到方法

在这一背景下,有关无监督图像分类的研究也变得愈发火热,大致可以分为数据集变换和聚类分析两种方向,本文将围绕两种方向对无监督图像分类的研究现状展开介绍,从以供各位读者参考。

2 基于数据集变换的算法

数据集变换即对现有数据集构建新的表示方式,使其包含的特征更加容易被理解,也就是所谓的降维和降噪,主要方法有PCA、T-SNE。

1、PCA

PCA算法即主成分分析算法,是机器学习领域中一种典型的旋转数据集的方法,旋转后的特征在统计上不相关。通过数据集的旋转,可以根据新特征对解释数据的重要性来构建子集,从而构造新的数据集表示方式。

2、T-SNE

T-SNE作为近年来应用广泛的数据分析算法,其主要思想是找到数据的二维表示,并尽可能地保持数据点之间的距离,然后尝试让在原始特征空间中距离较近的点更加靠近,原始特征空间中相距较远的点更加远离。其重点关注距离较近的点,而不是保持距离较远的点。

从原理上来说上述两种数据集变换的方法复杂度较高,并且其算法的目标太明确,使得抽象后的低维数据中没有次要信息,而这些次要信息可能在更高层看来是区分数据的主要因素。所以这两种算法大多运用在网络训练前的数据预处理阶段,为后续操作提供相应的先验知识。

3 基于聚类分析的算法

聚类分析是无监督学习中最常用的方法之一,并在机器学习领域取得了非常广泛的应用,许多研究人员都试图把成熟的聚类算法与深度学习相结合,以实现更加高效的学习策略。

目前的研究成果大致可以分为基于K-means算法的无监督分类和基于信息不变性的无监督分类两种。

3.1、基于K-means算法的无监督分类

「技术综述」视频分类/行为识别研究综述,从数据集到方法

DCN网络[1]提出一种自编码器(auto-encoder)的方法,同时进行网络的学习和聚类。编码器学习输入数据的潜在特征,将高维特征映射到低维子空间中,输入给K-means聚类模型进行聚类,而解码器则对特征进行还原,使得特征重构成原始数据,这有利于网络学习更加重要的特征,忽略一些不重要的特征。

「技术综述」视频分类/行为识别研究综述,从数据集到方法

Deep Cluster[2]在DCN网络的灵感上同样将聚类和分类两个分支任务融合到一起,通过K-means算法实现了对网络特征的聚类。其创新点在于将聚类的结果作为伪标签,更新网络的参数,进一步让网络预测这些伪标签。这两个过程依次进行,取得了相当好的预测结果。

「技术综述」视频分类/行为识别研究综述,从数据集到方法

Associative Deep Clustering则提出一种直接利用深度神经网络进行聚类的方案,而不是将网络提取到的特征图再送入聚类模型进行额外的训练,其主要灵感是让网络在较深的层学习数据的结构类型,从而提炼某类数据的质心以完成聚类。

基于K-means实现的无监督分类算法其主要思想均是将聚类模块嵌入神经网络所提取到的特征层之后或者直接让网络学习数据的结构特征。这一方法虽然取得了一定的成果,但是缺乏相应的语义过滤过程,无法保证所利用的特征都是有意义的,这也在一定程度上会影响最终的分类结果。

3.2、基于信息不变性的无监督分类

如上节中所说,传统聚类算法与深度学习的搭配并非天作之合,往往还需要借助前文中所述的数据集变换操作,以提供更多的先验知识。

因此,相关研究人员将目光聚集到神经网络本身,期望对网络结构进行相应的改进,以更好地利用图像特征信息以实现聚类。信息不变性网络(Invarient Information Clustering CNN[3])便是其中的典型代表。

「技术综述」视频分类/行为识别研究综述,从数据集到方法

IIC-CNN通过对CNN稍作改动,构建两个输入分支,为了做到无监督,模型对每张图片x做一次转换操作( 平移、旋转或crop )得到另一张图片 x’。输入转换图像的分支作为辅助层直接进行聚类训练。同时,为了让模型更好辨认相同类别的对象,IIC-CNN采用了互信息最大化目标函数,尽可能使得网络的聚类效果更好 。

「技术综述」视频分类/行为识别研究综述,从数据集到方法

这一方法相较于传统聚类算法、深度学习与聚类融合的算法取得了非常大的进步,在诸多数据集的对比训练中均取得了傲人的成绩,这也是一个非常有意义的研究内容。

4 总结

现阶段,基于深度学习的无监督图像分类研究尚处于发展阶段,加之问题的难度较大,其研究成果相较于其他方向较少,同时也仅在某些简单的数据集上进行实验,并未真正大规模的应用到实际场景。

因此,为了更好的使无监督图像分类得到广泛的应用,我们必须探究传统算法的优势,紧密结合神经网络的特点,提出更多更有创意的思路,以实现更大的突破。

参考文献

[1] Yang B, Fu X, Sidiropoulos N D, et al. Towards k-means-friendly spaces: Simultaneous deep learning and clustering[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 3861-3870.

[2] Caron M, Bojanowski P, Joulin A, et al. Deep clustering for unsupervised learning of visual features[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 132-149.

[3] Ji X, Henriques J F, Vedaldi A. Invariant information distillation for unsupervised image segmentation and clustering[J]. arXiv preprint arXiv:1807.06653, 2018.

https://www.toutiao.com/i6727839857348968972/

原创文章,作者:carmelaweatherly,如若转载,请注明出处:https://blog.ytso.com/198369.html

(0)
上一篇 2021年11月17日
下一篇 2021年11月17日

相关推荐

发表回复

登录后才能评论