如何同时处理庞大、稀有、开放类别的视觉识别？伯克利 AI 研究院提出了开放长尾识别方法

雷锋网(公众号：雷锋网) AI 科技评论按：在计算机视觉领域，图像分类其实是一个最基本的问题，然后一旦遇到极端长尾、开放式的数据集时，即便是最基本的图像识别任务，也难以很好地实现。伯克利 AI 研究院基于对某段相关的经历的思考提出了「开放长尾识别」（OLTR）方法，据介绍，该方法可同时处理庞大、稀有、开放类别的视觉识别，是目前视觉识别系统评价中更全面、更真实的一种检验标准，它可以被进一步扩展到检测、分割和强化学习上。这一成果也在伯克利 AI 研究院上进行了发表，雷锋网 AI 科技评论编译如下。

现有的计算机视觉环境 VS 现实世界场景

有一天，一位生态学家来找我们。因为他用摄像机拍摄了很多野生动物的照片，希望运用现代计算机视觉技术，基于这些照片的数据库自动辨识拍到了哪些动物。这听起来是一个基本的图像分类问题，所以我们当时很自信，觉得肯定没问题。然而结果我们却失败了。那位生态学家提供的数据库是极端长尾且开放式的。通常，只要无法得到足够的训练数据，我们就会问对方，有没有可能提供更多的尾部类别数据，而忽略可能在测试数据中出现的一些开集类别。遗憾的是，要解决那位生态学家的问题，我们无法采用收集更多数据的做法。由于这些生态学家可能要花相当长的时间，才会在野外拍到他们计划拍摄的珍稀动物。为了拍到一些濒危动物，他们甚至必须等几年才能拍到一张照片。如此同时，新的动物物种不断出现，旧的物种同时正在消失。在这样一个动态变化的系统之内，类别的总数永远无法固定。而且，从动物保护的意义上说，识别新发现的稀有动物比识别数量还很多的动物更有价值。如果我们只能在数量众多的类别中很好地识别动物，那我们的方法永远都不会有什么实用价值。我们尝试了所有可能采用的方法，能想到的都试过了，比如数据增强、采样技术、小样本学习、不平衡分类，但没有一种现有的方法可能同时处理庞大的类别、稀有的类别和开放的类别（如图 1）。

图1：现有的计算机视觉环境和现实世界的场景差距相当大。

自此以后，我们就一直在思考，现有的计算机视觉方法和现实世界的场景存在这么大的差距，最主要的原因是什么？不止是野生动物摄影数据存在这样的问题，在现实生活中，这种问题一再出现，工业和学界都有。假如卷积神经网络可以在庞大的 ImageNet 图像数据集中非常顺利地将图片分门别类，那为什么在开放的世界中却仍然无法解决图片分类的问题？在视觉识别领域，几乎所有的问题都有成功的解决之道，如小样本学习和开集识别。可似乎没有人把这些问题当作一个整体来看待。在现实世界的应用中，不论是头部类别还是尾部类别，分类有时不止面临单独一种问题。因此，我们认为，这种理论和实践的差距可能源于视觉识别设置自身。

开放长尾识别（Open Long-Tailed Recognition，OLTR）

在现有的视觉识别环境中，训练数据和测试数据在封闭世界（比如 ImageNet 数据集）的设置下都是均衡的。但这种设置并没有很好地模拟现实世界的场景。例如，生态学家永远都无法收集到均衡的野生动物数据集，因为动物的分布是不均衡的。同样地，从道路标示、时装品牌、面孔、天气环境，到街道环境等等，各种类型数据集的不均衡开放分布都会干扰人。为了如实地反映这些方面，我们开始正式研究源自自然数据集的「开放长尾识别」（OLTR）。一个实用的系统应该能够在少数共性的类别和多个稀有类别之中分类，从极少数已知的例子之中总结归纳单独一个类别的概念，基于某个过去从未见过的类别存在的一个例子，去了解这个类别的独特性。我们将 OLTR 定义为，从长尾和开放的分布式数据中学习，并且基于一个平衡测试数据集评估分类的准确性，而这个测试数据集要包括在一个连续谱内的头部、尾部和开集类别（如图 2）。