Paper 研习社每日精选论文推荐 12.31

Hi 欢迎来到Paper 研习社每日精选栏目，Paper 研习社（paper.yanxishe.com）每天都为你精选关于人工智能的前沿学术论文供你参考，以下是今日的精选内容——

Neural Module Networks for Reasoning over Text
Scale Match for Tiny Person Detection
Combining Fact Extraction and Verification with Neural Semantic Matching Networks
Combining Deep Learning and Verification for Precise Object Instance Detection
Evaluating Usage of Images for App Classification
DADA: A Large-scale Benchmark and Model for Driver Attention Prediction in Accidental Scenarios
Unsupervised Adversarial Image Inpainting
Learning by Cheating
CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features
Mining and Summarizing Customer Reviews

用于文本推理的神经模块网络

Neural Module Networks for Reasoning over Text

作者：Gupta Nitish /Lin Kevin /Roth Dan /Singh Sameer /Gardner Matt

发表时间：2019/12/10

论文链接：https://paper.yanxishe.com/review/7907

推荐理由：针对文本进行推理的多个步骤的构想问题回答问题是具有挑战性的，特别是当它们涉及离散的象征性操作时。神经模块网络（NMN）学习解析诸如由可学习模块组成的可执行程序之类的问题，它们在合成的视觉质量检查域中表现良好。但是，作者发现在开放域文本中针对非综合性问题学习这些模型非常困难，因为模型需要处理自然语言的多样性并进行更广泛的推理。

作者通过以下方式扩展NMN：（a）引入对一段文本进行推理的模块，以概率和可微分的方式对数字和日期执行符号推理（例如算术，排序，计数）；（b）提出无监督的辅助损失，以帮助提取与文本中的事件相关的论点。此外，作者显示出有限的试探性获得的问题程序和中间模块输出监督为准确学习提供了足够的归纳偏差。

成果：作者提出的模型大大优于DROP数据集的子集上的最新模型，后者构成了其模块所涵盖的各种推理挑战。

用于微小人物检测的尺度匹配

论文名称：Scale Match for Tiny Person Detection

作者：Yu Xuehui /Gong Yuqi /Jiang Nan /Ye Qixiang /Han Zhenjun

发表时间：2019/12/23

论文链接：https://paper.yanxishe.com/review/7893

推荐理由：这篇论文要解决的是微小人物检测的问题。

随着深度卷积网络的发展，可视化对象检测已经取得了广泛的进步。然而，在大尺度图像中检测微小的目标（例如小于20像素的人）仍然没有受到充分重视。极端小的物体给特征表示带来大麻烦，更何况复杂的背景又加大了困难。这篇论文的贡献在于提出了一个新基准TinyPerson，用于长程与大背景下的微型物体检测任务。通过实验发现，用于网络预训练的数据集和用于检测器学习的数据集之间的比例失配可能会使特征表示和检测器恶化。因此这篇论文又提出一种简单而有效的比例匹配方法，以在两个数据集之间对齐对象比例，从而实现有利的微小对象表示。

这篇论文会公开数据集和基准方法，有利于后续的研究进行比较和验证。

将事实提取和验证与神经语义匹配网络相结合

Combining Fact Extraction and Verification with Neural Semantic Matching Networks

作者：Yixin Nie / Haonan Chen / Mohit Bansal

发表时间：2018/12/12

论文链接：https://paper.yanxishe.com/review/7868

推荐理由：对错误信息的日益关注刺激了对自动事实检查的研究。最近发布的FEVER数据集引入了基准事实验证任务，其中要求系统使用来自Wikipedia文档的证据语句来验证索赔。在本文中，作者提出了一个由三个同类神经语义匹配模型组成的连接系统，该模型共同进行文档检索，句子选择和要求验证，以进行事实提取和验证。对于证据检索（文档检索和句子选择），不像传统的向量空间IR模型（在某些预先设计的术语向量空间中对查询和来源进行匹配），假设没有中间语言，作者开发了神经模型以从原始文本输入执行深度语义匹配术语表示，无权访问结构化的外部知识库。作者还显示了Pageview频率还可以帮助提高证据检索结果的性能，以后可以使用作者的神经语义匹配网络进行匹配。为了进行声明验证，与以前仅将上游检索到的证据和声明提供给自然语言推理（NLI）模型的方法不同，作者通过为NLI模型提供内部语义相关性评分（因此将其与证据检索模块集成）来进一步增强NLI模型和本体的WordNet功能。在FEVER数据集上的实验表明：（1）作者的神经语义匹配方法在所有证据检索指标上都有显着优势，胜过流行的TF-IDF和编码器模型；（2）附加的相关性评分和WordNet功能通过更好的语义改进了NLI模型（3）通过将所有三个子任务形式化为相似的语义匹配问题并在所有三个阶段进行改进，完整的模型能够在FEVER测试集上获得最新的结果。

结合深度学习和验证进行精确的对象实例检测

Combining Deep Learning and Verification for Precise Object Instance Detection

作者：Ancha Siddharth /Nan Junyu /Held David

发表时间：2019/12/27

论文链接：https://paper.yanxishe.com/review/7928

推荐理由：深度学习对象检测器通常会以很高的置信度返回误报。尽管它们优化了通用检测性能，例如平均平均精度（mAP），但它们并不是为可靠性而设计的。对于可靠的检测系统，如果进行了高置信度检测，作者将希望高度确定确实已检测到对象。为此，作者开发了一套验证测试，建议的检测必须通过该测试才能被接受。

作者建立了一个理论框架，可以证明在某些假设下，作者的验证测试不会接受任何误报。基于此框架的近似值，作者提出了一种实用的检测系统，该系统可以高精度地验证基于机器学习的对象检测器的每次检测是否正确。作者表明，这些测试可以提高基本检测器的整体精度，并且公认的示例很有可能是正确的。这允许检测器在高精度状态下操作，因此可以作为可靠的实例检测方法用于机器人感知系统。

评估图像的用途以进行应用分类

Evaluating Usage of Images for App Classification

作者：Singla Kushal /Mukherjee Niloy /Koduvely Hari Manassery /Bose Joy

发表时间：2019/12/16

论文链接：https://paper.yanxishe.com/review/7926

推荐理由：应用分类在许多应用中很有用，例如将应用添加到应用商店或基于已安装的应用建立用户模型。当前，有许多现有方法可基于给定分类法基于文本元数据对应用程序进行分类。但是，基于文本的应用程序分类方法可能无法在所有情况下都有效，例如，当文本描述使用其他语言，丢失或不足以对应用程序进行分类时。在这种情况下，有一种解决方案是利用应用图像来补充文本描述。

在本文中，作者评估了许多方法，其中可以使用应用程序图像对应用程序进行分类。在这种方法中，作者使用光学字符识别（OCR）从图像中提取文本，然后将其用于补充应用程序的文本描述。在另一种方法中，作者使用pic2vec将应用程序图像转换为矢量，然后训练SVM将矢量分类为正确的应用程序标签。在另一种方法中，我们使用此http URL（https://www.captionbot.ai/）工具从应用程序图像生成自然语言描述。最后，作者使用一种方法来检测和标记应用程序图像中的对象，并使用投票技术根据所有图像确定应用程序的类别。作者比较了基于图像的技术的性能，以对数据集中的许多应用进行分类。

作者使用基于文本的SVM应用分类器作为基础，并且在添加应用图像时某些类别的分类精度提高了96％。

DADA：意外情况下驾驶员注意力预测的大规模基准和模型

DADA: A Large-scale Benchmark and Model for Driver Attention Prediction in Accidental Scenarios

作者：Fang Jianwu /Yan Dingxin /Qiao Jiahuan /Xue Jianru

发表时间：2019/12/18

论文链接：https://paper.yanxishe.com/review/7925

推荐理由：驾驶员注意力预测最近在交通场景理解中引起了越来越多的关注，并且在以视觉为中心和类似人的驾驶系统中很容易成为一个基本问题。这项工作与其他尝试不同，它试图在同时包含正常，严重和意外情况的意外情况下预测驾驶员的注意力。但是，由于交通场景多变，事故类别错综复杂且不平衡，因此面临挑战。

假设驾驶员的注意力可以提供碰撞对象的选择性作用，以协助驾驶事故检测或预测，本文设计了一种多路径语义引导的注意力融合网络（MSAFNet），该网络学习时空语义和场景变化。预测。为了实现这一目标，提供了包含2000个视频序列的大型基准测试（命名为DADA-2000），并通过费力的注释来吸引驾驶员注意（固定，扫视，聚焦时间），事故对象/间隔以及事故类别，以及全面的评估可提供比最新技术更出色的性能。据目前所知，这是针对意外情况下人眼感知探索的首次全面定量研究。可通过原文后URL获得DADA-2000。

无监督的对抗图像修复

Unsupervised Adversarial Image Inpainting

作者：Pajot Arthur /de Bezenac Emmanuel /Gallinari Patrick

发表时间：2019/12/18

论文链接：https://paper.yanxishe.com/review/7924

推荐理由：作者考虑在无人看管的环境中进行修补，在这种情况下，无法访问配对或非配对的训练数据。唯一的信息是由不完整的观察和修补过程统计信息提供的。在这种情况下，观察应该引起一些合理的重建，这些重建相当于学习重建图像空间上的分布。

作者通过使用条件GAN来建模重构过程，该条件GAN对随机组件具有约束，从而在该组件和生成的输出之间引入了显式依赖性。这使作者可以从潜在分量中进行采样，以生成与观察相关的图像分布。

作者在几种图像数据集上证明了其模型的能力：面孔（CelebA），食物图像（Recipe-1M）和具有不同类型的插补蒙版的卧室（LSUN卧室）。该方法产生的性能可与经过额外监督训练的模型变体相比。

通过作弊学习

Learning by Cheating

作者：Chen Dian /Zhou Brady /Koltun Vladlen /Krähenbühl Philipp

发表时间：2019/12/27

论文链接：https://paper.yanxishe.com/review/7919

推荐理由：基于视觉的城市驾驶很难。自治系统需要学习感知世界并在其中行事。我们表明，可以通过将其分解为两个阶段来简化此具有挑战性的学习问题。

作者首先训练可以访问特权信息的代理。该特权代理通过观察环境的真实布局和所有交通参与者的位置来作弊。在第二阶段，特权代理充当训练纯基于视觉的感觉运动代理的老师。生成的感觉运动代理无法访问任何特权信息，也不会作弊。这种分两个阶段的培训程序最初是违反直觉的，但是具有许多重要的优点，作者将通过分析和经验证明。

作者使用其提出的方法来训练基于视觉的自动驾驶系统，该系统在CARLA基准和最近的NoCrash基准上明显优于最新技术。该方法首次在原始CARLA基准中实现了所有任务的100％成功率，在NoCrash基准上创下了新记录，并且与现有技术水平相比，将违规频率降低了一个数量级。有关概述这项工作的视频，请参见以下 URL（https://www.youtube.com/watch?v=u9ZCxxD-UUw&feature=youtu.be）。

CutMix：训练具有局部特征的强分类器的正则化策略

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

作者：Yun Sangdoo /Han Dongyoon /Oh Seong Joon /Chun Sanghyuk /Choe Junsuk /Yoo Youngjoon

发表时间：2019/5/13

论文链接：https://paper.yanxishe.com/review/7911

推荐理由：为了提高卷积神经网络分类器的性能，研究者提出了区域丢弃策略。事实证明，它们可以有效地引导模型关注对象中不易区分的部分（例如，腿而不是人的头部），从而使网络更好地进行泛化，并具有更好的对象定位能力。另一方面，当前的区域性丢弃方法通过覆盖黑色像素或随机噪声来去除训练图像上的信息像素。这种删除是不可取的，因为它会导致信息丢失和训练过程中的效率低下。

因此，作者提出了CutMix增强策略：训练图像之间剪切和粘贴补丁，其中对应的真值标签也与补丁的区域成比例地混合。通过有效利用训练像素和保持区域丢失的正则化效果，CutMix在CIFAR和ImageNet分类任务以及ImageNet弱监督定位任务中始终优于最新的增强策略。此外，与以前的增强方法不同，作者的CutMix训练的ImageNet分类器在用作预训练模型时，在Pascal检测和MS-COCO图像字幕基准测试中获得了一致的性能增益。作者还证明了CutMix改进了针对输入损坏及其分布外检测性能的模型鲁棒性。