PRICAI 2016 论文精选 | 大规模文本分类

导读：文本分类是文本信息处理的基础性工作，因此受到很多关注。但文本的特征表示严重地限制了文本分类性能的提升。而随着社会网络化的发展，大规模的甚至海量的文本信息急剧增加，导致文本分类问题面临着巨大挑战。本文是PRICAI 2016大会收录的论文，介绍了一种解决该问题的快速训练方法。

标题：大规模文本分类之图表增强型快速训练

摘要：

本文提出了一种基于增强型算法的图表分类快速训练方法，通过图表输入文本，应用到情绪分析中。图表的形式非常适合表示用自然语言处理技术处理过的文本结构，比如语法分析，命名实例识别和语义解析。目前，大量把文本表示为图表的分类方法已经被提出。然而，它们很多都因为特征空间大而提前限制候选特性。我们提出的方法，无需限制搜索空间，提出了两种近似方法来增强基于图表规则的学习。在情绪分析数据集上的实验结果表明，我们的方法有助于提高训练速度。此外，基于图表表示的分类方法利用了丰富的文本结构信息，这在使用其他更简单的输入格式时无法被检测到，最终表现出更高的准确率。

关键词：文本分类；特征工程；图表增强

第一作者：

Hiyori Yoshikawa

富士通实验室研究员，富士通是日本排名第一的IT厂商，全球第四大IT服务公司，全球前五大服务器和PC机生产商。

via PRICAI 2016

论文原文下载

雷锋网(公众号：雷锋网)按: 本文由雷锋网独家编译，未经许可禁止转载！

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/60726.html

PRICAI 2016 论文精选 | 大规模文本分类

相关推荐

发表回复