每次说到剧透,相信很多朋友和我一样,心底都泛起了阵阵忧伤。
最近有部火热的剧《庆余年》,那阵容、那演技、那剧情,真是每一集都一波三折,时刻牵动着观众的心弦,让人欲罢不能。
然而,在我们还沉浸在对故事剧情的 YY 中时,有人在网上剧透了大结局!这就相当于奥特曼打怪兽时直接甩出大招,于是怪兽被秒杀。故事仿佛还没开始就已经结束,这让我们这些影迷一时根本无法接受!
正因如此,AI 研习社的大赛管理员们想出了全新的应对策略,何不利用现有的技术来做出识别剧透类影评的初步 demo——「剧透判别器」呢?
文字识别与检测背景
文字作为载体和线索,在很多情况下,能够提供比图像更多的信息。因此,作为计算机视觉中一个重要的研究课题,文字检测和识别也随深度学习的兴起和发展,一起进入了全新的时代。
从技术的角度而言,文字检测通常是通过算法计算判断在单词或者文字行层面是否含有文字实例(如果有,则标出位置)的过程;而文字识别则更进一步,它会在文字检测基础之上,再将文字区域转化为计算机可读取和编辑的符号。
目前,文字检测与识别主要存在三个方面的重大挑战,即:场景文字的多样性(如文字的颜色、大小、方向、语言、字体等)、图像背景的干扰(与文字相似的其它物体)以及图像本身质量(噪声、模糊、非均匀光照等)缺陷带来的问题。
文字识别与检测算法
从上面的介绍来看,文字识别与图像识别其实大同小异,都需要先抓取对象,再进行判断识别。具体而言,给定一张图像,我们需要找出这张图中文字出现的位置,再对位置框中文字类型进行分类。
因此,我们可以采用目标检测网络来进行文本检测,如 Faster RCNN。但由于文本与物体之间有很多不同特征,如:文字形式、边缘轮廓、间隔等,该技术应用于文字检测中的实际效果并不是特别理想。于是在此基础上,更多适用于文本检测的方法出现了。
-
CTPN(Connectionist Text Proposal Network)
这一深度神经网络很好的解决了文本检测中一大难点,即:文本行的长度变化问题,并能够生成更好的 text proposal。
具体而言,CTPN 提出了一个全新的想法,将文本检测的任务拆分。首先,我们检测文本框中的一部分,判断其是否为文本内容;然后我们将属于同一文本框的每个小文本框合并,从而得到一个完整的文本框,最终完成文本检测任务。
除此之外,CTPN 还提出在文本检测中加入 RNN 来进一步提升效果。虽然 RNN 常用于序列模型;但在 CTPN 算法中,组成完整文本框的多个小文本框也可以属于序列模型,因此使用 RNN 模型可以利用过去或未来的信息来学习和预测,从而提升识别效果。
详细论文参考:
-
SegLink
尽管 CTPN 文本检测方法能够在自然场景下较好的实现对文字的检测,但在处理非水平文本时,该算法则表现出了不太理想的效果。SegLink 正是为了解决这一问题而生出的算法,它可以实现对各种角度文字的灵活检测。
该算法的检测过程主要分为三部分,首先检测生成的各个切片,即上图中的所有黄色框;接着对这些属于同一个文本行的黄色框进行连接;最后再通过合并算法,将这些切片与链接合并为一个完整的文本行,得到完整文本行的检测位置及旋转角度。整个架构采取了 SSD 的思路,在切片检测上,通过「套框」的方式,对结果进行回归。
详细论文参考:
IMDB 影评剧透检测
尽管检测算法有些难度,但本次 AI 研习社(https://god.yanxishe.com/)推出的比赛主要考验的是大家的识别编码能力,赛题将重心落在了判断部分。
本次大赛「IMDB 影评剧透检测」的目标为:正确识别测试集影评是否为包含剧透信息。因此,不必要考虑文字不工整、图像清晰度差等更复杂的问题。
开始时间:2019-12-30 09:00:00
结束时间:2020-01-29 00:00:00
大赛提供了免费云训练 GPU 资源,以及基础奖金池为 2000 元~比赛一共设置了三种奖项,包括了:参与奖(30%)、突破奖(20%)、排名奖(50%),三种奖项互不冲突。
数据集说明
IMDB_movie_details 数据集里,包含 1572 部电影信息,train 和 test 都是影评信息,其中训练集有 473913 条,测试集有 100000 条。测试集、训练集正负样本比例一致。
其中,一些关键字段说明如下:
-
movie_id : 电影 ID
-
user_id: 用户 ID
-
review_id: 影评 ID
-
review_summary: 影评简介
-
review_text: 影评信息
-
is_spoiler: 是否剧透
-
review_data: 评论时间
-
rating : 评分
建议使用 Pandas 读取数据,如下所示:
数据集下载链接:
评审标准
最终提交结果文件如下所示,其中,第一个字段:测试集 review_id,ID 从 0 开始;;第二个字段:评论是否包含剧透信息,0=没有,1=剧透。
整个比赛的评审完全透明化,我们将会对比选手提交的 csv 文件,确认正确识别样本数量,按照如下公式计算得分,其中:
-
True:模型分类正确数量
-
Total :测试集样本总数量
每日 24:00,我们也会将最新结果更新在官网排行榜上。
常见问题 Q&A
1、提交结果无法评分是什么原因?
AI 研习社:请确认 csv 文件格式和预测样本数量。格式要求不能含有引号、冒号、逗号、星号等字符。数量必须与测试集一致。检查完毕还是无法评分的,请联系慕慕。
2、提现迟迟不到账如何处理?
AI 研习社:我们会在 3 个工作日内处理提现申请,后续还要经过财务审核,一般不会超过 7 个工作日到账。提现具体进度可以咨询慕慕。
3、为何 SkyDataLab-AI 云平台使用时长受限或没有权限使用 GPU?
AI 研习社:想享有 SkyDataLab-AI 云平台资源(不限时长、GPU)的使用权限,需通过每个比赛的报名链接进行跳转,即在每个比赛的开始时间和结束时间期间内,均享有该权限,这是天数 SkyDataLab-AI 云平台给 AI 研习社提供的服务。
PS:通过一般注册方式登录平台的用户,只能免费使用 20 小时,且无 GPU 使用权限
4、SkyDataLab-AI 平台上传大数据时,浏览器为何会崩溃?
AI 研习社:正常情况下,大数据不建议通过浏览器上传,因为会导致浏览器内存崩溃。
因此,针对超过 20M 的大数据,可通过如下方式上传:
sftp -P 59999 用户名 @sdl.iluvatar.com.cn
5、SkyDataLab-AI 平台新创建的任务/之前创建的任务在启动时,为何一直显示处于启动状态?
AI 研习社:由于该平台为多名用户提供环境,资源为共享模式。当任务一直处于启动状态时,说明资源紧张,所申请的资源需要排队等待。
PS:以上情况多存在于启动带 GPU 的环境时,由于 GPU 资源有限,且大部分编码时间并不会使用 GPU,因此,建议在编码阶段创建非 GPU 的资源环境,使整个平台资源得到最大利用。
6、SkyDataLab-AI 平台无法解压 zip 文件?
AI 研习社:平台可直接上传 zip 文件并提供解压功能,具体操作如下:
上传 zip 文件:数据管理 –>上传 –>选择本地文件 –>点击需要上传的 zip 文件;
解压 zip 文件:数据管理 –>找到所需解压的 zip 文件 –>点击「操作」列解压图标。
更多信息,可进入参赛主页查看:
雷锋网(公众号:雷锋网) AI 开发者 雷锋网 雷锋网
。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/industrynews/137579.html