一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

雷锋网·AI金融评论按:目前,大多数 ICO 不受政府法规的约束,交易平台或机构缺乏一套严密的评估体系,这也直接导致了 ICO 诈骗事件的层出不穷(注:典型案件可参考《史上最大ICO代投诈骗:带头人“李诗琴”疑跑路,涉案金额超6000万元》了解)。日前,香侬科技创始人、斯坦福大学博士李纪为联合美国加州大学圣塔芭芭拉分校、斯坦福大学共同提出了一种基于深度学习的加密货币 ICO 诈骗鉴别系统——IcoRating,以试图改善这一局面。

据悉,IcoRating系统由李纪为和其团队基于 NLP 技术分析了市面上共 2251 种数字货币而得出。他们调查了这些数字货币的各个方面,包括生命周期、价格 变化和白皮书内容、创始团队、Github 资料库和官网等 ICO 信息,从而预测并实现了识别诈骗 ICO 项目的0.83的精确度。

对此,该团队在论文中表示:

我们希望这项工作能够帮助投资者识别ICO诈骗项目,并自动评估和分析ICO项目。

2017年,902个基于众筹的数字货币中,45.6%已经失败

加密货币正获得前所未有的关注和理解。与中心 化的电子货币和中央银行系统不同,大多数数字法币不受中央和地方机构的监管。对这些去中心化 的系统的控制,可通过一个开放、持续增长的分布式账本——区块链来实现。

如图1所示,在过去 三年中,数字货币的市 场资本化程度得到了巨幅的提升。根据 Cryptocurrency Market Capitalizations  提供的数据,加密货币的单日最高交易量已接近2017年纽约证券交易所交易量的日平均值。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

图:2013年7月至2018年1月的数字货币市场资本化情况

由于其去中心化的本质,数字货币的众筹融资并不需要具备风险投资的所有必要条件,而是通过 ICO 来完成。ICO,也称为首 次代币发售,是用区块链将使用权和加密货币合二为一,来为开发、维护、交换相关产品或者服务的项目进行融资的方式(注:参考“ICO”的维基百科)

在 ICO 中,投资者用法 定货币(例如美元、人民币)或其他加密货币(例如BTC、ETH)来获得众筹的加密货币。当 ICO 完 成后,这些用于众筹的加密货币将具备货币的功能单位。新型币种在发行前,一般会先准备一个白皮书,以详细 介绍这个币种的商业性、技术性和金融性特征。

从图2可以看出,ICO 项目的数量 从2013年7月到2017年1月一直呈现稳 步增长的 态势,并在 2017 年突飞猛进。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

图:2013年7月至2018年1月的ICO项目增长情况

尽管 ICO 能提供公平合法的投资机会,但众筹的便利也为一些不择手段的企业通过 ICO 谋利创造了机会和激励机制。群涌而起的 ICO,其中不乏一些项目发 起人以通过众 筹抬高加密货币的价值,从而快速出售货币以获利。除此之外,加密货币的去中心化本 质也给政府监管带来了重大挑战。

根据Engadget数据显示,2017年,902个基于众筹的数字货币中,45.6%已经失败。从图3和图4来看,还有一个更为严重的问题。

图3和图4中,x轴上的间隔代表(ICO)价格的变 化范围,而y轴上的对应值 则表示 ICO 项目贡献的百分比。可以看出:

  • 4.56% 现有 ICO 项目在发行半年后都遭受了价格下跌,其程 度甚至超过 99.9%,而在发行一年后,这个比例上升到6.89%;

  • 约有 29% 的项目在发行半年后,价格下跌了80%以上,一年 后,这个比例增长到惊人的 39.6%。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

虽然这样说可能有点不负责任——即每一个在发行后价格急剧下跌的 ICO 项目都是骗局,但在 ICO 前建立一个可靠的 ICO 信用评级系统来评估数字货币是必要而迫切的。

在这种情况下,李纪 为研究团 队提出了 IcoRating 这种基于机器学习的 ICO 评分系统。通过分析 2251 个 ICO 项目,该团队 将数字货币 的生命周期 和价格变化以 及各种 级别的 ICO 信息(包括其白皮书、创始团队、Github 资料库、网站等)相 关联。在最佳设置 的情况下,该项目 能够以0.83的精确度和0.80的F1分数来识别ICO诈骗项目。

与人类设计的评分系统相比,IcoRating 系统具有两个关键优势:

  • 客观性:机器学习模型涉及的先验知识更少,可从数据中学习因果关系,这与需要大量人类专家的人类评级系统相反,而人 类专家不可避免会引入偏见。

  • 不会被人为随意篡改:信用评级的结果是通过黑盒培训从机器学习模型中输出的。这个过程不用那么多的人员参与和干预。

加密货币、区块链和ICO

在李纪为这篇论文的 第二个章节中,主要介绍了加密货币、区块链和 ICO 的相关信息。如果密切关注币圈和链圈的人士可能对这三个概念已谙熟于心。

1、加密货币

加密货币是“一种数字资产”,被视作交易媒介,通过加密技术以确保交易。大多数加密货币是去中心化的。第一个真正意义上的去中心化加密货币是比特币(也称BTC),由一个或一群不明身份的人在 2009 年以 Satoshi Nakamoto(中本聪)之名创建。自 BTC 出现以后,各种加密货币蜂拥而至,其中最知名的包括 Ethereum(简称ETH)、Ripple(简称RIP)、EOS 和 NEO。

2、区块链

加密货币的交易由区块链提供验证。人们可以将区块链视为分布式账本。它可以不断增长并永久纪录双方之间的所有交易。每条纪录都称为一个区块,包含链接到前一个区块、时间戳和交易数据的加密哈希指数。该账本以分布形式被所有参与者拥有,且记录只能在改变所有后续网络区块的情况下得到更改。当交易发生时,会广播给网络中的所有节点。区块链使用多种时间戳方案,如 PoW(工作证明)或 PoS(股权证明)。

区块链的概念消除了数据集中存储而带来的风险:没有集中的故障点,数据对每个参与者都是透明的。

3、ICO

如前所述,ICO 是以加密货币为中心的众筹融资手段,其可为早期项目提供众筹机会,逃避风险投资家、银行和证券交易所规则的限制。它们还提供了超越风险投资或私募股权投资的投资机会,二者是早期投资机会的主导。

另一方面,由于缺乏监管,ICO 给投资者带来了重大风险。不同国家对 ICO 和加密货币有不同的规定。例如,中国政府禁止所有 ICO,而美国证监会(SEC)则表示它有权对 ICO 施行联邦证券法,而委内瑞拉政府则推出了自己的加密货币petromoneda(简称石油币)。

IcoRating系统验证过程、方法

1、白皮书分析:内容差异巨大

在 IcoRating 系统的验证过程中,该研究团队从各种平台包括 CryptoCompare、CoinMarketCap和CoinCheckup一共收集了2251个 ICO 项目信息。并在这些项目中获得了 1317 份白皮书。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

表1:ICO白皮书的各项统计数据

如表1所示,其显示了 ICO 白皮书的各项统计数据,包括平均值、标准差,最大和最小字数和句子数。研究团队从中得出一个显著特征 ,白皮书的长度差异明显。最多的一份白皮书中包含 6228 个句子,最少 38 个。具体地说,随机抽样的 10 份白皮书中的句子数量分别为886、143、38、967、3379、6228、496、2057、3075 和 298。虽然白皮书的篇幅不一定能反映 ICO 项目的质量,但从中也能看出 ICO 白皮书内容的巨大差异。

李纪为研究团队在收集而来的 白皮书上运行了一个隐含狄利克雷分布(Latent Dirichlet Allocation:简称LDA)模型。LDA 是一种生成 性的统计模型,可以将文档集中每篇文档的主题并以概率分布的形式给出,从而通过分析一些文档抽 取出它们的主题(分布),便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。

2、IcoRating:一个基于机器学习的评级模型

在描述创始团队信息时,研究团队的数据以下述信息为蓝本:

Justin Sun,生于1990年,本科毕业于北京大学,硕士 毕业于宾夕法尼亚大学,是移动社交应用陪我和 TRON 的创始人兼 CEO,Ripple 大中华区的前首席代表。获 2011 年亚洲周刊封面人物;2014年达沃斯全 球杰出青年;2015年 CNTV 年度新人物;2017年福布斯亚洲 Under30 企业家…

研究人员的目标是自 动从创始团队成员中提取 最重要的特征,并将其视为 NLP 标签问题。为此,他们定义 了5类标签:出生年份、大学、学位、公司和所获奖项,并将数据集分为不同种类进行培训、开发和测试。

IcoRating 对 ICO 项目使用的知识非常少,但却能够从真实世界中收集的数据集中学习到各个功能的重要性。

如前所述,IcoRating 是一个基于机器学习的评级模型。它使用的是 监督学习模型。在标准监督学习设置中,研究人员希望找到模型 F,可使输入 x 映射至输出 y:

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

这个公式中,输入“x”代表“一个 ICO 项目”,其中包括公开可 用信息的不用方面;输出“y",该值介于0到1之间,是一个二进制 变量,用于 指示该 ICO 项目是否为 诈骗项目;“F”代表预测函数。

在训练期间,我们将 ICO 项 目一年的价 格变化作为训练的信号,试图通过已知的 ICO 信息来预测其价格变化。预测函数 F 由最大化预测 ICO 价格变化和黄金标准价格变化之间的L2差异来学习。

其中,在收集到的 2251 个项目中,研究人员收集了 1482 个项目的历史价格,且这些 ICO 项目至少实行了一年及以上(截止到本研究进行时)。

在测试期间,F(x)可预测 价格变化,如果预测价格低于其 ICO 价格的“m”值,则可认为该项目为诈骗。在本次研究中,研究人员根 据要求将“m”设置为 0.01、0.1和1。

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

IcoRating测试结果

一秒鉴别ICO诈骗丨2251个项目,研究人员提出深度学习ICO信用评级系统

测试结果通过不同的特征组 合来识别 ICO 诈骗项目的结果,这些组合由白皮书、Github 资料库、创始团队、网站这四个特征任意组合而呈。

随着 “m” 值从0.01增加到0.1,再增加到1,诈骗项目的比例逐渐增加,精度逐渐提高,召回率也在逐渐降低。

最终测试结果显示,白皮书 和 Github 资料库是最 重要的两 类特征。在 “m” 被设置为0.1和0.5时,其获得的 F1 分数均为0.7。通过增加更多的特征,研究人员得到了更高的精确度和更低的召回率。当将所有特征组合考虑进去时,IcoRating 模型在“m值被设置为1”时,其预测的 ICO 诈骗项目 实现了0.83的精确度、0.77 的召回率和 0.80 的 F1 分数。

雷锋网·AI金融评论注:该篇论文来自于https://arxiv.org/pdf/1803.03670.pdf,雷锋网·AI金融评论对其进行重点编译。

——————全文完——————

【今日福利】

比特币等虚拟货 币的波动性总是出乎 人意料,资本和人心难以捉摸,但价格的另一 影响因素却朴素得多——技术和应用 价值。这也是2017年区块链行业的关键词。过去的一年,在众多大小公司涌入区块链,POC 项目和 代币遍地开花的同时,也有一些先行者呼吁,“不要为了区块链而区块链”。

技术的发展 永无止境,在这条探索的道路上,我们看到的不只是尸骨,还有正在建造的座座丰碑。2017年,雷锋网(公众号:雷锋网)曾与数十家区块链行业传统企业、新创公司进 行对话,并报道。现在我们选取了其中8家代表性机构的实践 案例,包括工商银行、招商银行、平安集团、银联、蚂蚁金服等,汇编成特辑报告。除此外,还有20+智能金融公司案例,涵盖普惠金融、风控信贷、财富管理等议题。

以下为特辑部分目录:

  ● 世界经济论坛报告:全方位评估 Fintech 将如何颠覆金融业竞争格局,包括路径、模式和终局

  ● 前瑞银大牛:区块链如何变革传统金融两大应用模式?

  ● 区块链+金融,带你直击实践应用中的需求和痛点

  ● 比特币、以太坊、区块链、代币、ICO,你需要知道的一切都在这了

….

戳这里( https://www.leiphone.com/specialEdition/detail/s/5a4c9564b9e38),查看雷锋网 Fintech 年度特辑全文。

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/81459.html

(0)
上一篇 2021年8月12日 11:06
下一篇 2021年8月12日 11:07

相关推荐

发表回复

登录后才能评论