大数据开放平台汇总（国内+国外）

2021年7月20日 11:18 • 编程笔记

AI 算法基本是开源的（开放源代码），哪怕并不了解算法原理，也可以调用文字识别、图像识别、人脸识别、语音识别的算法。比如，语音识别：

利用声学信息提高语音的识别率；
利用自然语言中的信息，消除语音的错误，提高文字的识别率。

这样的算法是靠数据喂出来的，信息就是钱……当我们无法收集到他人所没有的信息时，我们的算法再好，也无法很好的消除不确定性。要消除不确定性，就需要不断的寻找新的信息。

可惜我们并没有训练算法的大量数据，这些数据往往掌握在大企业里，如：谷歌/百度有搜索数据，Facebook/腾讯有社交数据，亚马逊/阿里有商业行为数据……

所以，我们在此汇总了一些开放的大数据平台，可以做数据的获取和分析。

1. 世界级大数据开放平台

data.worldbank：世界银行，全球人口、大量经济、发展指标的统计数据。
Google Trends：互联网搜索行为、热门新闻报道。
Google open data：数据极多，此外可视化数据之间的相关性。
imf：国际货币基金（余额宝就是货币基金）组织数据：国际货币基金组织公布的有关国际金融，债务利率，外汇储备，商品价格和投资的大数据。
markets.ft：世界各地的金融市场的最新信息，包括股票价格指数，商品和外汇。
UN comtrade database：全球贸易大数据平台。

2. 国家级大数据平台

stats.gov：中国，包含总人口、财政、GDP、物价上涨指数CPI 等。
data.gov：美国，包含农业、气候、消费、教育、能源、健康、基建等14个主议题。
data.gov.uk：英国，包含商业与经济，环境，测绘，犯罪与司法，政府，社会等。
open.canada.ca：加拿大，提供数据、地图信息、API 等。
verikaynagi.com：土耳其
data.norge.no：挪威
opengovdata.ru：俄罗斯
data.gov.au：澳大利亚
dati.gov.it：意大利

3. 经济/金融大数据平台

Quandl：经济和金融数据，有助于建立预测经济指标或股票价格的模型。
理杏仁：提供A股、B股、港股、美股以及行业、指数等历史估值数据、财报数据、博弈数据。
天天基金网查看基金业绩，规模、持仓、基金经理的基本信息。

4. 机器学习大数据平台

机器学习入门阶段：

Kaggle：竞赛平台，有许多有趣的数据集
UCI机器学习库：很古老了，有货
VisualData：计算机视觉数据集

机器视觉：

谷歌开放图像：开源共享
野外标记面：人脸标记图像
斯坦福狗狗：20580张狗狗的图片、120个不同品种。
室内场景识别：室内类别的图像
MS COCO：计算机视觉数据集
Labelme：大型图像数据集

情绪分析：

Sentiment140：数据来自推文，且去了表情
斯坦福情绪树库：带有情感注释的标准情绪数据集。
IMDB评论：二元情绪分类的电影评论数据集。

自动驾驶：

Berkeley DeepDrive BDD100k：带注释的图像来自纽约和旧金山地区
度娘Apolloscapes：定义了26种不同物体，如汽车、自行车、行人、建筑物、路灯等。
LISA：交通标志、车辆检测、交通信号灯和轨迹模式。

自然语言处理：

HotspotQA：具有自然、多跳问题的问答数据集，具有支持事实的强大监督。
亚马逊评论
维基百科：有400多万篇文章、近19亿个单词，可按段落、短语或段落进行搜索。
Spambase：垃圾邮件过滤数据集

提示：数据的雷区

一般能打起数据官司的，不是侵犯了【隐私】就是【版权】。

如果要做与个人相关的研究，敏感信息要脱敏；如果是传统企业，那么多年，积累下来的数据就是一笔非常宝贵的财富。

可以选择和缺乏数据，但有技术的企业合作，比如美国的 Splunk公司。但是，一定要考虑的是，这份数据的所有权。

中国网络安全法：https://baike.baidu.com/item/中华人民共和国网络安全法/16843044

原创文章，作者：奋斗，如若转载，请注明出处：https://blog.ytso.com/23616.html

go html php Web

赞 (0)

0

机器学习相关术语汇总（附带解析）

上一篇 2021年7月20日

Go语言map的多键索引——多个数值条件可以同时查询

下一篇 2021年7月20日

发表回复

登录后才能评论