AI 算法基本是开源的(开放源代码),哪怕并不了解算法原理,也可以调用文字识别、图像识别、人脸识别、语音识别的算法。比如,语音识别:
- 利用声学信息提高语音的识别率;
- 利用自然语言中的信息,消除语音的错误,提高文字的识别率。
这样的算法是靠数据喂出来的,信息就是钱……当我们无法收集到他人所没有的信息时,我们的算法再好,也无法很好的消除不确定性。要消除不确定性,就需要不断的寻找新的信息。
可惜我们并没有训练算法的大量数据,这些数据往往掌握在大企业里,如:谷歌/百度有搜索数据,Facebook/腾讯有社交数据,亚马逊/阿里有商业行为数据……
所以,我们在此汇总了一些开放的大数据平台, 可以做数据的获取和分析。
1. 世界级大数据开放平台
- data.worldbank:世界银行,全球人口、大量经济、发展指标的统计数据。
- Google Trends:互联网搜索行为、热门新闻报道。
- Google open data:数据极多,此外可视化数据之间的相关性。
- imf:国际货币基金(余额宝就是货币基金)组织数据:国际货币基金组织公布的有关国际金融,债务利率,外汇储备,商品价格和投资的大数据。
- markets.ft:世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
- UN comtrade database:全球贸易大数据平台。
2. 国家级大数据平台
- stats.gov:中国,包含 总人口、财政、GDP、物价上涨指数CPI 等。
- data.gov:美国,包含 农业、气候、消费、教育、能源、健康、基建 等14个主议题。
- data.gov.uk:英国,包含 商业与经济,环境,测绘,犯罪与司法,政府,社会 等。
- open.canada.ca:加拿大,提供 数据、地图信息、API 等。
- verikaynagi.com:土耳其
- data.norge.no:挪威
- opengovdata.ru:俄罗斯
- data.gov.au:澳大利亚
- dati.gov.it:意大利
3. 经济/金融大数据平台
Quandl:经济和金融数据,有助于建立预测经济指标或股票价格的模型。
理杏仁:提供A股、B股、港股、美股以及行业、指数等历史估值数据、财报数据、博弈数据。
天天基金网 查看基金业绩,规模、持仓、基金经理的基本信息。
4. 机器学习大数据平台
机器学习入门阶段:
- Kaggle:竞赛平台,有许多有趣的数据集
- UCI机器学习库:很古老了,有货
- VisualData:计算机视觉数据集
机器视觉:
- 谷歌开放图像:开源共享
- 野外标记面:人脸标记图像
- 斯坦福狗狗:20580张狗狗的图片、120个不同品种。
- 室内场景识别:室内类别的图像
- MS COCO:计算机视觉数据集
- Labelme:大型图像数据集
情绪分析:
- Sentiment140:数据来自推文,且去了表情
- 斯坦福情绪树库:带有情感注释的标准情绪数据集。
- IMDB评论:二元情绪分类的电影评论数据集。
自动驾驶:
- Berkeley DeepDrive BDD100k:带注释的图像来自纽约和旧金山地区
- 度娘Apolloscapes:定义了26种不同物体,如汽车、自行车、行人、建筑物、路灯等。
- LISA:交通标志、车辆检测、交通信号灯和轨迹模式。
自然语言处理:
- HotspotQA:具有自然、多跳问题的问答数据集,具有支持事实的强大监督。
- 亚马逊评论
- 维基百科:有400多万篇文章、近19亿个单词,可按段落、短语或段落进行搜索。
- Spambase:垃圾邮件过滤数据集
提示:数据的雷区
一般能打起数据官司的,不是侵犯了【隐私】就是【版权】。
如果要做与个人相关的研究,敏感信息要脱敏;如果是传统企业,那么多年,积累下来的数据就是一笔非常宝贵的财富。
可以选择和缺乏数据,但有技术的企业合作,比如美国的 Splunk公司。但是,一定要考虑的是,这份数据的所有权。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/23616.html