数据采集
-
机器学习之特征归一化(normalization)详解大数据
参考自斯坦福机器学习课程 一 引子 对房屋售价进行预测时,我们的特征仅有房屋面积一项,但是,在实际生活中,卧室数目也一定程度上影响了房屋售价。下面,我们有这样一组训练样本: 房屋面…
-
机器学习之特征工程(二)详解大数据
本节主要介绍数据和特征处理。 https://github.com/liuleigit/ML_tutorial 一 特征处理 (1)数值型 …
-
新闻内容去重算法simhash实践详解大数据
前言 最近做了新闻去重算法的工作,mark下 两个应用场景:1. 重复新闻整体检测、去重 2. 从非重复的新闻…
-
正则化方法:L1和L2 regularization及区别、数据集扩增、dropout详解大数据
参考 http://blog.csdn.net/u012162613/article/details/44261657 &nbs…
-
从sklearn.preprocessing, sklearn.feature_selection学习特征工程之预处理详解大数据
特征工程思维导图如下图。 本文借助sklearn介绍其中的预处理部分 二 单特征预处理 <1> 标准化  …
-
阿里云HPC升级 tensorfow 1.0之cuda、cudnn、glibc、libcxx详解大数据
昨天开始升级hpc的tensorflow,中间踩了个大坑。到现在才弄顺,mark一下。 gpu版的tf,可以在github上下载,然后按照教程使用pip安装。但需要更新很多系统包 …
-
linux redhat7 升级NVIDIA显卡驱动步骤详解大数据
1 背景 前面在redhat7服务器上升级了tensorflow1.0,发现GPU用不了 根据教程,测试GPU: # 新建一个 graph. import tensorflow a…
-
python format 在sql中对 string 和 int 类型的变化详解大数据
今天在使用format拼sql语句时遇到一下问题: 其中数据库中first_16字段是text类型 >>> s = ‘12345’ >>> q0…
-
python Manager对象增加进程详解大数据
问题:启动一个python进程,ps发现还有多个额外进程 说明: 一个multiprocessing.Manager对象会控制一个服务器进程,其他进程可以通过代理的方式来访问这个服…
-
pandas DataFrame操作详解大数据
pandas 处理格式化数据的利器。 本文会不断更新 1. DataFram 1.1 使用字典构造 >>> import pandas as pd >>…