数据分析
-
SparkMlib实现线性回归详解大数据
关于线性回归的原理请参考Coursera上斯坦福大学Andrew Ng教授的“机器学习公开课” 下面直接到sparkMlib实现线性回归,spark源码下有两个关于机器学习的包,一…
-
sparkMlib逻辑回归分析实现详解大数据
参考 Coursera上斯坦福大学Andrew Ng教授的“机器学习公开课”: 逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻…
-
sparkmlib使用Pipeline实现简单的逻辑回归详解大数据
MLib 机器学习算法的标准API可以很方便的把多个算法整合到一个pipeline中,并可以把整个过程形象的比如机器学习算法流; Pipeline包括三个阶段: 第一阶段:Toke…
-
sparkMlib实现协同过滤算法详解大数据
协同过滤常被应用于推荐系统。这些技术旨在补充用户-商品关联矩阵中所缺失的部分。MLlib当前支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预…
-
优化程序性能详解大数据
编写高效的程序需要以下活动: 1:选择合适的算法和数据结构—算法优化 2:必须编写出编译器能够有效优化及转化成高效执…
-
存储器层次结构详解大数据
存储器系统: 一个具有不同容量,成本和访问时间的存储设备层次结构;CPU寄存器保存着最常用的数…
-
链接详解大数据
链接 是将各种代码和数据部分收集起来并组合成一个单一可执行文件的过程,这个文件可被加载到存储器并执行、链接可以在编译时(源代码被翻译成机器代码时候)、加载时执行,也可以在程序被加载…
-
虚拟存储器详解大数据
虚拟存储器 一个系统中的进程是与其他进程共享CPU和主存资源的,然而,共享主存会形成一些特殊的情况,如果太多的进程需要太多的储存器,那么他们中的一些就根本…
-
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件详解大数据
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最…
-
机器学习之 损失函数和风险函数详解大数据
损失函数 监督学习问题是在假设的空间F中选取模型 f 作为决策函数,对于给定的输入 X,由 f(x) 给定输出Y, 这个输出的预测…