数据中台

  • sparkmlib使用Pipeline实现简单的逻辑回归详解大数据

    MLib 机器学习算法的标准API可以很方便的把多个算法整合到一个pipeline中,并可以把整个过程形象的比如机器学习算法流; Pipeline包括三个阶段: 第一阶段:Toke…

    大数据 2021年7月19日
  • sparkMlib实现协同过滤算法详解大数据

    协同过滤常被应用于推荐系统。这些技术旨在补充用户-商品关联矩阵中所缺失的部分。MLlib当前支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预…

    大数据 2021年7月19日
  • 优化程序性能详解大数据

    编写高效的程序需要以下活动:    1:选择合适的算法和数据结构—算法优化    2:必须编写出编译器能够有效优化及转化成高效执…

    大数据 2021年7月19日
  • 存储器层次结构详解大数据

    存储器系统:         一个具有不同容量,成本和访问时间的存储设备层次结构;CPU寄存器保存着最常用的数…

    大数据 2021年7月19日
  • 链接详解大数据

    链接 是将各种代码和数据部分收集起来并组合成一个单一可执行文件的过程,这个文件可被加载到存储器并执行、链接可以在编译时(源代码被翻译成机器代码时候)、加载时执行,也可以在程序被加载…

    大数据 2021年7月19日
  • 虚拟存储器详解大数据

    虚拟存储器    一个系统中的进程是与其他进程共享CPU和主存资源的,然而,共享主存会形成一些特殊的情况,如果太多的进程需要太多的储存器,那么他们中的一些就根本…

    大数据 2021年7月19日
  • 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件详解大数据

    在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最…

    大数据 2021年7月19日
  • 机器学习之 损失函数和风险函数详解大数据

    损失函数      监督学习问题是在假设的空间F中选取模型 f 作为决策函数,对于给定的输入 X,由 f(x) 给定输出Y, 这个输出的预测…

    大数据 2021年7月19日
  • sqoop从greenplum到数据到hive中详解大数据

    关于sqoop原理详见官文,这里都不做介绍,此处就记录用sqoop把greenplum数据导到hive中的方法和我测试时候遇到的问题; 一:sqoop的解压安装后,配置sqoop-…

    大数据 2021年7月19日
  • svm算法 最通俗易懂讲解详解大数据

      最近在学习svm算法,借此文章记录自己的学习过程,在学习很多处借鉴了z老师的讲义和李航的统计,若有不足的地方,请海涵;svm算法通俗的理解在二维上,就是找一分割线把两…

    大数据 2021年7月19日