大数据

  • hadoop的文件操作命令

    hadoop文件上传 sudo -u hdfs hadoop fs -put 20171204 / 查看文件hadoop fs -ls / 进入hadoop配置文件,查看 vi /etc/hadoop/conf/hdfs-site.xml 找到hdfs的路径 dfs/nn进入路径cd /dfs/nn 查看name的文件信息 ls

    大数据 2021年11月15日
  • VS code for python开发利器

    转发+点赞=支持 引言 最近在整理python自动化测试课程的内容,发现了微软出的vs code编辑器太牛逼了,非常好用,而且轻量的不要不要的,特此记录下,有选择纠结症的朋友我强烈推荐使用ta。 PS:兼容win10且兼容高分…

    大数据 2021年11月15日
  • 大数据时代,如果你想进入大数据领域,还有哪些大数据技术是你不懂的

    一、作为大数据架构师,需要知道企业为什么要构建数据结构? 数据结构主要有以下内容: 1)数据标准不一致 2)数据模型管理混乱 3)深入的性能的问题无法解决 4)SQL语句编写水平不高导致出现严重性能问题 5)开发…

    大数据 2021年11月15日
  • “Head First 设计模式“ :模板方法模式

    模板方法模式 定义:模板方法模式在一个方法中定义一个算法的骨架,而将一些步骤延迟到子类中。模板方法使得子类可以在不改变算法结构的情况下,重新定义算法中的某些步骤。模板方法就是一个固定步骤的“算法”骨架方…

    大数据 2021年11月15日
  • 一、flink--架构、运行、调度原理

    一、flink概述 1.1 流处理技术语义 At most once(最多一次):每条数据记录最多被处理一次,潜台词也表明数据会有丢失(没被处理掉)的可能。 At least once(最少一次):每条数据记录至少被处理一次。这个比上一…

    大数据 2021年11月15日
  • 所有数学课程成绩 大于 语文课程成绩的学生的学号

    所有数学课程成绩 大于 语文课程成绩的学生的学号 CREATE TABLE course (id int,sid int ,course string,score int ) ; // 插入数据// 字段解释:id, 学号, 课程, 成绩INSERT INTO course VALUES (1, 1, 'yuwen',…

    大数据 2021年11月15日
  • 你懂集群monitoring么?(一)—— IDC机房有关技术指标获取

    背景:公司自建IDC机房,基于IDC机房构建大数据集群;需要对集群资源进行监控,集群采用的是CDH集群,采集主要分两块进行: HDFS和YARN相关的指标进行采集IDC机器自身的指标进行采集 注意: 也许有人会有疑惑,CM界…

    大数据 2021年11月15日
  • Hadoop学习之第一章节:Hadoop配置安装

    一、配置虚拟机三台 1.网络配置 虚拟化软件: Vmware Workstations  10.7z Linux系统:  Centos 6.5-x86_64 采用4台安装Linux环境的机器来构建一个小规模的分布式集群。   集群机器详细信息 1.虚拟…

    大数据 2021年11月15日
  • Apache Beam官方文档

    1.   概述 为了使用Beam,首先必须使用Beam SDKs其中一个SDK里面的类创建一个驱动程序。驱动程序定义了管道,包括所有的输入,转换以及输出。它还为您的管道设置了执行选项(通常使用命令行选项传递)。…

    大数据 2021年11月15日
  • 《从Lucene到Elasticsearch:全文检索实战》学习笔记五

    今天我给大家讲讲tf-idf权重计算 tf-idf权重计算:        tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度。词项的重要性随着它在文档中出现的次数成正比,会随着它在文…

    大数据 2021年11月15日