大数据
-
pycharm 提示 Unresolved reference 'webdriver'
pycharm + selenium + python 提示 Unresolved reference 'webdriver' 解决办法:在文件中导入selenium 包,from selenium import webdriver 提示报错 Unresolved reference 'webdriver'。就是pycharm 找不到seleni…
-
大数据入门基础:Hadoop简介
1.1.什么是hadoop 1.hadoop是apache旗下的一套开源软件平台,可以通过http://apache.org/--->project- ->hadoop打开 2.Hadoop是开源软件,可靠的、分布式、可伸缩的。 3.Hadoop提供的功…
-
Hive基础sql语法(DDL)
前言: 经过前面的学习 我们了解到Hive可以使用关系型数据库来存储元数据,而且Hive提供了比较完整的SQL功能 ,这篇文章主要介绍Hive基本的sql语法。 首先了解下Hive的数据存储结构,抽象图如下: 1.Database:Hive…
-
Spark学习之第一个程序打包、提交任务到集群
1、免秘钥登录配置: ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys chmod 600 authorized_keys 2、环境工具 2.1环境 系统 urbuntu jdk 1.7.0_79 scala 2.10.4 hadoop 2.6.0 spar…
-
Spark 调优之RDD持久化级别及kryo序列化性能测试
我们上篇文章中讲了,RDD的持久化是spark优化中必须掌握的,并且,在内存不足的情况下,我们可以将持久化类型选择为MEMORY_ONLY_SER,减少内存的占用,持久化更多的partition,并且不同的序列化方法也会影响序列化…
-
当移动数据分析需求遇到Quick BI
我叫洞幺,是一名大型婚恋网站“我在这等你”的资深老员工, 虽然在公司五六年,还在一线搬砖。“我在这等你”成立15年,目前积累注册用户高达2亿多,在我们网站成功牵手的用户达2千多万。目前我们…
-
hadoop shell
1、查看帮助 hadoop fs -help <cmd> 2、上传 hadoop fs -put <linux上文件> <hdfs上的路径> 如:hadoop fs -put test.log / 3、查看文件内容 hadoop fs -cat <hdfs上的路径>…
-
Hadoop学习--seek重定位流--day04
import java.io.ByteArrayOutputStream; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java.net.URL; import org.apache.hadoop.conf.Configuration; im…
-
Maxwell编译
Maxwell简介 Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有E…
-
Se(11)---Alert
package testWd; import org.openqa.selenium.Alert; import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebElement; import org.openqa.selenium.chrome.ChromeD…