大数据
-
基于SpringMVC、Maven以及Mybatis的环境搭建 【转】
搭建环境 1、IDE用的是Eclipse的J2EE版本,要保证装上了Maven,可以使用Eclipse的Install New Software来安装然后点击Next,安装好后重启一次。注意:使用最新版的Eclipse时,可以跳过此步,因为最新版的Eclipse已…
-
hadoop生态的大体介绍
重点组件:HDFS:Hadoop 的分布式文件存储系统MapReduce:Hadoop 的分布式程序运算框架,也可以叫做一种编程模型Hive:基于 Hadoop 的类 SQL 数据仓库工具HBase:基于 Hadoop 的列式分布式 NoSQL 数据库ZooKeeper:…
-
Hadoop2.6.0学习笔记(二)MapReduce通过Eclipse运行
欢迎访问:鲁春利的工作笔记,学习是一种信仰,让时间考验坚持的力量。 系统:Win7 64位 JEE版本的Eclipse:Luna Release (4.4.0) Hadoop:2.6.0 Hadoop-plugin:hadoop-eclipse-plugin-2.2.0.jar 0、写在前面 工作…
-
大数据处理之流式计算简介
简介 Strom是一个开源的分布式流式计算系统,用来处理流式的数据,被称作为流式的hadoop,在电信行业,可以用来做大流量预警、终端营销、访问竞争对手产品从而做挽留等业务。本文将从storm在hadoop生态圈中所处位置…
-
Flask send_from_director 抛异常
最近在做某厂产品开发时调用到了Flask里的send_from_directory接口,调用方法如下:send_from_directory(dirpath, filename, as_attachment = false)运行起来结果却并未达到预期,在执行到这里是抛出了异常。解决过…
-
在pandas的unstack时报ValueError: duplicate entries 错误
pandas是python中用于数据分析和处理的一个基于numpy的基本库工具,是从事python语言数据领域的一个基本入门工具,常见用途有:a提供高级的数据结构和相当丰富的数据操作APIb提高了对复杂矩阵运算的效率(这里的矩…
-
创建HDFS的FileSystem对象的小心得
FileSystem fs = FiileSystem.get(new URI("hdfs://hadoop1:9000"),new Configuration() ); 以这种方式可以创建fs对象,但缺点时,使用了空白的Configuration对象,实际上只授予了fs.default.name这个属性,当访问…
-
从Hive导入数据到ES
大数据方兴未艾,Hive在业界,是大数据的标配了。因此hive数据添加到ES的应用场景还是比较常见的。学习ES官方的es-hadoop, 有从hive导数据到ES. 实验可行。hive的版本: hive-1.1.0-cdh6.9.0 具体的步骤如下:step1…
-
Elasticsearch集群
1、两台机分别安装好Elasticsearch 其中为192.168.1.110,设为master节点,elasticsearch.yml配置如下 cluster.name: my-application node.name: node-111 network.host: 192.168.1.110 http.port:&n…
-
记一次Grpc接口压力测试&性能调优
〇、经验总结: 如果在压测过程中,压力始终上不去,可以考虑是施压机器并发上不去,或者被压机器请求处理不过来。 施压上不去或者被压机器请求处理不过来,是因为机器CPU瓶颈?内存瓶颈?端口数量瓶颈?逐步排查定…