CentOS7.5之MongoDB4.0安装与CRUD基本操作详解大数据

一 MongoDB简介

  • MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
  • MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
  • MongoDB中的记录是一个文档,它是由字段和值对组成的数据结构。MongoDB文档类似于JSON对象。字段的值可以包括其他文档,数组和文档数组。

二 MongoDB下载安装

2.1 下载地址:

      https://www.mongodb.com/download-center?jmp=nav#community

  • MongoDB的版本偶数版本为稳定版,奇数版本为开发版。
  • MongoDB对于32位系统支持不佳,所以3.2版本以后没有再对32位系统的支持。

CentOS7.5之MongoDB4.0安装与CRUD基本操作详解大数据

2.2 下载安装

下载完安装包,并解压 tgz(以下演示的是 64 位 Linux上的安装) 。

curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.0.0.tgz    # 下载 
tar -zxvf mongodb-linux-x86_64-rhel70-4.0.0.tgz                                   # 解压 
mv  mongodb-linux-x86_64-rhel70-4.0.0 /usr/local/mongodb                          # 将解压包拷贝到指定目录

 MongoDB 的可执行文件位于 bin 目录下,所以可以将其添加到 PATH 路径中:

export PATH=<mongodb-install-directory>/bin:$PATH

<mongodb-install-directory> 为你 MongoDB 的安装路径。如本文的 /usr/local/mongodb 。

2.3 bin目录结构

bsondump: binary-json,二进制文件,选择性导出bson文件

mongo: 客户端

mongod: 服务端

mongodump: 整体导出数据库(二进制)

mongoexport:导出易识别的json文档

mongoimport:导入json文档

mongorestore:数据库整体导入

mongos 路由器(分片)

2.4 创建数据库目录

MongoDB的数据存储在data目录的db目录下,但是这个目录在安装过程不会自动创建,所以你需要手动创建data目录,并在data目录中创建db目录。

以下实例中我们将data目录创建于MongoDB安装目录下。

注意:/data/db 是 MongoDB 默认的启动的数据库路径(–dbpath)。

[[email protected] mongodb]$  mkdir -p data 
[[email protected] mongodb]$  mkdir -p log/mongodb.log

2.5 运行 MongoDB 服务

你可以再命令行中执行mongo安装目录中的bin目录执行mongod命令来启动mongdb服务。     注意:如果你的数据库目录不是/data/db,可以通过 –dbpath 来指定。

[[email protected] mongodb]$ ./bin/mongod --dbpath ./data/  --logpath ./log/mongodb.log --port 27017 --fork

参数解释:       dbpath 数据存储目录           logpath 日志存储文件          port 运行端口(默认27017)          fork 后台静默运行

查看MongoDB运行进程

[[email protected] mongodb]# ps aux |grep mongod

2.6 后台管理 Shell

如果你需要进入MongoDB后台管理,你需要先打开mongodb装目录的下的bin目录,然后执行mongo命令文件。MongoDB Shell是MongoDB自带的交互式Javascript shell,用来对MongoDB进行操作和管理的交互式环境。当你进入mongoDB后台后,它默认会链接到 test 文档(数据库):   $ cd /usr/local/mongodb


[[email protected] mongodb]# ./bin/mongo 
MongoDB shell version v4.0.0 
connecting to: mongodb://127.0.0.1:27017 
MongoDB server version: 4.0.0 
Welcome to the MongoDB shell.
...

2.7 基本概念解释

MongoDB术语/概念

解释/说明

database

数据库

collection

数据库表/集合

document

数据记录行/文档

field

数据字段/域

index

索引

primary key

主键,MongoDB自动将_id字段设置为主键

2.8 Shell help 帮助解释

参数

说明

–help –h

返回基本帮助和用法文本

–version

返回MongoDB的版本

–config<文件名> -f<文件名>

指定包含运行时配置的配置文件

–verbose -v

增加发送到控制台日志的数量

–quiet

减少发送到控制台日志的数量

–port<端口>

指定mongod的端口,默认27017

–bind_ip<端口>

指定id地址

–maxConns<编号>

指定链接的最大数

–logpath<路径>

指定日志文件的路径

–auth

启用远程主机的身份验证

–dbpath<路径>

指定数据库实例的路径

–nohttpinterface

禁用HTTP接口

–nojournal

禁用日志

–noprealloc

禁止预分配数据文件

–repair

在所有数据库上运行修复程序

 

2.9 MongoDB 数据类型

下表为MongoDB中常用的几种数据类型。

数据类型 描述
String 字符串。存储数据常用的数据类型。在 MongoDB 中,UTF-8 编码的字符串才是合法的。
Integer 整型数值。用于存储数值。根据你所采用的服务器,可分为 32 位或 64 位。
Boolean 布尔值。用于存储布尔值(真/假)。
Double 双精度浮点值。用于存储浮点值。
Min/Max keys 将一个值与 BSON(二进制的 JSON)元素的最低值和最高值相对比。
Array 用于将数组或列表或多个值存储为一个键。
Timestamp 时间戳。记录文档修改或添加的具体时间。
Object 用于内嵌文档。
Null 用于创建空值。
Symbol 符号。该数据类型基本上等同于字符串类型,但不同的是,它一般用于采用特殊符号类型的语言。
Date 日期时间。用 UNIX 时间格式来存储当前日期或时间。你可以指定自己的日期时间:创建 Date 对象,传入年月日信息。
Object ID 对象 ID。用于创建文档的 ID。
Binary Data 二进制数据。用于存储二进制数据。
Code 代码类型。用于在文档中存储 JavaScript 代码。
Regular expression 正则表达式类型。用于存储正则表达式。


ObjectId
类似唯一主键,可以很快的去生成和排序,包含 12 bytes,含义是:

  • 前 4 个字节表示创建 unix时间戳,格林尼治时间 UTC 时间,比北京时间早了 8 个小时
  • 接下来的 3 个字节是机器标识码
  • 紧接的两个字节由进程 id 组成 PID
  • 最后三个字节是随机数

CentOS7.5之MongoDB4.0安装与CRUD基本操作详解大数据

MongoDB 中存储的文档必须有一个 _id 键。这个键的值可以是任何类型的,默认是个 ObjectId 对象

由于 ObjectId 中保存了创建的时间戳,所以你不需要为你的文档保存时间戳字段,你可以通过 getTimestamp 函数来获取文档的创建时间:

> var newObject = ObjectId() > newObject.getTimestamp() ISODate("2018-07-05T07:21:10Z")

ObjectId 转为字符串

> newObject.str 
5a1919e63df83ce79df8b38f

三 Mongodb入门命令

3.1 基本查看命令

show dbs 查看当前的数据库 
use databaseName 选库 
show tables/collections 查看当前库下的collection

3.2 库和集合的操作

db    查看当前所处的数据库,在mongodb中,库是隐式创建,你可以use 一个不存在的库, 然后在该库下创建collection,即可创建库

db.dropDatabase();    删除database,把当前所用的库给删除了即使里面有数据也会删除

db.createCollection(‘collectionName’),  创建collection,collection也是允许隐式创建的

db.collectionName.insert(document); 在集合(表)中插入具体数据的时候会自动创建

db.collectionName.drop() ,   删除collection

测试隐式创建:往不存在的students表中插入数据

> show dbs 
admin 0.000GB 
config 0.000GB 
local 0.000GB 
> use admin 
 switched to db admin 
> db.students.insert({name:'zhangsan',age:'20'}) 
WriteResult({ "nInserted" : 1 }) 
> show tables 
students

删除当前库里的students表

> db. students. drop()  
true

 Mongodb基本增删改查

4.1 增加数据

mongodb存储的是文档,文档是json格式的对象,我们向数据库存储数据的时候可以使用insert方法,数据格式要以js对象格式进行存储:

语法db.collectionName.insert(document);

db.students.insert({name:'zhangsan',age:'20'})   向当前students表里插入数据

我们可以以多种方法对文档进行存储:

4.1.2 增加单篇文档 

语法:db.collectionName.insert({title:”nice  day”});

4.1.3 增加单个文档,并且指定_id

语法:db.collectionName.insert({_id:8,age:78,name:”lisi”});

_id 是我们在插入数据的时候,mongodb自动给文档添加的一个属性,如果我们不需要系统分配_id ,可以在添加数据的时候手动设置,覆盖原有_id ,虽然_id 的类型可以自由指定,但是在同一个集合当中必须唯一,如果插入重复的值,系统会抛出异常.

这个_id 的名称是固定的,它可以是Mongodb支持的任何数据类型,默认是ObjectId,在关系型数据库中,主键通常是数值型的,并且可以设置自增,而Mongodb的主键,原生不支持自增主键.

4.1.4 增加多个文档 

db.students.insert( [{time:'friday',value:'mongodb'},{_id:1,gender:'male',name:'QQ'}])

可以以数组的方式,一次性向集合插入多个数据;  同时应该注意的是,由于mongodb采用的是JavaScript  Shell,所以我们可以根据js特性,将文档作为值赋给变量然后进行操作:

j = {name : 'isi'}; 
t = {name : 'wangwu’}; db.students.insert([j,t]);

4.1.5 save和insert的区别

save和insert都可以进行数据的插入和增加,但是也有一些异同:

对于已存在数据_id:1,  “name”:”n1″ },再次进行插入操作时,insert({_id  :  1,  “name”  :”n2″}) 会报主键重复的错误提示 save({  _id:1,  ”  name  “:”n2”}) 会把n1修改为n2 

相同点:若新增的数据中没有主键时,会增加一条记录。

不同点:主键冲突时:insert 会报错,save会自增_i d 主键插入

4.2 查询操作

4.2.1 find()

无条件的普通查询方式很简单,可以直接使用

db.collectionName.find();一次可以查出指定集合中的所有数据 

for(var i = 1;1<5;i++) { db.students.save({x:i,y:i+1}) }   
db.students.find();

如果出现显示不全的现象,可以使用”it”命令,继续显示下面的数据. 当然,我们还可以按照条件进行查询操作

语法: db.collection.find(查询表达式,查询的列);

例1:  db.students.find({},{gendre:1})

查询所有文档,的gender属性 (_id属性默认总是查出来)

例2:  db.students.find({},{gender:1,  _id:0})

查询所有文档的gender属性,且不查询_id属性

此处的0表示的是false,不查询   

例3: db.students.find({gender:’male’},{name:1,_id:0});

查询所有gender属性值为male的文档中的name属性

4.2.2 findOne()

findOne()和find()函数一样,只是findOne()返回的是查询结果中的第一条数据,或者返回null. 

4.3 删除操作

语法: db.collectionName.remove(查询表达式,  选项);

选项是指 {justOne:true/false},是否只删一行, 默认为false   注意

1: 查询表达式依然是个json对象

2: 查询表达式匹配的行,将被删掉.

3: 如果查询表达式为空对象{},collections中的所有文档将被删掉. 

例1: db.students.remove({sn:’001′});

删除stu表中sn属性值为’001’的文档 

例2:  db.students.remove({gender:’m’},true);

删除stu表中gender属性为m的文档,只删除1行.

4.4 修改操作

语法: db.collection.update(查询表达式,新值,选项); 

*改哪几行? --- 查询表达式 
*改成什么样? -- 新值 或 赋值表达式 
*操作选项 ----- 可选参数 
 upsert:如果要更新的那条记录没有找到,是否插入一条新纪录,默认为false
multi :是否更新满足条件的多条的记录,默认为false

multi :是否更新满足条件的多条的记录,false:只更新第一条,true:更新多条,默认为false 

例:db.news.update({name:’QQ’},{name:’MSN’});

是指选中news表中,name值为QQ的文档,并把其文档值改为{name:”MSN”},

结果: 文档中的其他列也不见了,改后只有_id和name列了.即是新文档直接覆盖了旧文档,而不是修改.

4.4.1 修改操作中的关键字

如果是想修改文档的某列,可以用$set关键字 

例:db.collectionName.update(query,{$set:{name:’QQ’}})

修改时的赋值表达式

  • $set 修改某列的值
  • $unset 删除某个列
  • $inc 增长某个列
  • $rename 重新命名某列
  • $setOnInsert 当upsert为true时,并且发生了insert操作时,可以补充的字段.

$inc实例

按照指定的步长增长某个列;

>  db.students.insert({"uid":"201203","type":"1",size:10}) 
>  db.students.find() 
{  "_id"  :  ObjectId("5003b6135af21ff428dafbe6"),  "uid"  :  "201203",  "type"  :  "1", "size"  :  10  } 
>  db.students.update({"uid"  :  "201203"},{"$inc":{"size"  :  2}}) 
>  db.stdentsu.find() 
{  "_id"  :  ObjectId("5003b6135af21ff428dafbe6"),  "uid"  :  "201203",  "type"  :  "1", "size"  :  12  }

$unset实例 

>db.students.find({_id:3}) 
{"_id"  :  3  ,  "age"  :  18} 
>  db.students.update({_id:3},{$unset:{age:'sss'}}) 
WriteResult({  "nMatched"  :  0,  "nUpserted"  :  0,  "nModified"  :  0  }) 
>  db.students.update({_id:3},{$unset:{age:'sss'}}) 
WriteResult({  "nMatched"  :  1,  "nUpserted"  :  0,  "nModified"  :  1  }) 
>  db.students.find({_id:3}) 
{  "_id"  :  3  }

$rename实例

->db.students.insert({name:'lisi',age:12,sex:'male',height:123,area:'haidian'}); 
->db.students.update({name:'lisi'},{$set:{area:'chaoyang'},$unset:{height:1},$inc:{age:1},$rename:{sex:'gender'}});

4.4.2 Option选项的作用

语法: {upsert:true/false,multi:true/false}

upsert:是指没有匹配的行,则直接插入该行 

例:db.stu.update({name:’wuyong’},{$set:{name:’junshiwuyong’}},{upsert:true});

如果有name=’wuyong’的文档,将被修改,如果没有,将添加此新文档

例:db.news.update({_id:99},{x:123,y:234},{upsert:true});

没有_id=99的文档被修改,因此直接插入该文档

multi: 是指修改多行(即使查询表达式命中多行,默认也只改1行,如果想改多行,可以用此选项) 

例:db.news.update({age:21},{$set:{age:22}},{multi:true});

则把news中所有age=21的文档,都修改

4.5 查询表达式

我们无论在修改删除还是查询的过程中,都需要传入查询表达式对目标数据进行查询,表达式有很多种

1:  最简单的查询表达式 
{filed:value}  ,是指查询field列的值为value的文档 
 
2:  $ne:!= 
{field:{$ne:value}} db.stu.find({age:{$ne:16}}) 作用--查age列的值 不等于16的文档 
 
3:$gt:大于 
$lt:小于 
$gte:大于或等于 
$lte:小于或等于 
 
4:  $in:[] 
查询某列的值在范围内的文档 
db.goods.find({cat_id:{$in:[2,8]}} 
 
5:  $nin:not  in 
查询某列不在范围内的文档 
$nin:[2,3,5] 
 
6:  $exists 
语法:  {field:{$exists:1}} 
作用:  查询出含有field字段的文档 
 
7:用正则表达式查询  以”诺基亚”开头的商品 
例:db.goods.find({goods_name:/诺基亚.*/},{goods_name:1});

 游标操作

通俗的说,游标不是查询结果,而是查询的返回资源,或者接口,通过这个接口,你可以逐条对数据进行读取;

声明游标:

var  cursor  =  db.collectioName.find(query,projection); 
cursor.hasNext() //判断游标是否已经取到尽头
cursor.next()
//取出游标的下1个单元

用while来循环游标 

>  var  mycursor  =  db.bar.find({_id:{$lte:5}}) 
>  while(mycursor.hasNext())  { printjson(mycursor.next());}

游标还有一个迭代函数,允许我们自定义回调函数来逐个处理每个单元. 

cursor.forEach(回调函数); 
>  var  gettitle  =  function(obj)  {print(obj.goods_name)} 
>  var  cursor  =  db.goods.find(); 
>  cursor.forEach(gettitle);

游标在分页中的应用

比如查到10000行,跳过100页,取10行,一般地,我们假设每页N行, 当前是page页,就需要跳过前 (page-1)*N 行, 再取N行.

在mongo中,分页是用skip(), limit()函数来实现的

//查询结果中,跳过前9995行 
var  mycursor  =  db.bar.find().skip(9995); 
 
//查询第901页,每页10条 
则是  var  mytcursor  =  db.bar.find().skip(9000).limit(10);

 group分组

mongodb支持聚合运算;

在goods表中插入数据 

db.goods.insert([ 
{'_id':3,'cat_id':6,'price':29}, 
{'_id':4,'cat_id':7,'price':30}, 
{'_id':5,'cat_id':6,'price':31}, 
{'_id':6,'cat_id':7,'price':32}, 
{'_id':7,'cat_id':7,'price':28}, 
])

如果我们所处的是mysql数据库,我们可以这样查询每个类下面的商品平均价格 

select  avg(price)  from  goods  group  by  cat_id;

但如果在mongodb下,我们如何查询分组内的平均值呢? 我们需要使用mongodb的聚合运算   https://docs.mongodb.com/manual/aggregation/

db.goods.aggregate([ 
{$match:{}}, 
{$group:{_id:"$cat_id",avg:{$avg:'$price'}}} 
]);

其中,$match表示匹配的条件,$group表示分组的条件,$avg表示求平均值. 当然,指令还有很多,我们还可以使用limit,sort等操作 

db.goods.aggregate([ 
{$match:{}}, 
{$group:{_id:"$cat_id",avg:{$avg:'$price'}}}, 
{$limit:1} 
]); 
 
db.goods.aggregate([ 
{$match:{}}, 
{$sort:{price:-1}} 
]);

 MapReduce

7.1 MapReduce原理

随着大数据兴起,MapReduce的概念也越来越火,通常的概念是用于大规模数据集(1TB)的并行运算,实际上就是传统关系型数据库的group概念的延伸.

MapReduce之所以能够流行,是因为数据的大,当数据过大的时候,单个服务器无法承载,facebook,微软等等的数据中心都是分布在世界各地的,我们所需        要的数据很可能分布在不同的服务器甚至世界各地.在这时候,我们就无法使用group操作了.

MapReduce通俗的讲,最大的优点就是可以支持分布式的group 

而MapReduce的操作即分为map和reduce两步;

map ---> 映 射 
reduce ---> 减少,规约,回归

7.2 MapReduce统计价格

//按照cat_id  分配  price,把price数据映射到一个数组上 var  map  =  function(){ 
emit(this.cat_id  ,  this.price) 
} 
 
//将映射好的数组进行操作 
var  reduce  =  function(cat_id,number){ return  Array.avg(number) 
} 
 
//将统计的数据映射到res表当中db.goods.mapReduce(map,reduce,{out:'res'})

接下来我们使用mapReduce功能实现地震数据的统计

7.3 下载并导入地震信息

在国家地震科学数据共享中心下载过去一年的地震数据  http://data.earthquake.cn/sjfw/index.html?PAGEID=datasourcelist&dt=40280d0453e414e40153e44861dd0003

将数据保存为csv格式,导入到mongodb数据库中,使用mongoimport

-d : 指明导入文件存放在哪个数据库

-c : 指明导入文件存放在哪个集合

–type:指明要导入的文件格式。

–headerline:指明不导入第一行,csv格式的文件第一行为列名。

–file:指明要导入的文件路径。

./bin/mongoimport  -d  test  -c  dz  --type  csv  --file  /usr/local/src/dz.csv  --headerline

7.4 按照经纬度统计数据

我们规约的时候按照经纬度的5*5方格进行分组,如果在此方格内存在地震,则地震+1 

var  map  =  function(){ 
var  jd  =  parseInt(this.jd/5)*5; var  wd  =  parseInt(this.wd/5)*5; var  area  =  jd  +  ':'  +  wd; 
emit(area,1);//如果该区域有地震,则统计为1 
} 
 
var  reduce  =  function(area,nums){ return  Array.sum(nums); 
} 
db.dz.mapReduce(map,reduce,{out:'dzrs'});

成功获取区间范围内的地震次数,此时我们要将数据导出为json,做成热力图;

7.5 热力图

使api   http://lbsyun.baidu.com/index.php?title=jspopular

填入密钥,生成热力图

7.6 展示地震数据

转化地震数据为规定的json格式 

var  course  =  db.dzrs.find(); 
var row;
course.forEach(function(obj){ row
= obj._id.split(':');
db.reli.insert({lng:parseInt(row[1])+2.5,lat:parseInt(row[0])+2.5,count:obj.value}) })

导出json 

./bin/mongoexport  -d  test  -c  reli  -o  /usr/local/src/reli.json

将json数据放入热力图当中并配置热力图相关选项.

原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/9434.html

(0)
上一篇 2021年7月19日
下一篇 2021年7月19日

相关推荐

发表回复

登录后才能评论