一 MongoDB简介
- MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
- MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
- MongoDB中的记录是一个文档,它是由字段和值对组成的数据结构。MongoDB文档类似于JSON对象。字段的值可以包括其他文档,数组和文档数组。
二 MongoDB下载安装
2.1 下载地址:
https://www.mongodb.com/download-center?jmp=nav#community
- MongoDB的版本偶数版本为稳定版,奇数版本为开发版。
- MongoDB对于32位系统支持不佳,所以3.2版本以后没有再对32位系统的支持。
2.2 下载安装
下载完安装包,并解压 tgz(以下演示的是 64 位 Linux上的安装) 。
curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.0.0.tgz # 下载 tar -zxvf mongodb-linux-x86_64-rhel70-4.0.0.tgz # 解压 mv mongodb-linux-x86_64-rhel70-4.0.0 /usr/local/mongodb # 将解压包拷贝到指定目录
MongoDB 的可执行文件位于 bin 目录下,所以可以将其添加到 PATH 路径中:
export PATH=<mongodb-install-directory>/bin:$PATH
<mongodb-install-directory> 为你 MongoDB 的安装路径。如本文的 /usr/local/mongodb 。
2.3 bin目录结构
bsondump: binary-json,二进制文件,选择性导出bson文件
mongo: 客户端
mongod: 服务端
mongodump: 整体导出数据库(二进制)
mongoexport:导出易识别的json文档
mongoimport:导入json文档
mongorestore:数据库整体导入
mongos: 路由器(分片)
2.4 创建数据库目录
MongoDB的数据存储在data目录的db目录下,但是这个目录在安装过程不会自动创建,所以你需要手动创建data目录,并在data目录中创建db目录。
以下实例中我们将data目录创建于MongoDB安装目录下。
注意:/data/db 是 MongoDB 默认的启动的数据库路径(–dbpath)。
[[email protected] mongodb]$ mkdir -p data [[email protected] mongodb]$ mkdir -p log/mongodb.log
2.5 运行 MongoDB 服务
你可以再命令行中执行mongo安装目录中的bin目录执行mongod命令来启动mongdb服务。 注意:如果你的数据库目录不是/data/db,可以通过 –dbpath 来指定。
[[email protected] mongodb]$ ./bin/mongod --dbpath ./data/ --logpath ./log/mongodb.log --port 27017 --fork
参数解释: dbpath 数据存储目录 logpath 日志存储文件 port 运行端口(默认27017) fork 后台静默运行
查看MongoDB运行进程
[[email protected] mongodb]# ps aux |grep mongod
2.6 后台管理 Shell
如果你需要进入MongoDB后台管理,你需要先打开mongodb装目录的下的bin目录,然后执行mongo命令文件。MongoDB Shell是MongoDB自带的交互式Javascript shell,用来对MongoDB进行操作和管理的交互式环境。当你进入mongoDB后台后,它默认会链接到 test 文档(数据库): $ cd /usr/local/mongodb
[[email protected] mongodb]# ./bin/mongo MongoDB shell version v4.0.0 connecting to: mongodb://127.0.0.1:27017 MongoDB server version: 4.0.0 Welcome to the MongoDB shell.
...
2.7 基本概念解释
MongoDB术语/概念 |
解释/说明 |
database |
数据库 |
collection |
数据库表/集合 |
document |
数据记录行/文档 |
field |
数据字段/域 |
index |
索引 |
primary key |
主键,MongoDB自动将_id字段设置为主键 |
2.8 Shell help 帮助解释
参数 |
说明 |
–help –h |
返回基本帮助和用法文本 |
–version |
返回MongoDB的版本 |
–config<文件名> -f<文件名> |
指定包含运行时配置的配置文件 |
–verbose -v |
增加发送到控制台日志的数量 |
–quiet |
减少发送到控制台日志的数量 |
–port<端口> |
指定mongod的端口,默认27017 |
–bind_ip<端口> |
指定id地址 |
–maxConns<编号> |
指定链接的最大数 |
–logpath<路径> |
指定日志文件的路径 |
–auth |
启用远程主机的身份验证 |
–dbpath<路径> |
指定数据库实例的路径 |
–nohttpinterface |
禁用HTTP接口 |
–nojournal |
禁用日志 |
–noprealloc |
禁止预分配数据文件 |
–repair |
在所有数据库上运行修复程序 |
2.9 MongoDB 数据类型
下表为MongoDB中常用的几种数据类型。
数据类型 | 描述 |
---|---|
String | 字符串。存储数据常用的数据类型。在 MongoDB 中,UTF-8 编码的字符串才是合法的。 |
Integer | 整型数值。用于存储数值。根据你所采用的服务器,可分为 32 位或 64 位。 |
Boolean | 布尔值。用于存储布尔值(真/假)。 |
Double | 双精度浮点值。用于存储浮点值。 |
Min/Max keys | 将一个值与 BSON(二进制的 JSON)元素的最低值和最高值相对比。 |
Array | 用于将数组或列表或多个值存储为一个键。 |
Timestamp | 时间戳。记录文档修改或添加的具体时间。 |
Object | 用于内嵌文档。 |
Null | 用于创建空值。 |
Symbol | 符号。该数据类型基本上等同于字符串类型,但不同的是,它一般用于采用特殊符号类型的语言。 |
Date | 日期时间。用 UNIX 时间格式来存储当前日期或时间。你可以指定自己的日期时间:创建 Date 对象,传入年月日信息。 |
Object ID | 对象 ID。用于创建文档的 ID。 |
Binary Data | 二进制数据。用于存储二进制数据。 |
Code | 代码类型。用于在文档中存储 JavaScript 代码。 |
Regular expression | 正则表达式类型。用于存储正则表达式。 |
ObjectId 类似唯一主键,可以很快的去生成和排序,包含 12 bytes,含义是:
- 前 4 个字节表示创建 unix时间戳,格林尼治时间 UTC 时间,比北京时间早了 8 个小时
- 接下来的 3 个字节是机器标识码
- 紧接的两个字节由进程 id 组成 PID
- 最后三个字节是随机数
MongoDB 中存储的文档必须有一个 _id 键。这个键的值可以是任何类型的,默认是个 ObjectId 对象
由于 ObjectId 中保存了创建的时间戳,所以你不需要为你的文档保存时间戳字段,你可以通过 getTimestamp 函数来获取文档的创建时间:
> var newObject = ObjectId() > newObject.getTimestamp() ISODate("2018-07-05T07:21:10Z")
ObjectId 转为字符串
> newObject.str
5a1919e63df83ce79df8b38f
三 Mongodb入门命令
3.1 基本查看命令
show dbs 查看当前的数据库
use databaseName 选库
show tables/collections 查看当前库下的collection
3.2 库和集合的操作
db 查看当前所处的数据库,在mongodb中,库是隐式创建,你可以use 一个不存在的库, 然后在该库下创建collection,即可创建库
db.dropDatabase(); 删除database,把当前所用的库给删除了, 即使里面有数据也会删除
db.createCollection(‘collectionName’), 创建collection,collection也是允许隐式创建的
db.collectionName.insert(document); 在集合(表)中插入具体数据的时候会自动创建
db.collectionName.drop() , 删除collection
测试隐式创建:往不存在的students表中插入数据
> show dbs admin 0.000GB config 0.000GB local 0.000GB > use admin switched to db admin > db.students.insert({name:'zhangsan',age:'20'}) WriteResult({ "nInserted" : 1 }) > show tables students
删除当前库里的students表
> db. students. drop()
true
四 Mongodb基本增删改查
4.1 增加数据
mongodb存储的是文档,文档是json格式的对象,我们向数据库存储数据的时候可以使用insert方法,数据格式要以js对象格式进行存储:
语法:db.collectionName.insert(document);
db.students.insert({name:'zhangsan',age:'20'}) 向当前students表里插入数据
我们可以以多种方法对文档进行存储:
4.1.2 增加单篇文档
语法:db.collectionName.insert({title:”nice day”});
4.1.3 增加单个文档,并且指定_id
语法:db.collectionName.insert({_id:8,age:78,name:”lisi”});
_id 是我们在插入数据的时候,mongodb自动给文档添加的一个属性,如果我们不需要系统分配_id ,可以在添加数据的时候手动设置,覆盖原有_id ,虽然_id 的类型可以自由指定,但是在同一个集合当中必须唯一,如果插入重复的值,系统会抛出异常.
这个_id 的名称是固定的,它可以是Mongodb支持的任何数据类型,默认是ObjectId,在关系型数据库中,主键通常是数值型的,并且可以设置自增,而Mongodb的主键,原生不支持自增主键.
4.1.4 增加多个文档
db.students.insert( [{time:'friday',value:'mongodb'},{_id:1,gender:'male',name:'QQ'}])
可以以数组的方式,一次性向集合插入多个数据; 同时应该注意的是,由于mongodb采用的是JavaScript Shell,所以我们可以根据js特性,将文档作为值赋给变量然后进行操作:
j = {name : 'isi'};
t = {name : 'wangwu’}; db.students.insert([j,t]);
4.1.5 save和insert的区别
save和insert都可以进行数据的插入和增加,但是也有一些异同:
对于已存在数据{ _id:1, “name”:”n1″ },再次进行插入操作时,insert({_id : 1, “name” :”n2″}) 会报主键重复的错误提示 save({ _id:1, ” name “:”n2”}) 会把n1修改为n2。
相同点:若新增的数据中没有主键时,会增加一条记录。
不同点:主键冲突时:insert 会报错,save会自增_i d 主键插入
4.2 查询操作
4.2.1 find()
无条件的普通查询方式很简单,可以直接使用
db.collectionName.find();一次可以查出指定集合中的所有数据
for(var i = 1;1<5;i++) { db.students.save({x:i,y:i+1}) } db.students.find();
如果出现显示不全的现象,可以使用”it”命令,继续显示下面的数据. 当然,我们还可以按照条件进行查询操作
语法: db.collection.find(查询表达式,查询的列);
例1: db.students.find({},{gendre:1})
查询所有文档,的gender属性 (_id属性默认总是查出来)
例2: db.students.find({},{gender:1, _id:0})
查询所有文档的gender属性,且不查询_id属性
此处的0表示的是false,不查询
例3: db.students.find({gender:’male’},{name:1,_id:0});
查询所有gender属性值为male的文档中的name属性
4.2.2 findOne()
findOne()和find()函数一样,只是findOne()返回的是查询结果中的第一条数据,或者返回null.
4.3 删除操作
语法: db.collectionName.remove(查询表达式, 选项);
选项是指 {justOne:true/false},是否只删一行, 默认为false 注意
1: 查询表达式依然是个json对象
2: 查询表达式匹配的行,将被删掉.
3: 如果查询表达式为空对象{},collections中的所有文档将被删掉.
例1: db.students.remove({sn:’001′});
删除stu表中sn属性值为’001’的文档
例2: db.students.remove({gender:’m’},true);
删除stu表中gender属性为m的文档,只删除1行.
4.4 修改操作
语法: db.collection.update(查询表达式,新值,选项);
*改哪几行? --- 查询表达式 *改成什么样? -- 新值 或 赋值表达式 *操作选项 ----- 可选参数 upsert:如果要更新的那条记录没有找到,是否插入一条新纪录,默认为false
multi :是否更新满足条件的多条的记录,默认为false
multi :是否更新满足条件的多条的记录,false:只更新第一条,true:更新多条,默认为false
例:db.news.update({name:’QQ’},{name:’MSN’});
是指选中news表中,name值为QQ的文档,并把其文档值改为{name:”MSN”},
结果: 文档中的其他列也不见了,改后只有_id和name列了.即是新文档直接覆盖了旧文档,而不是修改.
4.4.1 修改操作中的关键字
如果是想修改文档的某列,可以用$set关键字
例:db.collectionName.update(query,{$set:{name:’QQ’}})
修改时的赋值表达式
- $set 修改某列的值
- $unset 删除某个列
- $inc 增长某个列
- $rename 重新命名某列
- $setOnInsert 当upsert为true时,并且发生了insert操作时,可以补充的字段.
$inc实例
按照指定的步长增长某个列;
> db.students.insert({"uid":"201203","type":"1",size:10}) > db.students.find() { "_id" : ObjectId("5003b6135af21ff428dafbe6"), "uid" : "201203", "type" : "1", "size" : 10 } > db.students.update({"uid" : "201203"},{"$inc":{"size" : 2}}) > db.stdentsu.find() { "_id" : ObjectId("5003b6135af21ff428dafbe6"), "uid" : "201203", "type" : "1", "size" : 12 }
$unset实例
>db.students.find({_id:3}) {"_id" : 3 , "age" : 18} > db.students.update({_id:3},{$unset:{age:'sss'}}) WriteResult({ "nMatched" : 0, "nUpserted" : 0, "nModified" : 0 }) > db.students.update({_id:3},{$unset:{age:'sss'}}) WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 }) > db.students.find({_id:3}) { "_id" : 3 }
$rename实例
->db.students.insert({name:'lisi',age:12,sex:'male',height:123,area:'haidian'}); ->db.students.update({name:'lisi'},{$set:{area:'chaoyang'},$unset:{height:1},$inc:{age:1},$rename:{sex:'gender'}});
4.4.2 Option选项的作用
语法: {upsert:true/false,multi:true/false}
upsert:是指没有匹配的行,则直接插入该行
例:db.stu.update({name:’wuyong’},{$set:{name:’junshiwuyong’}},{upsert:true});
如果有name=’wuyong’的文档,将被修改,如果没有,将添加此新文档
例:db.news.update({_id:99},{x:123,y:234},{upsert:true});
没有_id=99的文档被修改,因此直接插入该文档
multi: 是指修改多行(即使查询表达式命中多行,默认也只改1行,如果想改多行,可以用此选项)
例:db.news.update({age:21},{$set:{age:22}},{multi:true});
则把news中所有age=21的文档,都修改
4.5 查询表达式
我们无论在修改删除还是查询的过程中,都需要传入查询表达式对目标数据进行查询,表达式有很多种
1: 最简单的查询表达式 {filed:value} ,是指查询field列的值为value的文档 2: $ne:!= {field:{$ne:value}} db.stu.find({age:{$ne:16}}) 作用--查age列的值 不等于16的文档 3:$gt:大于 $lt:小于 $gte:大于或等于 $lte:小于或等于 4: $in:[] 查询某列的值在范围内的文档 db.goods.find({cat_id:{$in:[2,8]}} 5: $nin:not in 查询某列不在范围内的文档 $nin:[2,3,5] 6: $exists 语法: {field:{$exists:1}} 作用: 查询出含有field字段的文档 7:用正则表达式查询 以”诺基亚”开头的商品 例:db.goods.find({goods_name:/诺基亚.*/},{goods_name:1});
五 游标操作
通俗的说,游标不是查询结果,而是查询的返回资源,或者接口,通过这个接口,你可以逐条对数据进行读取;
声明游标:
var cursor = db.collectioName.find(query,projection);
cursor.hasNext() //判断游标是否已经取到尽头
cursor.next() //取出游标的下1个单元
用while来循环游标
> var mycursor = db.bar.find({_id:{$lte:5}}) > while(mycursor.hasNext()) { printjson(mycursor.next());}
游标还有一个迭代函数,允许我们自定义回调函数来逐个处理每个单元.
cursor.forEach(回调函数); > var gettitle = function(obj) {print(obj.goods_name)} > var cursor = db.goods.find(); > cursor.forEach(gettitle);
游标在分页中的应用
比如查到10000行,跳过100页,取10行,一般地,我们假设每页N行, 当前是page页,就需要跳过前 (page-1)*N 行, 再取N行.
在mongo中,分页是用skip(), limit()函数来实现的
//查询结果中,跳过前9995行 var mycursor = db.bar.find().skip(9995); //查询第901页,每页10条 则是 var mytcursor = db.bar.find().skip(9000).limit(10);
六 group分组
mongodb支持聚合运算;
在goods表中插入数据
db.goods.insert([ {'_id':3,'cat_id':6,'price':29}, {'_id':4,'cat_id':7,'price':30}, {'_id':5,'cat_id':6,'price':31}, {'_id':6,'cat_id':7,'price':32}, {'_id':7,'cat_id':7,'price':28}, ])
如果我们所处的是mysql数据库,我们可以这样查询每个类下面的商品平均价格
select avg(price) from goods group by cat_id;
但如果在mongodb下,我们如何查询分组内的平均值呢? 我们需要使用mongodb的聚合运算 https://docs.mongodb.com/manual/aggregation/
db.goods.aggregate([ {$match:{}}, {$group:{_id:"$cat_id",avg:{$avg:'$price'}}} ]);
其中,$match表示匹配的条件,$group表示分组的条件,$avg表示求平均值. 当然,指令还有很多,我们还可以使用limit,sort等操作
db.goods.aggregate([ {$match:{}}, {$group:{_id:"$cat_id",avg:{$avg:'$price'}}}, {$limit:1} ]); db.goods.aggregate([ {$match:{}}, {$sort:{price:-1}} ]);
七 MapReduce
7.1 MapReduce原理
随着大数据兴起,MapReduce的概念也越来越火,通常的概念是用于大规模数据集(1TB)的并行运算,实际上就是传统关系型数据库的group概念的延伸.
MapReduce之所以能够流行,是因为数据的大,当数据过大的时候,单个服务器无法承载,facebook,微软等等的数据中心都是分布在世界各地的,我们所需 要的数据很可能分布在不同的服务器甚至世界各地.在这时候,我们就无法使用group操作了.
MapReduce通俗的讲,最大的优点就是可以支持分布式的group
而MapReduce的操作即分为map和reduce两步;
map ---> 映 射
reduce ---> 减少,规约,回归
7.2 MapReduce统计价格
//按照cat_id 分配 price,把price数据映射到一个数组上 var map = function(){ emit(this.cat_id , this.price) } //将映射好的数组进行操作 var reduce = function(cat_id,number){ return Array.avg(number) } //将统计的数据映射到res表当中db.goods.mapReduce(map,reduce,{out:'res'})
接下来我们使用mapReduce功能实现地震数据的统计
7.3 下载并导入地震信息
在国家地震科学数据共享中心下载过去一年的地震数据 http://data.earthquake.cn/sjfw/index.html?PAGEID=datasourcelist&dt=40280d0453e414e40153e44861dd0003
将数据保存为csv格式,导入到mongodb数据库中,使用mongoimport
-d : 指明导入文件存放在哪个数据库
-c : 指明导入文件存放在哪个集合
–type:指明要导入的文件格式。
–headerline:指明不导入第一行,csv格式的文件第一行为列名。
–file:指明要导入的文件路径。
./bin/mongoimport -d test -c dz --type csv --file /usr/local/src/dz.csv --headerline
7.4 按照经纬度统计数据
我们规约的时候按照经纬度的5*5方格进行分组,如果在此方格内存在地震,则地震+1
var map = function(){ var jd = parseInt(this.jd/5)*5; var wd = parseInt(this.wd/5)*5; var area = jd + ':' + wd; emit(area,1);//如果该区域有地震,则统计为1 } var reduce = function(area,nums){ return Array.sum(nums); } db.dz.mapReduce(map,reduce,{out:'dzrs'});
成功获取区间范围内的地震次数,此时我们要将数据导出为json,做成热力图;
7.5 热力图
使用百度地图开放平台的热力图api http://lbsyun.baidu.com/index.php?title=jspopular
填入密钥,生成热力图
7.6 展示地震数据
转化地震数据为规定的json格式
var course = db.dzrs.find();
var row;
course.forEach(function(obj){ row = obj._id.split(':');
db.reli.insert({lng:parseInt(row[1])+2.5,lat:parseInt(row[0])+2.5,count:obj.value}) })
导出json
./bin/mongoexport -d test -c reli -o /usr/local/src/reli.json
将json数据放入热力图当中并配置热力图相关选项.
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/9434.html