MongoDB优化心得分享

2024-03-09 11:51作者：下载吧

这里总结下这段时间使用mongo的心得，列出了几个需要注意的地方。

1. 系统参数及mongo参数设置

mongo参数主要是storageEngine和directoryperdb，这两个参数一开始不选定后续就无法再更改。

directoryperdb主要是将数据库分文件夹存放，方便后续的备份及数据迁移。

storageEngine（存储引擎）默认使用的是MMAPv1，推荐使用3.0新加入的引擎wiredTiger。经实际使用wiredTiger占用的磁盘空间是MMAP的1/5，索引大小是其1/2，查询速度也提高很多，更重要的是该引擎提供了document级别的锁，当集合插入或更新数据时不需要阻塞读操作了。唯一的问题是市面上支持该引擎查询的工具不多，MongoVUE无法查到该引擎存储的集合，NosqlManager-mongo可以查到但需要.net环境支持。个人觉得熟悉下mongo command用mongo shell就足够了，所以还是强烈推荐使用wiredTiger引擎。

2. 无需对集合进行水平切分

由于之前一直使用关系型数据库，关系型数据库当单表数据量超大时经常使用的一直方法是对数据表进行分表。在使用mongo时便很自然的觉得这招仍然有用。由于该系统的分表都是动态生成的，做到后面发现这招对mongo带来的性能提升远远抵不过维护成本的增加。

分析一下关系型数据库分表会提高性能的最大原因是很多关系型数据库一张表是一个文件，分表可以避免一个文件过大所造成数据提取速度变慢。但是mongo并不是这样存储的，所以这条并不成立了。

用过的都知道mongo对索引的依赖非常大，如果集合不能一开始就设计好，那后续索引就得写脚本来创建。这里贡献个给mongo大表动态创建索引的脚本：

eval(function () {
var infos = [];
var collNames = db.getCollectionNames();
for (var i = 0; i < collNames.length; i++) {
var collName = collNames[i];
var collSize = db.getCollection(collName).count();
if (collSize > 1000000 && collName.indexOf(“info_”)==0) {
db.getCollection(collName).ensureIndex({publishDate:-1,blendedScore:-1,publishTime:-1,isRubbish:1},{name:”ScoreSortIdx”,background:true});
db.getCollection(collName).ensureIndex({similarNum:-1,publishTime:-1,isRubbish:1},{name:”HotSortIdx”,background:true});
db.getCollection(collName).ensureIndex({publishTime:-1,isRubbish:1},{name:”TimeSortIdx”,background:true});
infos.push(“name:” + collName + “索引创建成功”);
}
}
return infos;
}());