来源:https://groups.google.com/forum/#!topic/mongodb-user/Rjv6lyUCe1s 在统计应用项目中,我们经常会遇到这样的需求:将大量的对象进行排序,然后只需要取出前 N 名作为排行榜的数据,这就是 TopN 算法。mongodb作为nosql数据库的典型代表,能够存储海量数据,在使用过程中也经常会遇到TopN的需求,例如将需要字段的最新数据从mongodb中获取出来。下面就使用集算器 SPL 语言操作,通过案例分析如何实现上述功能。 Collection last3有两个字段:variable和timestamp,这里首先按variable分组,然后在每组文档中选出timestamp最晚的3个,最后再从这些文档中找到timestamp最早的1个。 last3的部分数据如下:
集算器代码:
A1:连接MongoDB,连接字格式为mongo://ip:port/db?arg=value&…。 A2:使用find函数从MongoDB中取数并排序,形成游标。collectoin是last3,过滤条件是空,取出_id之外的所有字段,并按variable排序。 A3:循环从游标读数,每次取variable字段相同的一组文档。A3循环的的作用范围是缩进的B3到B4,在这个范围中可以用A3来引用循环变量,这里A3是内存数据,在调试方式下可以查看某次取数的结果如下:
B3:选出本组文档中timestamp最晚(大)的3个。 B4:将B3不断地追加到B4中。B4如下:
A5:选出B4中timstamp最早(小)的那个文档,即:
A6:关闭mongodb连接。 实现类似Mongodb的topN的需求,使用SPL语言能简化mongodb shell的实现,相对mongodb脚本容易多了。 |
|
来自: raqsoft > 《集算器&润乾报表》