Aquí hay una agregación que encuentra los dos primeros por duración en cada categoría (rompe los "empates" arbitrariamente, lo que parece estar en línea con su salida de muestra):
var pregroup = { "$group" : {
"_id" : {
"type" : "$tracked_item_type",
"name" : "$tracked_item_name"
},
"duration" : {
"$sum" : "$duration"
}
}
};
var sort = { "$sort" : { "_id.type" : 1, "duration" : -1 } };
var group1 = { "$group" : {
"_id" : "$_id.type",
"num1" : {
"$first" : {
"name" : "$_id.name",
"dur" : "$duration"
}
},
"other" : {
"$push" : {
"name" : "$_id.name",
"dur" : "$duration"
}
},
"all" : {
"$push" : {
"name" : "$_id.name",
"dur" : "$duration"
}
}
}
};
var unwind = { "$unwind" : "$other" };
project = {
"$project" : {
"keep" : {
"$ne" : [
"$num1.name",
"$other.name"
]
},
"num1" : 1,
"all" : 1,
"other" : 1
}
};
var match = { "$match" : { "keep" : true } };
var sort2 = { "$sort" : { "_id" : 1, "other.dur" : -1 } };
var group2 = { "$group" : {
"_id" : "$_id",
"numberOne" : {
"$first" : "$num1"
},
"numberTwo" : {
"$first" : "$other"
},
"all" : {
"$first" : "$all"
}
}
};
unwind2 = { "$unwind" : "$all" };
project2 = { "$project" : {
"_id" : 0,
"tracked_item_type" : "$_id",
"tracked_item_name" : {
"$cond" : [
{
"$or" : [
{
"$eq" : [
"$all.name",
"$numberOne.name"
]
},
{
"$eq" : [
"$all.name",
"$numberTwo.name"
]
}
]
},
"$all.name",
null
]
},
"duration" : {
"$cond" : [
{
"$or" : [
{
"$eq" : [
"$all.name",
"$numberOne.name"
]
},
{
"$eq" : [
"$all.name",
"$numberTwo.name"
]
}
]
},
"$all.dur",
null
]
}
}
}
match2 = { "$match" : { "tracked_item_name" : { "$ne" : null } } };
Ejecutando esto con sus datos de muestra:
db.top2.aggregate(pregroup, sort, group1, unwind, project, match, sort2, group2, unwind2, project2, match2).toArray()
[
{
"tracked_item_type" : "Software",
"tracked_item_name" : "Word",
"duration" : 9540
},
{
"tracked_item_type" : "Software",
"tracked_item_name" : "Notepad",
"duration" : 4000
},
{
"tracked_item_type" : "Site",
"tracked_item_name" : "Digital Blasphemy",
"duration" : 8000
},
{
"tracked_item_type" : "Site",
"tracked_item_name" : "Facebook",
"duration" : 7920
}
]
Esto funcionará con un número arbitrario de dominios (diferentes valores de tipos de elementos rastreados) y no necesita saber todos sus nombres por adelantado. Sin embargo, para generalizarlo a los tres primeros, los cuatro primeros, los cinco primeros, etc., se agregarán cuatro etapas más para cada valor "N" superior adicional, lo que no es muy práctico ni bonito.
Vote a favor de este ticket de Jira para obtener una implementación más nativa de la funcionalidad "top N" en el marco de agregación.