"Agrupar por" y "estúpidamente rápido" no van juntos. Esa es la naturaleza de esa bestia... De ahí las limitaciones en la operación grupal de Mongo; Cassandra ni siquiera lo admite de forma nativa (aunque lo hace para consultas de Hive o Pig a través de Hadoop... pero no pretenden ser estúpidamente rápidos).
Los sistemas como Rainbird de Twitter (que usa Cassandra) que realizan análisis en tiempo real lo hacen desnormalizando/precomputando los conteos:http://www.slideshare.net/kevinweil/rainbird-realtime-analytics-en-twitter-strata-2011