Creo que encontré el problema:mongodb-hadoop tiene un modificador "estático" en sus instancias de codificador/descodificador BSON en core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Cuando Spark se ejecuta en modo de subprocesos múltiples, todos los subprocesos intentan deserializarse usando el mismo instancias de codificador/descodificador, que predeciblemente tiene malos resultados.
Parche en mi github aquí (haber enviado una solicitud de extracción en sentido ascendente)
¡Ahora puedo ejecutar un conteo de colección Spark->mongo multiproceso de 8 núcleos () desde Python!