sql >> Base de Datos >  >> NoSQL >> MongoDB

Excepción al conectarse a mongodb en chispa

Creo que encontré el problema:mongodb-hadoop tiene un modificador "estático" en sus instancias de codificador/descodificador BSON en core/src/main/java/com/mongodb/hadoop/input/MongoInputSplit.java. Cuando Spark se ejecuta en modo de subprocesos múltiples, todos los subprocesos intentan deserializarse usando el mismo instancias de codificador/descodificador, que predeciblemente tiene malos resultados.

Parche en mi github aquí (haber enviado una solicitud de extracción en sentido ascendente)

¡Ahora puedo ejecutar un conteo de colección Spark->mongo multiproceso de 8 núcleos () desde Python!