sql >> Base de Datos >  >> RDS >> Mysql

Spark JoinWithCassandraTable en la clave de partición TimeStamp STUCK

Usando:

sc.parallelize(startDate to endDate)

Con startData y endDate como Longs generados a partir de Dates con el formato:

("yyyy-MM-dd HH:mm:ss")

Hice Spark para construir una gran matriz (más de 100,000 objetos) para unir con la tabla C* y no se atascó en absoluto:C* trabajó duro para hacer que la unión sucediera y devolver los datos.

Finalmente, cambié mi rango a:

case class TableKey(created_dh: String)
val data = Array("2015-10-29 12:00:00", "2015-10-29 13:00:00", "2015-10-29 14:00:00", "2015-10-29 15:00:00")
val snapshotsFiltered = sc.parallelize(data, 2).map(TableKey(_)).joinWithCassandraTable("listener","snapshots_tnew")

Y está bien ahora.