sql >> Base de Datos >  >> RDS >> Mysql

MYSQL Deduplicar y eliminar la fila duplicada con menos datos

Puede usar esta consulta DELETE, que es genérica y se puede adaptar fácilmente para admitir más campos:

DELETE tablename.*
FROM
  tablename LEFT JOIN (
    SELECT MIN(id) min_id
    FROM
      tablename t INNER JOIN (
        SELECT
          emails, MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
        FROM
          tablename
        GROUP BY
          emails) m
      ON t.emails=m.emails
         AND ((t.name IS NOT NULL) + (t.surname IS NOT NULL))=m.max_non_nulls
    GROUP BY
      t.emails) ids
  ON tablename.id=ids.min_id
WHERE
  ids.min_id IS NULL

Consulte fiddle aquí .

Esta consulta devuelve el número máximo de campos no nulos para cada correo electrónico:

SELECT
  emails,
  MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
FROM
  tablename
GROUP BY
  emails

Luego me uniré a esta consulta con tablename, para obtener la ID mínima para cada correo electrónico que tenga la cantidad máxima de campos no nulos:

SELECT MIN(id) min_id
FROM
  tablename t INNER JOIN (
    SELECT
      emails, MAX((name IS NOT NULL) + (surname IS NOT NULL)) max_non_nulls
    FROM
      tablename
    GROUP BY
      emails) m
  ON t.emails=m.emails
     AND ((t.name IS NOT NULL) + (t.surname IS NOT NULL))=m.max_non_nulls
GROUP BY
  t.emails

y luego elimino todas las filas que tienen un ID que no devuelve esta consulta.