sql >> Base de Datos >  >> RDS >> Mysql

Configure una gran base de datos en MySQL para su análisis en R

La documentación para RMySQL es bastante buena, pero se supone que conoce los conceptos básicos de SQL. Estos son:

  • creando una base de datos
  • creando una tabla
  • introducir datos en la tabla
  • obtener datos de la tabla

El paso 1 es fácil:en la consola de MySQL, simplemente "cree la base de datos DBNAME". O desde la línea de comando, use mysqladmin , o a menudo hay GUI de administración de MySQL.

El paso 2 es un poco más difícil, ya que debe especificar los campos de la tabla y su tipo. Esto dependerá del contenido de su archivo CSV (u otro archivo delimitado). Un ejemplo simple sería algo como:

use DBNAME;
create table mydata(
  id INT(11) NOT NULL AUTO_INCREMENT PRIMARY KEY,
  height FLOAT(3,2)
); 

Que dice crear una tabla con 2 campos:id , que será la clave principal (por lo que debe ser única) y se incrementará automáticamente a medida que se agreguen nuevos registros; y altura , que aquí se especifica como un flotante (un tipo numérico), con 3 dígitos en total y 2 después del punto decimal (por ejemplo, 100.27). Es importante que comprenda tipos de datos .

Paso 3:hay varias formas de importar datos a una tabla. Uno de los más fáciles es usar el mysqlimport utilidad. En el ejemplo anterior, asumiendo que sus datos están en un archivo con el mismo nombre que la tabla (misdatos), la primera columna es un carácter de tabulación y la segunda la variable de altura (sin fila de encabezado), esto funcionaría:

mysqlimport -u DBUSERNAME -pDBPASSWORD DBNAME mydata

Paso 4:requiere que sepa cómo ejecutar consultas MySQL. Nuevamente, un ejemplo simple:

select * from mydata where height > 50;

Significa "obtener todas las filas (id + altura) de la tabla mydata donde la altura es más de 50".

Una vez que haya dominado esos conceptos básicos, puede pasar a ejemplos más complejos, como crear 2 o más tablas y ejecutar consultas que unen datos de cada una.

Luego, puede consultar el manual de RMySQL. En RMySQL, configura la conexión de la base de datos, luego usa la sintaxis de consulta SQL para devolver filas de la tabla como un marco de datos. Por lo tanto, es realmente importante que obtenga la parte de SQL:la parte de RMySQL es fácil.

Hay montones de tutoriales de MySQL y SQL en la web, incluido el "oficial" tutorial en el sitio web de MySQL. Simplemente busque en Google "tutorial de mysql".

Personalmente, no considero que 80 Mb sea un conjunto de datos grande; Me sorprende que esto esté causando un problema de RAM y estoy seguro de que las funciones nativas de R pueden manejarlo con bastante facilidad. Pero es bueno aprender nuevas habilidades como SQL, incluso si no las necesita para este problema.