Anatomía de un rol de desarrollo de software:científico de datos

Hace doce años, cuando escribí los primeros artículos para "Descifrar el código:desglosar los roles de desarrollo de software", tomé la decisión consciente y quizás controvertida de no incluir al administrador de la base de datos o al arquitecto de la base de datos como parte de los roles. Se tomó la decisión porque había pocas organizaciones que manejaran la escala de datos que requería este rol dedicado en el proceso de desarrollo de software. El arquitecto de la solución podría ocuparse de la necesidad de la organización de diseñar la estructura de datos como parte de su rol general. Sin embargo, el mundo de los datos ha crecido desde entonces.

Grandes datos

Hoy, nos enfrentamos a más volumen, mayor velocidad y variedad dinámica de las fuentes de datos que estamos procesando. No estamos hablando de las típicas bases de datos relacionales que han sido populares durante décadas. La expansión de datos requiere un conjunto de técnicas y habilidades que son diferentes a los enfoques históricos de datos que hemos estado usando.

El procesamiento de datos de subprocesos múltiples es una mejora de los enfoques de procesamiento de datos de subprocesos únicos que popularizaron el procesamiento de datos en la década de 1980; sin embargo, incluso estos enfoques, que se basan en una sola computadora con múltiples subprocesos de ejecución, fallan cuando la cantidad de procesamiento necesaria para extraer el significado supera la capacidad de una sola máquina.

El auge de la informática basada en servicios

En 1999, los usuarios en casa podían donar los ciclos de cómputo de repuesto en sus computadoras a la causa de encontrar inteligencia extraterrestre a través del proyecto [email protected] ejecutado a través de UC Berkeley. Este no fue el primer uso de computación ampliamente distribuida o computación en cuadrícula, pero es el proyecto que capturó la imaginación de los usuarios de Internet en todas partes. De repente, tuvieron la posibilidad de ser ellos quienes encontraran a “ET”. En la construcción, el proyecto distribuyó cantidades masivas de datos para su procesamiento a muchas computadoras, que realizaron cálculos en los datos para ver si había bits interesantes que probablemente no fueran solo ruido de fondo. [email protected] fue solo uno de los proyectos de computación distribuida que generó conciencia sobre el tipo de problemas en los que una sola computadora no sería suficiente.

IBM, Microsoft y otros ahora ofrecen servicios de computación y aprendizaje automático para ayudar a las organizaciones a lidiar con los datos que están capturando y darles sentido para que no tengan que movilizar un ejército de voluntarios comprometidos. Las plataformas tienen como objetivo proporcionar la potencia informática y el aprendizaje automático necesarios para extraer la información oculta en los volúmenes de datos. En lugar de que las organizaciones necesiten construir e implementar sus propios centros de datos con recursos informáticos dedicados, los recursos para transformar los datos en información y significado están disponibles para alquilar.

No se trata de los datos, se trata de la información

Aunque la cantidad de datos que estamos capturando es asombrosa, no son los datos los que son interesantes. Lo interesante es lo que los datos pueden decirle, si puede analizarlos. Las lecturas individuales sobre el rendimiento de un motor no son importantes, pero la capacidad de predecir cuándo el motor necesita mantenimiento o es probable que falle, eso es importante.

Los científicos de datos no se centran en el almacenamiento de datos como lo hacían los arquitectos de datos y los administradores de bases de datos. En cambio, se centran en la conversión de datos en información y, en última instancia, en conocimientos que la empresa puede utilizar para tomar mejores decisiones. Esto significa buscar nuevos enfoques para analizar los datos de manera que revelen información interesante que la empresa pueda utilizar en su beneficio.

De pie sobre conjuntos y estadísticas

El proceso tradicional de desarrollo de software está familiarizado con un enfoque procedimental para resolver problemas. Los desarrolladores, líderes y arquitectos conocen bien los métodos y los beneficios de la construcción procedimental. Los enfoques procedimentales son como la automatización de un trabajador increíblemente obediente pero no original. A la computadora se le dice los pasos (procedimiento) a realizar, en qué orden y bajo qué condiciones debe repetir la operación o dividirse entre múltiples rutas. Sin embargo, los científicos de datos trabajan no solo con enfoques procedimentales sino también con lógica basada en conjuntos. El estilo de pensamiento difiere, porque busca brechas e intersecciones. Funciona en base a relaciones de igualdad y desigualdad entre diferentes conjuntos de información.

Aunque algunos desarrolladores se han encontrado con la lógica basada en conjuntos en su trabajo, los científicos de datos deben sentirse cómodos y fluidos en su capacidad para manipular conjuntos de información.

Además, a diferencia de otros roles en el ciclo de vida del desarrollo de software, el científico de datos necesita una habilidad especializada fuera del ámbito del desarrollo de software. Debido a que los científicos de datos buscan información sobre las relaciones entre varios bits de datos, necesitan una base sólida en estadísticas para poder buscar y generar valores estadísticos como la correlación para responder a las preguntas que plantean y encontrar relaciones inexactas entre diferentes conjuntos de datos.

¿Hacia dónde se dirige la posición?

El crecimiento de los datos ha alcanzado el punto de inflexión. Ya sea que se trate de análisis de redes sociales, historial de clics o datos de compras, las organizaciones están viendo un valor comercial real en los datos que están bloqueados en sus bases de datos, y los científicos de datos son la clave para desbloquear el potencial de esos datos.

Capturar ese valor significa contratar a las personas que tienen las habilidades para conectar los algoritmos de procesamiento a los datos y aprovechar el poder de cómputo para crear esos resultados.

El bueno, el malo y el feo

La ciencia de datos está explotando en este momento con la llegada de los dispositivos de Internet de las cosas que registran todo tipo de datos de todo tipo de lugares. Eso significa una gran oportunidad y más de unos pocos desafíos. Estos son solo algunos de esos desafíos:

Bien: Existe una gran oportunidad para encontrar nuevas formas de extraer información de los datos.
Bien: Los recursos informáticos y de almacenamiento se pueden comprar en grandes cantidades.
Bien: Los científicos de datos tienen una gran demanda y probablemente seguirán siéndolo durante algún tiempo.
Malo: A medida que evolucionan los algoritmos y los enfoques, se sentirá siempre desactualizado.
Malo: Todos los datos tienen la necesidad de limpieza, y una cantidad sustancial del tiempo se dedicará a este trabajo.
Feo: Prueba y error significará muchos "fracasos" y pocos triunfos.

En Conclusión

El rol de científico de datos tiene una necesidad en rápida expansión y un conjunto diferente de habilidades. Si te encantaba tu clase de estadística y te encantaba encontrar patrones que otras personas no pueden ver, esto podría ser adecuado para ti.