Datos, datos, datos…y ¿cuál es el perfil de un científico de datos?

Se estima que para el 2015 se tendrán aproximadamente 15 mil millones de dispositivos conectados a internet generando datos de todos los segmentos industriales, según un reporte de IDC. Pero además,  se ha estado mejorando la velocidad de conexión, siendo el promedio mundial para el cierre del 2014  aproximadamente de 4.6 Mbitps según el reporte de Akamai. Solo faltaría conocer el promedio de tiempo que pasamos conectados, por su puesto que generando datos, datos y más datos para tener una idea global de lo que se nos vienen encima en futuros años.

A mi me resulta abrumador las cifras anteriores, pero además  podemos pensar que se estima que en Facebook se tienen 40 billones de fotos cargadas, que Walt Mart tienen más de un millón de transacciones por hora , que el motor de búsqueda Google tienen aproximadamente 1.2 trillones búsquedas por año. Además, si deseamos tener nuestro código genético ya solo necesitamos 130 Gb de memoria y en 7 días lo tendríamos, pero pensar en tener el genoma de una población con algunos millones de personas se volvería una colosal labor de almacenamiento y manipulación que solo no siendo sensible al tema nos puede parecer cualquier cosa.

Pero dejando de lado lo abrumado, veo tres cosas que son problemas en todo esto; el desarrollo de tecnologías para el procesamiento, almacenamiento, manipulación y análisis de los datos; herramientas para brindar seguridad a nuestra información y el tercero, la falta de personal o equipos capacitados para afrontar tanto el análisis como la manipulación de datos. Este último punto, si uno piensa en pequeña escala, al ritmo que vamos las universidades ni los cursos en línea podrán cubrir la demanda de personal en los años venideros.

Pero no para allí el problema, la ola de datos sigue creciendo, pero no crece al mismo ritmo ni las técnicas, ni el software, ni el conocimiento de la gente para afrontar ese tipo de problemas.

Localizando la situación, en México no hay empresas que cuenten con equipos de Big Data o que estén haciendo realmente un buen trabajo en ello, lo que si hacen es tomar el nombre y venderse como tales.

Por otro lado, hay tan poca oferta académica sobre lo que implica saber de esos temas, que no solo debería de prepararse a la gente técnicamente sino también  a la academia, por que solo contamos  en México con una maestría para hacer buenos administradores de proyectos de Big Data y no hay grupos investigando seriamente sobre el tema.

Se publican pocos reportes de investigación sobre los temas relacionados con data sciences y big data y peor aún, estamos lejos de generar patentes e industrias innovadoras en ese sector.

Uno puedo investigar las estadísticas de la producción de patentes en México desde el 2009 al 2011 sufre una disminución, pero bastaría revisar de entre esas patentes cuales tienen que ver con tecnología de la información para tener una idea de cuan tan lejos iremos quedando ante la ola de cambios tecnológicos que se avecinan. Así que nos falta mucho que hacer y mucho en qué trabajar para tener alguna buena generación de ingenieros o científicos de datos en México.

Sobre Científicos de Datos

Una imagen dice más que mil palabras, así que basta con dejar una infografía de EMC:

lacarreradelfuturo-cientificodedatosemc-data-science-infographic

Algo que siempre preguntamos es, ¿qué es lo que debemos de saber para ser un científico de datos?

En el proyecto Revolution Analytics dan una lista que a mi parecer es bastante buena, estas son las cosas que uno debería de saber para hacer ciencia de datos:

  1. Algo de Java, R y Python
  2. Hadoop, HDFS &MapReduce
  3. HBase
  4. ETL,Webscrapers,Flume
  5. SQL,OLAP,RDBMS
  6. RapidMiner,Weka,Knime
  7. D3,js,Gephi,manejar la librería ggplot2
  8. Octave, Matlab, SPSS
  9. NoSQL,Mongo DB
  10. Y por su puesto el subestimado Excel.

Por su puesto que tener conocimiento de esos 10 puntos es pretencioso y casi imposible, lo que es adecuado es construir equipos con personal que cubra los conocimientos anteriores. Lo cual también es todo un problema.

¿Cuál es el perfil que en general se tienen de un científico de datos?

En el 2014 Ferris Jumah publico en dataconomy un resumen de las herramientas que reportaban científicos de datos en su perfil de linkedIn, la table a es la siguiente:

data-science-skills-2

La tabla está ordenada por la cantidad de apariciones de los términos en los perfiles, por lo cual se aprecia que las 5 primeras herramientas son las que están dirigiendo la oferta de personal. Pero no dice nada de una pieza clave, la visualización de los resultados, esto es quizás el puente en quedarse con algo muy técnico y algo que cualquiera puede entender.

Para hablar de visualización, Ferris compartió la red que se puede hacer con los datos de linkedIn, la cual es una opción gráfica para informar lo que la tabla anterior indicaba:

data-science-skills

Entonces en resumen, se requieren dos cosas en general para tener un buen perfil de científico de datos; conocimiento de software como R y su gama de paquetes y Python para desarrollar herramientas, pero otro lado el conocimiento de algoritmos de Minería de Datos y de Machine Learning son importantes, sino es que son el corazón de todos los desarrollos en ciencia de datos.

Un diagrama muestra la relación entre algunos de los campos relacionados con Data Sciences

smngoz17ju2uc4v1bg.9c27179b

Sobre Big Data

Aplicando la misma idea, de mostrar una imagen pongo una infografía y respecto a ella debo mencionar que ahora creo ver a muchos Google fanáticos, pero no somos muy objetivos cuando olvidamos a las empresas que haciendo menos ruido y después que  dejaron de ser la “sexy para trabajar en ellas” siguen haciendo cosas impresionantes y quizás con mayor impacto social que Google. Una de esas es IBM, así que basta ver los proyectos que tienen para hacerse una idea.

Acá dejo  la perspectiva de IBM respecto a como hacer Big Data

ibm-big-data

Hay un artículo bastante bueno de Rick Sherman  que puede ayudar a complementar la perspectiva de qué hacer con eso de Big Data. La idea clave no es contar con personal que cubre todo lo requerido, sino armar un equipo que puede ser pensado en que se cubra lo siguiente:

  1. Analistas de Negocio.
  2. Desarrolladores de BI.
  3. Constructores de modelos predictivos.
  4. Arquitectos de datos.
  5. Desarrolladores para integrar los datos.
  6. Arquitecto de aplicaciones.

Cada punto puede explicarse con mayor detalle, pero en general basta con buscar un poco y se encontrará con suficiente información en la red. Lo que puedo decir, es que todos tienen un rol importante y el equipo es lo principal ante proyectos de Big Data.

Ejemplo, el analista de negocios es fundamental para clarificar lo requerido por el usuario o cliente, el desarrollador de BI para revisar la información que se pide y el tipo de datos, la construcción de modelos predictivos solo puede hacerse si se tienen conocimiento del tipo de datos que se obtendrán, el arquitecto de datos puede pensar en la mejor estructura para que los modelos puedan requerir menos costo al extraer o insertar los datos, el desarrollador conocerá todos los requisitos necesarios para construir las piezas requeridas y el arquitecto podrá guiar la construcción del sistema con visión global de lo solicitando por el cliente o usuario. Así que todos están hasta cierto punto acoplados en el proceso.

Espero que la información muestre la idea general de que los Científicos de Datos y el Big Data van de la mano y además que los proyectos de esta naturaleza no los hace una sola persona, sino por un buen equipo. Lo cual ya es un labor titánico.

 Referencias:

1.-http://www.kdnuggets.com/

2.-http://www.datasciencecentral.com/

3.-http://www.thedatasciencehandbook.com/

4.-http://www.boozallen.com/insights/2013/11/data-science-field-guide

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s