La ciencia de los datos o data science….¿qué es?

Prácticamente los siguientes comentarios que escribo sobre “la ciencia de los datos” son influenciados por varios reportes. Los cuales son bastante buenos, son altamente recomendables el leerlos. Principalmente el reporte de Mike Loukides –What is Data Science?-

Fue publicado por la editorial  O’reilly y  se puede descargar de forma gratuita desde http://radar.oreilly.com/2010/06/what-is-data-science.html

El resto de referencias las dejo como  bibliografía, todas ellas pueden ser consultadas en la red. Pero lo que se puede mencionar es que mientras en países europeos y norteamerica el tema tienen ya una posición relevante, en latino América tienen tampoco que hace menos de un año era complicado encontrar información, opiniones o comentarios respecto a este tema.

¿Qué es un científico de datos?

Según Anjul Bhambhri el vicepresidente de productos de Big Data de IBM, “part analyst, part artist ” ( parte analista, parte artista).

No existe una definición clara de qué es, pero desde las perspectivas empresariales, IBM por ejemplo; un científico de datos es una persona con una preparación en ciencias de la computación, conocimientos de estadística, modelación, análisis de negocios y matemáticas.

Obviamente este tipo de descripción es hecho por gente de negocios, que por alguna razón olvida que la estadística y la creación de modelos forman parte de las matemáticas (hasta Bill Gate sabe bien esto, casi decidió volverse matemático en lugar de estudiar negocio en Harvard y llegó a tomar el curso Math 55 que es legendario).

En las descripciones consideran como el  rol de un científico de datos algo así como “un intermediario entre los líderes de negocio y el departamento de TI (Tecnologías de la Información) de la empresa”. Se piensa que son individuos con una fuerte visión de “negocios”  y que pueden ayudar a abordar el reto empresarial con mejores herramientas que las tradicionales de los “analistas de negocios”.

En el párrafo anterior en varias ocasiones aparece la palabra “negocio”; que son la mitad palabras mías y la mitad de IBM. Para la gente que no trabaja en consultoras de TI o en empresas de sistemas, la palabra “negocio” no debe de espantarnos ni asociarla directamente con la idea de una empresa. Esa palabra la consultoras la usan en toda su organización, pero no se usa basándose en lo que dice la RAE como definición, es más un modo de referirse a los grupos de trabajo, responsabilidades o procesos que deben de realizar como organización para atender a los clientes  o usuarios.

Regresando a la pregunta inicial, Kenji Takeda de Microsoft Research dice lo siguiente: “hay muchas definiciones pero se entiende que tienen que ver algo con Big Data”.

En la frase anterior aparece el nombre Big Data, lo cual se refiere no solo a  tener un montón de datos o información (grandes volúmenes de datos). Involucra el modo de recopilarlos, manipularlos , almacenarlos y de explotarlos. Se creé que el científico de datos interviene fuertemente en la explotación, pero puede sugerir mejoras en la recopilación y manipulación.

Entonces sin tener una definición clara de qué es un científico de datos, se puede entender que no solo es una persona que sabe estadística. Mas aún,  la diferencia entre un científico de datos y un estadístico es el tipo de métodos para analizar los mismos datos.

El estadístico trata de analizarlos, procesarlos y aplicar alguna técnica para plantear una prueba de hipótesis o hacer inferencia estadística. Mientras el científico de datos trabaja de un modo más holístico y pretende entender el ciclo de vida de la información: de dónde vienen los datos, qué hacemos con ellos y a dónde van.

Las herramientas que usan tienen cierta intersección con las que usaría gente que solo hace estadística, ejemplo; ambos usan paquetes y software estadístico. Pero  el científico de datos usa mucho más herramientas de computo que solo ese tipo de software.

Combina herramientas que van desde análisis de textos, procesamientos de imágenes, manipulación de bases de datos no estructuradas, corren procesos desde consolas del sistema operativo, analizan grafos (redes sociales) y busca construir herramientas gráficas o de visualización para comunicar los resultados. En lo cual casi siempre los especializados en estadística no suelen ser buenos.

En mi opinión, se ha tratado de definir el tipo de perfil de un científico de datos desde recientes años y conforme pase el tiempo se tendrá más detallado el tipo de herramientas y conocimientos que en “teoría” tendría que portar. Pienso que serán desde dos puntos donde se impulsarán su definición; el empresarial y el académico.

En empresarial, conforme las grandes empresas consultoras definan cómo vender los servicios de sus colaboradores como data sciences y por otro lado la ruta que marquen los gurús  de data sciences que están dentro de las empresas líderes en tecnología como: Google, Apple, Facebook, Amazon.

Creo que las empresas líderes marcarán la  tendencias partiendo de los nuevos servicios que ofrezcan, de los reportes de investigación que publiquen y de la notoriedad de su impacto en sus usuarios. Para muestra de su impacto es el filtro de recomendaciones de publicaciones visibles para cada usuario en Facebook, la mejora de recomendaciones de youtube, la combinación entre detección de búsquedas anticipadas en google, la estimación de tus tendencias y uso de espacio y desplazamientos en pantalla y todo ese puñado de algoritmos que están tomando datos para analizarse con cierta periodicidad. En general uno piensa que eso no genera ningún valor, pero basta ver la evolución de Amazon para darse cuenta del impacto que tiene. Lo anterior con un poco de ayuda del marketing, definirá un perfil más o menos estándar.

Por otro lado, la academia  irá amoldándose a lo que parece que pide el mercado y buscando satisfacer  la demanda de personal. Creo que diseñaran programas de estudio que “cubran” lo que las empresas medio definan o deseen. Supongo que será rápida la repuesta académica desde las escuelas privadas, ya que será un buen negocio vender ese tipo de perfil del egresado, más aún si continua la alta demanda de personal y siguen publicándose notas sobre la gran oportunidad de tener un salario altamente remunerado. Pero ya veremos que pasa con el tiempo.

Como antes cité, el rol de científico de datos es inseparable de lo que es Big Data. Siguiendo el comentario de Mike Loukides, la idea de grandes volúmenes de datos (Big Data) no es del todo nueva ya que varias industrias ya contaban con una generación de información de manera masiva desde hace años. Lo que ha cambiado es el nombre y la sensación de cercanía con la producción de información. Lo cual es todo un tema para pensarse y comentase, ya que invita a reflexionar sobre  “la propiedad de la información” y la “privacidad” de los datos que generamos. Un ejemplo recomendable de lo que eso significa se muestra en el vídeo de Malte Spitz y como diría José Antonio Guerra, científico de datos de Español, “Big Data está para quedarse, pero aún no vemos la magnitud del reto al cual nos empezamos afrontar”.

Pero el titulo Big Data ahora está en todos lados, las consultoras de sistemas, las área gubernamentales y  empresarios tienen la idea de “aplicar”  este tipo de soluciones para sus negocios. Para mi es una moda, gracias a la gente de marketing  y sin duda han hecho que mucha gente quiera hablar o escuchar del tema. Pero no con esto digo que no exista dicha cosa, creo que ha permeado rápidamente en la sociedad el tema y aún falta por verse todo lo que implicará en nuestras vidas cotidianas la alta generación de información.

Lo que me preocupa al leer varios reportes y ver varias entrevistas y conferencias, no es saber qué es un científico de datos; lo que me resulta complicado y un poco desalentador es el tipo de perfil  y el origen de donde saldrán los futuros científicos de datos en México  y en Latinoamérica. Más adelante explico mi preocupación.

Un comentario de  DJ Petil, jefe del grupo de Científicos de Datos en LinkedIn;  el perfil que le resulta más adecuado es de gente proveniente de “ciencias duras” (sí, física y matemáticas pero no a nivel ingeniería) con cierto conocimiento en temas de computo. Sobre todo gente que se formó con la idea de analizar datos experimentales, lo cual es muy seguro que exista poca gente en México y quizás en general en Latino América, ya que es común ver en carreras de física y matemáticas grupos pequeños de egresados.

Pero pienso que el panorama es aún peor, ya que de la gente que estudia “ciencias” pocos aprenden hacer cosas cercanas a la manipulación, exploración y análisis de datos. Pero siendo más pesimista, la formación en dichas licenciaturas está un poco lejos de poder dar las herramientas que se necesitan, lo digo pensando en el nivel que se tiene en los últimos semestres de esas carreras y  sobre todo la falta de flexibilidad para adaptarse y crear soluciones a problemas hasta cierto punto ambiguos. Esto lo comento por mi experiencia como ayudante de investigación en matemáticas, donde me tocó ayudar a revisar tareas y trabajos de chicos que están por egresar de la licenciatura.

Por ejemplo, en matemáticas puras o aplicadas, es común que se definen los problemas de tal manera que las posibles soluciones son unas cuantas opciones. En caso de las matemáticas “puras” se parte de supuestos precisos y se acota el problema de modo tal que al resolverlo (hacer su demostración) el razonamiento lógico sea coherente y correcto (lógicamente hablando), de tal modo que siguiendo la deducción uno pueda confirmar que la demostración es correcta.

En matemáticas “aplicadas“, en general te enseñan los temas que son relevantes como formación, pero que pocas veces en la práctica los encontraras con tantas restricciones y supuestos como para poder aplicar lo aprendido. Un ejemplo común es en estadística, una pieza fundamental son toda la gana de distribuciones que uno debe de aprender y la reina de ellas, la que más se enseña es la distribución normal, pero en pocas ocasiones te enseñan distribuciones de Pareto o de colas pesada. Pese a que en la práctica suelen aparecer con mayor frecuencia estas últimas.

“Haevy-tails are more “normal” than the Normal”…Adam Wierman

Lo que trato decir en el párrafo anterior, es que es posible que generemos científicos de datos, pero es muy probable que sean bastante malos o de limitadas capacidades. No subestimo a la gente, solo comento lo que mi experiencia me permitido comentar.

Creo que lo peor no esta en la gente que estudia ciencias puras, física y matemáticas; lo peor está en la gente que se está formando en ingeniería. No generalizo, pero basta revisar la cantidad de investigadores latino americanos en las empresas top para tener idea de la formación que están recibiendo los ingenieros, en un reporte se menciona que en empresas top de ingeniería solo hay un 1% de ingenieros latinoamericanos en sus filas. Lo cual da muestra del bajo nivel que se tienen en su formación.

Hace más de una década que nos hemos alejado de la formación de buenos ingeniero, ahora creo que por lo menos en México nos quedaremos relegados de manera abismal comparados con otros países como India , Corea del Sur y China.

Mejor no toco el tema de los psicólogos o sociólogos en México, que esos están poco a poco más lejos de lo que están haciendo otros psicólogos y sociólogos como científicos de datos. Para darnos un idea, basta revisar el trabajo de Josh Tenenbaum y la influencia de sus investigaciones sobre casi todos lo centros de investigación en Machine Learning y Cognición. Pero bueno, es difícil no sentir frustración a leer el tipo de investigaciones que se publican en las instituciones top en latino america al comparar con lo que hacen los buenos grupos de investigadores en otros lados y no hablo de grupos de investigación de universidades, sino de grupos de investigacion de Google, Amazon, Facebook, Microsoft, Linkedin, etc.

Deseo que mis comentarios no suenen totalmente a desanimo, solo me resulta desalentador que mientras en otras parte del mundo se está haciendo mucho en campos cercanos a Data Sciences y Big Data. En México, por lo menos de lo que estoy informado, poco se ha impulsado y los esfuerzos son menores.

Espero se consulten las referencias y hagan su análisis, y quienes estén en formación en ingenierías o en ciencias considere que es un oportunidad el aprovechar la creciente demanda de trabajo en ese campo. Pero sin olvidar que para poder competir se requiere tener buenos años de preparación y entender que son campos multidisciplinarios, no basta saber álgebra lineal y calculo de varias variables, programar en python y usar  R project, tener conocimientos de bases  y de sistemas en general; hay que tener curiosidad y trabajar de manera constante y determinada.

“We can swim in the data and find lots of hypothesis, but the swimmers, the pool builders and the lifeguards are all going to be data scientists.” Kinji Takeda

“The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades.” Hal Varian

Referencias:

http://www.forbes.com/sites/danwoods/2012/02/16/ibms-anjul-bhambhri-on-what-is-a-data-scientist/

http://datascience.berkeley.edu/about/what-is-data-science/

http://www.microsoft.com/en-gb/enterprise/enterprise-insights-blog/articles/what-is-a-data-scientist.aspx#fbid=W4vVJf1MdUz

http://blog.revolutionanalytics.com/2013/03/what-does-a-data-

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s