La ciencia de los datos o data science….¿qué es y cómo se come eso?

Prácticamente todos los comentarios sobre “la ciencia de los datos” provienen de varios textos que son bastante bueno, el principal es el reporte de Mike LoukidesWhat is Data Science?, publicado por la editorial  O’reilly el cual se puede descargar desde http://radar.oreilly.com/2010/06/what-is-data-science.html

El resto de referencias se pueden leer en la bibliografía.

¿Que es un científico de datos?

Según Anjul Bhambhri el vicepresidente de productos de Big Data en IBM, “part analyst, part artist “( parte analista, parte artista).

No existe una definición clara de qué es, pero desde las perspectivas empresariales, IBM por ejemplo, un científico de datos es una persona con una preparación de ciencias de la computación, algo de estadística, modelación, análisis y “matemáticas”. Consideran su rol como un intermediario entre los líderes empresariales y TI de la empresa, pensando que son individuos con una fuerte visión de “negocios”  y que pueden ayudar a abordar el reto empresarial con mejores herramientas que las tradicionales de los “analistas de negocios”.

Y como diría Kenji Takeda de Microsoft Research, “no hay muchas definiciones pero se entiende que tienen que ver algo con Big Data”.

Pero sin una definición clara de qué es, lo que si se puede tener claro es que no es solo una persona que sabe estadística o “estadístico”, la diferencia es el tipo de métodos para analizar los datos, mientras el científico de datos trabaja de un modo más holístico y pretende entender el ciclo de los datos: de donde vienen los datos, qué hacemos con ellos y a dónde van.

En mi opinión se trata de definir para tener un modo etiquetar el tipo de perfil y conforme pase el tiempo se tendrá más detallado el tipo de herramientas y conocimientos que tendrá una persona que sea un científico de datos. Yo pienso que será primeramente desde dos puntos, el empresarial y el académico. El empresarial conforme las grandes empresas consultoras definirán como vender los servicios de sus colaboradores y por otro lado, como los gurús  de “data sciences” que están dentro de las empresas líderes en tecnología como Google, Apple, Facebook,…van definiendo tendencias partiendo del tipo de servicios, investigaciones publicadas y su impacto en los usuarios, así la académica poco a podo irá amoldándose a lo que parece que pide el mercado.

Pero un poco más definido es el tipo de rol o actividades que tienen desempeñar un científico de datos, debido a que se trabaja con datos es de esperar que con el nivel de producción de información que se tienen ahora por día se pueda pensar en que lo complicado para las empresas es lo que se  recopilar, cotejar, almacenar, transformar, limpiar, analizar, explorar, visualizar y obtener descubrimientos desde los datos, lo cual le agrega valor.

Ahora el rol de científico de datos es inseparable del de Big Data, lo cual como dice Mike Loukides, la idea de grandes volúmenes de datos no es del todo nueva ya que varias industrias ya contaban con una generación de información de manera masiva desde hace años, lo que ha cambiado es el nombre y la sensación de cercanía con la producción de información, lo cual es todo un tema para pensarse y comentase. Y como diría José Antonio Guerra, un gran científico de datos de España, “Big Data está para quedarse,pero aún no vemos la magnitud de reto al cual nos empezamos afrontar”.

Pero el titulo Big Data ahora está en todos lados, las consultoras de sistemas, las área gubernamentales que manejan información  y  empresas tienen la idea de “aplicar” soluciones para su negocios. Para mi es una moda que ahora todos quieren mencionar, pero poco se hace realmente.

Pero mi preocupación no es el preguntarme qué es un científico de datos, lo que me resulta complicado y un poco desalentador es el tipo de perfil  y el origen de donde saldrán los futuros científicos de datos.

Según DJ Petil, el perfil que le resulta más adecuado es de gente proveniente de “ciencias duras”( sí, física y matemáticas pero no nivel ingeniería), pero con cierto conocimiento en temas de computo y sobre todo gente que se formó con la idea de calibrar datos, de verificar hipótesis y de construir modelo para tal o cual fenómeno. Lo cual, es muy seguro que exista poca gente en México y quizás en general en latino américa, ya que es común ver en carreras de física y matemáticas grupos pequeño, por lo menos a mi me tocó tener en tercer semestre solo un compañero de clase y vaya clase que recibimos. Pero pienso que el panorama es aún peor, ya que de la gente que estudia “ciencias” pocos aprenden hacer cosas cercanas a la manipulación, exploración y construcción de modelos (lo cual es casi un arte).Pero si soy más pesimista, la formación en dichas licenciaturas está un poco lejos de poder dar las herramientas que se necesitan, lo digo pensando en el nivel que se tiene en los último semestres y sobre todo la falta de flexibilidad para adaptarse y crear soluciones a problemas hasta cierto punto ambiguos, si bien pueden tener la capacidad de aprender a ser “científicos de datos” creo que nos deja mal parados en México ante la alta demanda laboral que se tendrá en dicho sector en los años próximos.

“We can swim in the data and find lots of hypothesis, but the swimmers, the pool builders and the lifeguards are all going to be data scientists.” Kinji Takeda

“The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades.” Hal Varian

Referencias:

http://www.forbes.com/sites/danwoods/2012/02/16/ibms-anjul-bhambhri-on-what-is-a-data-scientist/

http://datascience.berkeley.edu/about/what-is-data-science/

http://www.microsoft.com/en-gb/enterprise/enterprise-insights-blog/articles/what-is-a-data-scientist.aspx#fbid=W4vVJf1MdUz

http://blog.revolutionanalytics.com/2013/03/what-does-a-data-scientist-do.html

Anuncios