Ciencia de Datos y Big Data, para el 2015,…,2016,…2017..para dónde vamos?

Regresando.

A casi dos años de no escribir una entrada en el blog, me propuse darme tiempo para redactar una que otra entrada de manera frecuente.

Escribir, bien o mal, siempre ayuda a interiorizar y reflexionar sobre lo que suponemos saber. En varios ocasiones pensé en compartir cierta información, hacer cierto experimento o explicar cierta técnica o algoritmo que fui aprendiendo. No lo hice, por tiempo o por complicaciones laborales.

El titulo de la entrada lo dejé como en su momento lo publicaría en aquel lejano 2015, solo agregue los dos últimos años en tono de burla por no haber escrito nada.

¿Para dónde vamos?

La pregunta del millón de dolares cada inicio de año cuando se habla de tecnología. Mucha gente muere por saber cual es la tendencia, qué sigue, qué viene, cuál es el lenguaje aprender, cuál es el algoritmo a usar, etc.

En lo personal dudo mucho de las empresas y personas que salen a dar alguna platica diciendo lo que será el futuro en tecnología, siempre pienso en una entrevista que hicieron a Donald Knuth y la primera condición que puso para las preguntas que respondería es que no hablaría  “nada sobre futuro” o un comentario que dio en alguna charla Chema Alonso diciendo algo así  “si una persona viene y te dice que tal o cual tecnología será el futuro, aléjate de ella…por que esa persona está mintiendo” , no es la frase exacta que dijo pero es como la recuerdo.

La razón es que hablar del futuro en tecnología puede resultar absurdo, hace 8 años hablar de Deep Learning era raro y casi como ciencia oculta, hace unos 5 años hablar de Apache Spark era impensable, hablar de ciencia de datos era algo raro y en las empresas de tecnología podía significar cualquier cosa excepto algo en lo que invertirían, hablar de bots era como tema de “hackers” ..pensando en el mal uso de la palabra hacker. En fin, estos son ejemplo bobos, pero si bajamos a temas más técnicos los ejemplos son más claros y queda claro solo algo, no se puede saber qué será el futuro de la tecnología pero solo se puede considerar que seguirá cambiando.

Puede resultar  desalentador el tener siempre incertidumbre, pero en el fondo yo la tomo como la oportunidad de cambiar de actitud y tener presente que lo mejor que podemos hacer ante la evolución de la tecnología es estar abiertos a los cambios, tomar bases solidas en un tema y dedicar tiempo a formarnos y ver como surgen nuevas áreas o tecnologías.

Sucede también que lo que parece muy muy nuevo, puede no ser del todo tan nuevo como creemos ( ejemplo Deep Learning) pero toma fuerza o relevancia por lo cambios en las demandas de usuarios, en el hardware, en capacidades de computo o el abaratamiento de servicios, etc.

Pensé en al escribir esta entrada y comentar aquellos temas que han estado en mi entorno de trabajo, en mi interés personal o que han resultado relevantes según mi apreciación.

De ciencia de datos a charlatanes de datos.

El termino científico de datos se ha popularizado, para algunos es el futuro, para otros es el presente y para otros es lo que toda la vida han sido pero no lo sabían, solo que no tenían un nombre pomposo y los reflectores de algunos sectores de la industria.

En los últimos dos años, por lo menos en México, aparecieron más charlatanes de datos que científicos de datos. Cuando digo charlatanes me refiero a gente que vio la oportunidad de salir al mercado a venderse como especialista en “ciencia de datos” o las consultaras los venden como tal, pero su formación, experiencia y habilidades dicen todo lo contrario.

Junto con tantos charlatanes también han surgido muchos cursos o diplomados para volverte experto científico de datos en 1, 3 o 6 meses. Te aseguran que serás experto, llegan a decir que les en enseñarán un montón de lenguajes de programación y cuando concluyas podrás resolver cualquier reto en este nuevo mundo digital.

Muy pocos cursos tienen lo necesario, sobre valoran la enseñanza de funciones o bibliotecas para usar tal o cual algoritmo, en tal o cual lenguaje, pero no se enseñan las bases de lo que está detrás de cada técnica o de cual es el sentido de usar algún lenguaje para ciertas técnicas y su comparativa al desarrollar algún sistema o solo hacer algún análisis.

No se desarrolla la perspectiva científica para abordar un problema, solo te hacen creer que eso que te enseñan es lo que haría un científico ( sin tener la mayoría experiencia como científicos o en algún momento estar con algún equipo de científicos).

Lo veo con tristeza, por que me parece en la mayoría de los casos un robo, un abuso, muchos de los que dan esos cursos no cuentan con la experiencia o conocimientos para impartir dicho material, pero engañar a la gente no es tan difícil, basta con hablar de manera sofisticada y mencionar mil y un términos extraños para un novato para impresionar.

Mi postura es que los científicos de datos no existen; es más un nombre que se puso de moda y que está bien para etiquetar ciertas actividades. No niego que hay un conocimiento mínimo requerido en ciertas áreas, pero la mayoría de cursos son impartidos por instituciones u organizaciones que su cercanía con la industria de sistemas o tecnologías de la información es casi nula.

La idea del científico de datos que resolverá todos los problemas de la empresa es gran culpa de las consultoras, del marketing y de la casi nula cultura científica que tenemos. Si dicha figura; científico de datos, la considero como valida y existente, lo requerido para ser considerado como tal no es trivial y requiere un nivel de experiencia y conocimientos técnicos nada triviales.

La aparición de perfil de científicos de datos, creo que implica una responsabilidad mayor para la gente que se formó en ciencias. Solo por el hecho de defender con trabajo y resultados la diferencia entre una formación solida en ciencia y un charlatán que aprovecha el momento.

Veo con desanimo la proliferación de estas empresas que buscan capacitar a los futuros “científicos de datos”, veo como han aparecido y como abusan de mucha gente.

Como lo platique con una amigo, la lucha contra los charlatanes en el mercado laboral no se ve pareja pero tenemos que hacerla.

Mi recomendación es leer trabajos, blog, proyectos e investigaciones de diversas empresas que hacen uso de datos, ver los perfiles y el tipo de proyectos que se desarrollan. Pero para aprender no hay como practicar, estudiar y hacer pruebas, si en tu trabajo se tiene la oportunidad proponer proyectos, revisar metodologías, ver donde y como implementar algún algoritmo.

Después hago una entrada mostrando ejemplo de cursos que a mi parecer no vale la pena y comparando con respecto a otras fuentes donde vale mucho la pena leer y estudiar el material.

Big Data , Analítica, Machine Learning y Deep Learning, Computo Cognitivo….qué con todo eso?

Los buzzwords nunca dejan de aparecer, algo de verdad tiene cada nombre, pero en la mayoría de los casos cuando en alguna revista , periódico o charla se mencionan  se dicen cosas fuera de la realidad y de lo que realmente son.

La locura por el Big Data ha cambiado en los últimos años, ahora las modas son otras. Desde inicio del 2017 el boom de hablar de Machine Learning es la moda en muchos sectores, otros tantos hablan sobre cosas más peculiares como Deep Learning, otros sobre algo que algún vendedor les dijo que es el futuro “computo cognitivo”.

Tendencias

 

Todas estas palabras creo que se vuelven modas debido a las consultoras o al marketing que salen vendiendo lo “nuevo” o el “futuro”. Por lo cual hay que tomar con calma todos esos nombres y revisar cual es el fondo de ese nombre, es decir, a qué se refiere y qué cosas se están implementando con ello.

Pero lo peor  de las modas no son los vendedores o las consultoras, es como directivos o responsables de tomar decisiones en empresas construyen una  cadena de ignorancias, que termina repercutiendo en comprar la tecnología no adecuada o en querer implementar proyectos que no van acorde con el problema de negocio que se tiene.

Desde el punto de vista técnico, las cosas han cambiado sustancialmente y para bien, el problema es que se ha diversificado en muchos casos y las alternativas para afrontar cierto tipo de problema son variadas y depende mucho de nuestro perfil, el negocio de la empresa y del tipo de problema que se busca resolver. Ejemplo, si solo buscamos hacer una análisis para conocer nuestro mercado ( segmentar) y analizar qué campaña podemos lanzar para vender algunos de nuestros servicios o productos quizás solo necesitamos algo menor, tener R o Python, procesar los datos y hacer solo unos script. Pero si necesitamos meter el código dentro de un entorno donde hay muchos aplicativos y parte de lo que haremos será utilizado por otros, quizás lo requerido no sea algo más robusto y necesitamos tener un cluster instalado.

Hay muchos ejemplo y espero más adelante hablar de ejemplo al respecto.

El fracaso de muchas iniciativas Tecnológicas

Más de una empresa buscó subirse al tren del Big Data y después al mundo de la Analítica, haciendo uso de casi cualquier cosa que algún vendedor o consultora llegó a ofrecerles como la solución mágica.

En muchos casos las iniciativas fracasaron, no fue siempre culpa del vendedor, sino también del comprador. De los directivos o de la gente que toma las decisiones, de la falta de cultura de construir equipos y de la lógica de buscar “unicornios” todólogos. Es decir, gente que resuelve todo, pero siempre cuidando no pagar lo adecuado.

Más adelante cuento algunas situaciones donde el dinero no fue el problema, sino la cultura laboral y la falta de interés en formar equipos de trabajo adecuados.

La brecha tecnología.

El blog lo inicié con debido a una preocupación, la diferencia entre el desarrollo de algunos países con respecto a México, la carencia de información y la apatía y pereza por hacer notas o compartir conocimiento.

Los años han pasado de cuando decidí escribir, la brecha sigue creciendo, la falta de profesionales sigue creciendo y la diferencia entre los perfiles se hace a mi parecer más aguda.

Bueno más adelante, en otra entrada me dedico a desarrollar este tema y mi preocupación.

 

Proyectos en curso.

Pese a mi desanimo en varios aspectos que tienen que ver con el negocio y tecnología, creo que a diferencia del 2015 hoy existen muchos proyectos interesantes, muchos de ellos open source, muchos con temas que variados que van desde aspectos finos de Deep Learning, hasta aspectos que tienen que ver más con el despliegue de un sistema con algoritmos de machine learning, existen otros que van más con un perfil de investigación y otros que han ido metiéndose en el negocio como Apache Spark.

Sobran proyectos e iniciativas interesantes, en otra entrada platico respecto a varios que me gustan y espero comentar algunos detalles técnicos sobre ellos.

Hasta pronto!

D.L.

Anuncios