Statistical computing with Scala free on-line course

Good!!!

Darren Wilkinson's research blog

I’ve recently delivered a three-day intensive short-course on Scala for statistical computing and data science. The course seemed to go well, and the experience has convinced me that Scala should be used a lot more by statisticians and data scientists for a range of problems in statistical computing. In particular, the simplicity of writing fast efficient parallel algorithms is reason alone to take a careful look at Scala. With a view to helping more statisticians get to grips with Scala, I’ve decided to freely release all of the essential materials associated with the course: the course notes (as PDF), code fragments, complete examples, end-of-chapter exercises, etc. Although I developed the materials with the training course in mind, the course notes are reasonably self-contained, making the course quite suitable for self-study. At some point I will probably flesh out the notes into a proper book, but that will probably take…

Ver la entrada original 113 palabras más

Anuncios

Un introducción al análisis de datos con Python

En la entrada “Algo sobre Python, análisis de datos y machine learning”, comenté en general sobre algunas librerías e instalación de Python, pero no mostré mucho sobre como procesar datos en un sentido amplio y general.

Termina de leer

En esta entrada trato de desarrollar con algunos ejemplos un tono más parecido a lo que uno hace en R project cuando tienen información. Ejemplo, en general cuando se tienen una “tabla” de datos uno revisa ciertos aspectos; si es información que lista para analizar quizás contenga campos sin información (NaN), las variables y el tipo de variables ( categóricas, indicadoras, etc.). Después uno juega con algunos gráficos que ayudan a tener una visión o perspectiva de los datos. Pero hay otro tipo de cosas que uno puede hacer, como “juntar” esa tabla de datos con otra, seleccionar solo ciertas variables, modificar la forma de la tabla para hacer algo más parecido a una tabla pivot,etc.

Este tipo de cosas son en general usuales en R, pero también se pueden hacer en Python( y en Spark), la librería es Pandas. En el sitio correspondiente a la librería se tienen suficiente material y ejemplos para hacer cosas, como seleccionar algunas columnas, seleccionar algunas filas, explorar los Missing Values, hacer operaciones merge, join o concatenación, o por otro lado aplicar la versión local del MapReduce que es Split-Apply-Combine (SAC), etc.

En la página se cuentan con varios manuales breves que pueden ser guías buenas e ilustrativas. La referencia obligada a estudiar o leer para tener un buen acercamiento con este módulo es el libro “Python for Data Analysis”, escrito por el creador del módulo Wes McKinney.

La intención de esta entrada es hacer un recorrido rápido sobre las operaciones básicas, que van desde la carga de datos y la exploración gráfica básica , hasta el procesamiento de los Data.Frame para aplicar técnicas del tipo SAC.

No intento que sea exhaustiva esta entrada, es más una lista de ejemplos breves. Al final de la entrada dejo la liga a un tutorial más amplio ( pero aún así breve) que escribo sobre el uso de Pandas y que dejo alojado en Github.

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

Si leíste la entrada hasta aquí, seguro te parecerá raro porqué está marcado buena parte del texto y otro párrafos no. Bueno, después de intentar escribir esta entrada decidí tomarme un poco más en serio el escribir un breve tutorial con ejemplos construidos con datos reales.

Como ya es más o menos escuchado el tema de “datos abiertos” decidí escribir algunos ejemplos de la manipulación de datos con Pandas.

La liga es la siguiente:

https://github.com/dlegor/Tutorial-Pandas-Python

Espero posteriormente remediar lo redactado en esta entrada y terminar el tutorial, pero ya tienen material suficiente para tener un breve pero práctico acercamiento a procesar datos con Python.

—–Pendiente por terminar.

 

 

 

 

Los números de 2015

Los duendes de las estadísticas de WordPress.com prepararon un informe sobre el año 2015 de este blog.

Aquí hay un extracto:

La sala de conciertos de la Ópera de Sydney contiene 2.700 personas. Este blog ha sido visto cerca de 8.800 veces en 2015. Si fuera un concierto en el Sydney Opera House, se se necesitarían alrededor de 3 presentaciones con entradas agotadas para que todos lo vean.

Haz click para ver el reporte completo.

¿Qué es NLP?…procesamiento de lenguaje natural

Las entradas de esta categoría contienen ejemplos de NLP, pero en general la implementación de la librería NLTK de python y su contra parte en tm en R project, pero principalmente los ejemplos son en Python. La idea es compartir de manera breve algunos detalles y ejemplos que en buena parte provienen de la referencia [1] y están disponibles en línea en la referencia [2].

Agrego algunos comentarios o variaciones, la intención con estas entradas es motivar a que se consulten otras fuentes y  comentar más adelante sobre lo avances recientes en Deep Learning en NLP, sobre lo cual se puede consultar la referencia [3].

También comparto unos ejemplos haciendo uso de otros módulo, scikit-learn, para implementar algunas técnicas de Machine Learning.

En caso de estar interesado en investigar sobre una breve introducción teórica y con muchos detalles en explicación,  para mi gusto una buena referencia son los capítulos 22 y 23 de la referencia [4], en el cual se  desarrolla el marco teórico sobre el cual hasta ahora es en parte vigente la investigación en este tipo de temas. Existen nuevas metodologías y nuevas técnicas, sobre material de investigación por la relevancia que se tienen de mejorar los sistemas y técnicas para el procesamiento de lenguaje natural.

Un ejemplo vistoso….qué no me quedó.

Dejo la liga donde puede visualizar un ejemplo de nubes de palabras hechas con el módulo wordcloud de python. Tuve algunos problemas con las fuentes  para poder correrlos en windows y el código para poder hacer que funcione correctamente, así que posteriormente comparto los detalles del ejemplo que tenía pensado compartir. Puede verse el código de ejemplo de Alicia en el mismo repositorio.

alice

Liga del repositorio: https://github.com/amueller/word_cloud

Comentario: Espero posteriormente corregir los problemas del código con las fuentes de windows.

Un ejemplo no tan vistoso

Algunos conceptos que no menciono a detalle son las listas, tuplas y cadenas. Estas son estructuras de datos de python, se cuenta con mucha información sobre cómo se opera con ellas o qué métodos funcionan.

Un ejemplo sencilla para conocer cómo se trabaja con ellas es usar Ipython  es lo siguiente:

#Listas
a=['1','2','3','4']
#type() dice el tipo de datos que es
type(a)
#En Ipython 
a.<taps>
#Despliega una lista de métodos básicos para las listas

#Cadena
b='1234'
type(b)

b.<tabs>
#Despliega una lista de métodos básicos para las cadenas

#Define una tupla
c=("1","2","3","4")
type(c)
c.<tabs> 
#Despliega dos métodos básicos con las tuplas

En las referencias se pueden consultar operaciones con los métodos o con otras funciones de python. Estas estructuras de datos son importantes, debido a que muchos de los textos con cargados como listas o como cadenas  y se opera con ellos mediante sus operaciones naturales.

Debido a que hablar de listas, tuplas y diccionario requiere mucho detalle recomiendo consultar una breve introducción en línea proporcionada por el grupo de Stanford, el cual es breve y preciso respecto a lo que se necesita saber de esos temas:

Liga del tutorial de Stanford: Introducción a Python

Lo siguientes ejemplos pueden ser enriquecidos consultando la referencia [1] y [2], las cuales son sumamente buenas y contienen prácticamente todo lo que uno debe de saber de NLP, sobre todo del manejo de la librería NLTK.

Lo primero es tener el módulo instalado en python, ya que se tenga instalado lo importante es usar los textos o corpus con los que cuenta la librería.

Para instalar el módulo depende de la distribución de python que se instala pero sobre en general se puede usar el módulo pip para instalar cualquier módulo.

Lo básico es lo siguiente:

#NLTK
import nltk
nltk.download()
#Cargar los libros

nltk.book()
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908

Ya que se tiene esto, se cuenta con 9 textos con los cuales se puede trabajar o aprender a usar las funciones básicas de NLTK.

En la lógica de procesar textos está en medio el concepto central de Corpus, esto en el fondo significa que es un conjunto de textos. La intención en general es estudiar o construir Corpus y analizarlos.

En los libros disponibles en NLTK en algunos casos son un textos y no una colección, pero por ejemplo, el el texto 3, 4 y 8 son Corpus, en otro caso está formado el Corpus por un solo texto. Pero siendo abstracto, un conjunto es no vacío si cuenta por lo menos con un elemento( distinto al vacío, cosa de teoría de conjunto). Pero en resumen el conecto de Corpus en cualquiera de las notaciones del procesamiento de textos significa un conjunto de textos.

Algunas operaciones sencillas son identificar concordancias, cuando una palabra tiene contextos similares o cuando tienen un contexto común. La diferencia entre similar y común, es que en la primera se explora qué otras palabras tienen el mismo contexto y en común se toman dos palabras y se explora si tienen algo en común en el contexto.

Un tema delicado es la definición de “contexto”, esto para un sentido práctica en el procesamiento tienen la idea de identificar al derredor de que palabras aparece la palabra que buscamos.

Entonces como ejemplo, suponiendo que elegimos el Corpus de discursos, aún que están en inglés una palabra que posiblemente aparezca es ‘nation’, así que podemos explorar su concordancia, las palabras similares y eligiendo alguna de las similares podemos explorar si tienen un contexto común.

#Ejemplo
text4.concordance('nation')

#Lo que se vería en la consola es:
#Displaying 25 of 302 matches:
# to the character of an independent nation seems to have been distinguished by
#f Heaven can never be expected on a nation that disregards the eternal rules o
#first , the representatives of this nation , then consisting of little more th.....

#Reviso las palabras similares en el Corpus
text4.similar('nation')

#Lo que se vería es:

#people country government world union time constitu#tion states
#republic law land party earth future other presiden#t strength war
#congress spirit

#Elijo la palabra 'country' para explorar el contexto común con la palabra 'nation'
# Se debe de ingresar en la función como lista , es decir se usa:[]
text4.common_contexts(["nation","country"])

#our_by of_and no_can the_now and_the our_from the_t#he no_has whole_in
#our_that the_in our_i this_to our_today the_for a_w#e our_in the_are
#the_i the_and

Ahora en  breve lo que hacen las funciones anteriores es encontrar el contexto, las palabras que tienen “contexto similar” y compara el contexto común.

Algo que siempre está presente en el análisis de datos es hacer gráficas, entonces una gráfica fácil de hacer es explorar la dispersión de un conjunto de palabras o como se comporta la frecuencia con la cual aparecen ciertas palabras en un Corpus.

El ejemplo lo hago con el Corpus text4 que son discursos.

#Gráfica de dispersión
text4.dispersion_plot(["nation","people","government","law"])

#Gráfica de la frecuencia de las palabras

fdist=FreqDist(text4)
fdist.plot(50,cumulative=True)

Las gráficas que se obtienen son la siguientes:

Dispersión

Frecuencia_de_Palabras

La primera gráfica es similar a la que se construye para hacer una gráfica  “jitter” de un conjunto de datos, de cierto modo muestra las apariciones de las palabras en el texto y la segunda gráfica muestra cuales palabras domina la distribución de la frecuencia de 50 palabras.

Otro aspecto básico cuando se analizan datos, es conocer información numérica, es decir; en este caso sería importante conocer la cantidad de palabras de un texto, cuantas se usaron sin contar repeticiones y quitar las palabras o puntuaciones que puedan ser contadas como caracteres. Esto último está relacionado con el concepto de “tokenización”  del texto.

El código siguiente hace las operaciones anteriores:

#Conteo
len(text4)
145735
#Contando las palabras y símbolos , sin repetición
len(set(text4))
9754
#Porcentaje en el que aparecen las palabras
from __future__ import division

len(text4)/lent(set(text4))

14.941049825712529

#Conteo de apariciones de una palabra en el texto

text4.count('nation')
235

#Porcentaje de apariciones en todo el texto

text4.count('nation')/len(text4)
0.0016125158678423166
text4.count('and')/len(text4)
0.03424709232511065

Esto último no tienen mucha relevancia cuando se piensa en un solo texto, pero pensando que se tienen varios textos que analizar puede resultar interesante como se comporta la densidad de los textos y comparar entre ellos.

Un ejemplo den R.

Para hacer el ejemplo en R uso algunos librerías y un texto; Alicia en el país de las maravillas. Para el ejemplo hago uso de las librerías tm, languageR y ggplot2.

Lo siguiente es más normal a lo que se hace, en el ejemplo en Python ya se contaba con Corpus de ejemplo y se analizaban algunas cosas sobre las palabras, contexto, distribución, etc. En este ejemplo, se construye a partir de un texto un Corpus  y su matriz de términos.También se construye una tabla con información básica de las frecuencias.

No explico a detalle lo que hacen las funciones pero pueden leer un poco respecto a como las uso en las entradas ¿Cuánto se puede saber de los discursos? y Clasificación Binaria.

Las funciones que uso son las siguientes:

library(tm)
library(ggplot2)
library(languageR)

tdm2<-function(doc){
 docCor<-Corpus(VectorSource(doc))
 docs <- tm_map(docCor, stripWhitespace)
 docs <- tm_map(docs, removeWords, stopwords("english"))
 docs <- tm_map(docs, removePunctuation)
 docs <-tm_map(docs,removeNumbers)
 docs <- tm_map(docs,content_transformer(tolower))
 DocsTDM <- TermDocumentMatrix(docs) 
 return(DocsTDM)
}

TablaFreq<-function(TDM){
 docmatrix <- as.matrix(TDM)
 doc.counts <- rowSums(docmatrix)
 doc.df <- data.frame(cbind(names(doc.counts),as.numeric(doc.counts)),stringsAsFactors = FALSE)
 names(doc.df) <- c("Términos", "Frecuencia")
 doc.df$Frecuencia <- as.numeric(doc.df$Frecuencia)
 doc.occurrence <- sapply(1:nrow(docmatrix),
 function(i)
 {
 length(which(docmatrix[i, ] > 0)) / ncol(docmatrix)
 })
 doc.density <- doc.df$Frecuencia / sum(doc.df$Frecuencia)
 
 # Add the term density and occurrence rate
 doc.df <- transform(doc.df,density = doc.density,ocurrencia =doc.occurrence)
 S=head(doc.df[with(doc.df, order(-Frecuencia)),], n=50)
 return(S)
}
 
data(alice)
L=tmd2(alice)
L1=TablaFreq(L)

#Gráfica de frecuencia de palabras.

ggplot(L1,aes(L1$Frecuencia,factor(L1$Términos,levels=L1$Términos)))+geom_point(stat="identity", colour="red")+ggtitle("Tabla de Frecuencias")+xlab("Frecuencia de la palabra")+ylab("Las 50 alabra más frecuentes")

Lo que se hace es construir un Corpus del texto de Alicia en el país de las maravillas, luego se construye una tabla con las frecuencias de las palabras respecto a los que se llama Matriz de términos del texto o corpus, por último se grafica el comportamiento de las 50 palabras más frecuentes.

La gráfica que se obtiene es la siguiente:

Alice_plot

En esta pequeña entrada solo traté de mostrar que existen varias herramientas para el procesamiento del lenguaje natural y de text mining. Si bien no es una entrada muy vistosa, la intención es en las siguientes entradas explicar más detalles y técnicas. En las referencias se encuentra suficiente información para aprender respecto al tema.

Referencias:

1.-http://www.nltk.org/book_1ed/

2.-http://www.nltk.org/book/

3.-http://nlp.stanford.edu/courses/NAACL2013/

4.-http://cs224d.stanford.edu/syllabus.html

5.-http://www.gandhi.com.mx/inteligencia-artificial-un-enfoque-moderno

¿Cuánto se puede saber desde los discursos?

Esto es un juego.

Esta entrada la estuve pensando en la última semana de Septiembre 2015, en especial debido a varios acontecimientos y fechas que se celebran en México. Ejemplo, el 1° de Septiembre se hace entrega del informe anual del gobierno por parte del presidente, el día 15 se celebra el día de la independencia de México, el día 27 de Septiembre del 2014 sucedieron unos hechos lamentables en el estado de Guerrera dónde 43 estudiantes de una Normal Rural fueron “desaparecido”. Pero más aún, con motivo de este último suceso se han realizado manifestaciones y posiblemente se vuelven desde este año actos que se realizarán año con año.

Lo que observé en Facebook, en twitter  y en la prensa, suele ser variado dependiendo del perfil tanto de las personas como de los periódicos. Pero algo que observé fue que las críticas se centraban en los discursos del presidente, sobré algo que decía, sobre lo dicho en la ONU con sede en New York mientras se llevaban acabo manifestaciones en México. Sobre el tipo de palabras, sobre los comentarios, etc.

Algunas frases fueron tomadas como los objetivos centrales de las críticas de dichos discursos. Entiendo que existen un equipo que redacta los discursos del presidente, pero también entiendo que existe un personal que revisa y que verifica el tipo de términos y explicaciones que se dirán. Evito imaginar que se tenga una estrategia para hacer crítica o freno a las aspiraciones políticas de un posible candidato a la presidencia, cuando aún faltan 3 años para la contienda electoral, la entrada la hago sin tener una postura política sobre las conclusiones e interpretaciones que se dieron a los discursos.

Pensé que no sería mala idea jugar con una muestra pequeña de discursos (48) y analizar cosas básicas para tratar de ver cómo ha cambiado la “similaridad” entre los discursos, ver cuáles han sido los tópicos a los largo de los meses y tratar de ver qué se puede saber de manera estadística desde los discursos. Pienso que son otros los capacitados para hacer un análisis de tiempo y espacio donde se dice tal o cual discurso y la relevancia o repercusión de lo dicho.

Esto no desentona en tipo de entradas, ya que no es para nada una manifestación política o una entrada donde trato de mostrar algo negativo del gobierno o donde trato de concluir o deducir algo sobre lo que sucede en el país. Es simplemente jugar con un puñado de datos y ver que se descubre.

Con toda mi ignorancia sobre como interpretar un discurso, me atrevo a suponer de un modo simplista que cada discursos político tienen algo de “localidad” y de “temporalidad”. Con localidad, pienso que depende de donde es emitido, de cuan tan importante es el lugar donde se emite y lo temporal me refiero al momento que rodea a dicho discurso, los acontecimiento cercanos, los sucesos sociales y políticos que acontecen en las fechas en las que se dice dicho discurso. Por otro lado, imagino que otro factor que afecta la “relevancia” de un discurso es gracias a los medios de comunicación, ya que bien un discurso puede ser parte de un evento donde un mandatario comunica algo o puede ser usado como parte de la información que usa y discute un medio de comunicación, el cual termina perneando la opinión publica.

Esto de cierto modo me permite hacer una análisis de textos, clasificar los discursos, detectar tópicos en los discursos, comparar por medio de medidas de similaridad como han cambiado o en qué meses se muestra mayor similaridad, comparar la muestra con respecto al informe y la participación en la ONU, etc. Estos aspectos pueden ser trabajados con una combinación de herramientas y algoritmos, lo cual pensé que sería divertido ver hasta donde se puede saber algo desde los discursos.

Sobre la muestra.

Tomé 48 discursos, 4 por mes desde Septiembre 2014 hasta Septiembre 2015. Los elegí de manera aleatoria, todos fueron guardados en archivos txt. Los  discursos varían, tanto en cantidad de palabras como el tipo de evento en el cual se emitió.

La muestra de discursos fue tratada tanto para hacer un Corpus Global, como uno por cada Mes, y de igual forma se compararon todos los discursos de manera independiente para identificar similaridad.

Lo que decidí hacer.

Escribí unas funciones las cuales me permitían dos cosas, extraer las palabras que aparecen con mayor frecuencia y aplicando LDA tomé 20 palabras del primer tópico detectado. Definí un corpus por año,  por mes y tomé los discursos qué más escuche comentar, el discurso del Informe de Gobierno y el Discursos en la ONU como la pareja inicial a comparar.

Así que use la medida de similaridad de Jaccard, que es una medida muy sencilla para definir entre los discursos cuales eran más cercanos según las palabras más frecuentes y cuales por las 20 palabras detectadas en el primer tópico.

Primero muestro un ejemplo y al final muestro los resultados obtenidos con todos los discursos.

Informe de Gobierno e informe ONU.

El código lo comparto más adelante. Los resultados son los siguientes:

#Comparación entre los discursos de la UNO y el Informe de Gobierno

dir1="C:\\.....ruta.....\\150928_ONU.txt"

dir2="D:\\.....ruta......\\150902_Informe_EPN.txt"

#Extracción del mensaje
Doc1<-msg(dir1)
Doc2<-msg(dir2)

#Contrucción de la matriz de terminos
TMD1<-tdm2(Doc1)
TMD2<-tdm2(Doc2)

#Se contruye su matrix de frecuencias
L1=TablaFreq(TMD1)
L2=TablaFreq(TMD2)

head(L1,5)
#    Términos  Frecuencia density ocurrencia
#356 naciones   15       0.01764706 1
#351 mundo      10       0.01176471 1
#330 méxico      9       0.01058824 1
#391 paz         9       0.01058824 1
#551 unidas      9       0.01058824 1
 
head(L2,5)
#     Términos Frecuencia density ocurrencia
#1597  méxico    92    0.014212884 1
#1603  mil       69    0.010659663 1
#1661  nacional  51    0.007878882 1
#1767  país      51    0.007878882 1
#1596  mexicanos 48    0.007415418 1

Jaccard(head(L1,20),head(L2,20))
#0.1428
#Gráfica
graphFreq(L1)
graphFreq(L2)

#Contruyo el DTM de cada texto
DTM_1=DTM(Doc1)
DTM_2=DTM(Doc2)

#Extraego las priemras 20 palabras asociadas con el primer tópico
top1<-TopicLDA(DTM_1)
top2<-TopicLDA(DTM_2)

top1
[1] "naciones" "derechos" "onu" "organización" "respeto" "agenda" 
[7] "frente" "humanidad" "humanos" "armas" "colectiva" "con" 
[13] "general" "seguridad" "señores" "acción" "clara" "consejo" 
[19] "favor" "futuro" 

top2
[1] "méxico" "con" "mil" "país" "reforma" 
[6] "gobierno" "mayor" "año" "administración" "familias" 
[11] "república" "años" "por" "justicia" "programa" 
[16] "educación" "crecimiento" "condiciones" "partir" "pobreza

Jaccard(top1,top2)
#0.0256

Se observa que hay una similaridad mayor entre los discursos cuando se consideran la palabras con mayor frecuencia o apariciones. La palabra que generó mayor crítica en los medios fue “populismo” y “populistas”. Estas dos palabras hicieron que se criticaran mucho los 2 discursos, lo que muestran los datos es que esas palabras aparecen muy poco, comparado con el efecto que generaron en los medios. De cierto modo son como “palabras singulares” que ejercieron mucho impacto en la apreciación del discurso.

La gráficas de las 50 palabras más citadas son las siguientes:

EPN_ONU

Discurso ONU

EPN_IG

Discurso Informe de Gobierno

Se observa que entre los dos discursos existe una diferencia considerable entre el tipo de palabras que se emplean y la frecuencia, también de la gráfica se puede apreciar que hay cierta “forma” diferente entre las palabras más citadas. Lo cual es notorio que la palabra “méxico” domina el discurso de Informe de Gobierno, por otro lado las palabras “naciones” y “mundo” el discurso de la ONU.

Lo que no muestra gran cambio es el desvanecimiento del color, que representa los cambios de la “densidad” de la frecuencia de las palabras. Concluir algo de estos datos es sutil y posiblemente confuso y atrevido, así que limitándome a lo estadístico se puede decir que hay en estructura diferencias pero muy sutiles, casi no se puede decir nada de esta comparación.

Dándole una interpretación a los tópicos y las mediciones de similaridad, los discursos en cuanto a “estructura”; las palabras más frecuentes, muestran un 14% de similaridad. Pero cuando uno analiza las palabras asociadas al primer tópico detectado, se observa que realmente solo son similares en escaso 2%. Los tópicos me parecen más relevantes, y es notoria la diferencia detectada. Las 20 palabras del primer tópico muestran al discurso de la ONU como algo “global” o “mundial”, y al discurso del informe de gobierno lo muestran como algo “nacional” y de problemas “socio económicos”.

En conclusión; como es de esperar,  se puede decir que los discursos no son tan similares (bajo esta medida de similaridad).

Lo global

Haciendo un corpus con los 48 discursos analizar, puedo comparar con respecto a los otros dos y analizar el comportamiento de la similaridad.

#Procesamiento de los discursos
#Librería para la nube de palabras
library(wordcloud)

dir="D:.....ruta....."
setwd(dir)
#Lista de directorios
filesall<-dir()
#Documentos y corpus
corpusalldoc<-sapply(filesall,function(p)msg(p))
corpusall<-tdm2(corpusalldoc)

#Tabla de frecuencias
Lall=TablaFreq(corpusall)

#Gráfica de frecuencias
graphFreq(Lall)

#Tópicos
DTMall<-DTM(corpusalldoc)
Topic_all<-TopicLDA(DTMall)

#Selección de conjunto de palabras para la nube de palabras
Grupo1<-rowSums(as.matrix(corpusall))
Grupo1<-subset(Grupo1,Grupo1>=30)
m<-as.matrix(Grupo1)
dim(m)
word_freqs = sort(rowSums(m), decreasing=TRUE)
dm = data.frame(word=names(word_freqs), freq=word_freqs)
wordcloud(dm$word, dm$freq, random.order=FALSE, random.color=FALSE,colors=brewer.pal(10,"Dark2"))

La gráfica y la nube de palabras que se obtiene es la siguiente:

Palabras_48 disc

Nube_48disc

Comparando con la métrica de similaridad se tienen lo siguiente:

#Medida de Similaridad
#Palabras más frecuentes
#UNO vs los 48 Discursos
Jaccard(Lall[,1],L1[,1])
#0.123
#Informe de Gobierno vs 48 Discursos
Jaccard(Lall[,1],L2[,1])
#0.282

#Tópicos
#ONU vs los 48 Discursos
Jaccard(Topic_all,top1)
#0.0526
#Informe de Gobiernos vs los 48 Discursos
Jaccard(Topic_all,top2)
#0.1428

Se aprecia que la medida de similaridad es mayor entre el discurso de informe que el de la ONU con respecto al corpus de los discursos. Era de esperar que fuera así, por la naturaleza del discurso y la fecha a la cual corresponde.

Es claro que los dos discursos tienen mayor similaridad con la muestra de discursos en el año, que entre ellos. Las dos preguntas que me hago al observar esto es, ¿cómo se comporta esta medida de similaridad por mes? y ¿cuál discurso muestra mayor similaridad con el de gobierno y el de la ONU?

Por Mes y por Discurso.

Haciendo la comparación por meses, se tienen que a comparar los dos discursos, el de la ONU y el del Informe, se tienen que por corpus construido por mes, se tiene gráficas como las siguientes:

Frec_Meses

El comportamiento por tópicos muestra otro comportamiento, el cual genera la siguiente gráfica:

Topic_Meses

Las gráficas de la métrica por mes muestra lo que uno puede esperar, el discurso de la ONU llega a no tener nada de similaridad en los meses de Marzo y Abril con la frecuencia de palabras, pero peor aún muestra poca similaridad con el primer grupo de tópicos en los meses de Octubre, Diciembre, Enero, Abril, Mayo y Septiembre. Es decir, el discurso dado en la ONU considerando que su primer grupo de tópicos se refiere aspecto mundiales o globales, ese no fue tema en esos meses con respecto a la muestra.

Por otro lado, el discurso del informe uno espera que sea similar al dado cada año o que las palabras que se usan en el mes de Septiembre suelen ser usuales. Eso muestra la primera gráfica, pero además vuelve a ser similar al inicio del año. Por otro lado al considerar los tópicos no muestra el mismo comportamiento, resulta que el mes de Junio es por alguna razón el mes con el cual muestra mayor similaridad. Eso me resulta raro, pero así resultó la medida de similaridad.

Ahora considerando cada uno de los discursos elegidos para analizar, el comportamiento que muestran con la frecuencia de palabras es el siguiente:

Freq_por_discurso

Esta muestra algo un poco más interesante, primero el mes de Septiembre muestra mayor similaridad y me resulta extraño que solo con el mes de Septiembre en el 2014, pero también uno puede observar que el mes de Enero con respecto al informe muestra un comportamiento de alta similaridad. Uno puede pensar que con motivo de inicio del año los discursos suelen ser “alentadores” , “nacionalistas”, “de mejoras” , etc. Esto pienso que puede ser interesante revisar una muestra de varios años y comparar como se comporta conforme pasan los años y quizás muestra estacionalidad la medida de similaridad.

Respecto al informe de la ONU muestra que no es usual que en los discursos se haga uso del mismo tipo de palabras, lo cual uno puede esperarlo ya que no suele decirse mucho del contexto “global”, como en el discursos de la ONU.

La gráfica de los tópicos, muestra el siguiente comportamiento:

 Topic_por_discursoLos tópicos muestran una cosa curiosa, el discurso de la ONU muestra entre los meses de Noviembre-Diciembre una alza, ¿efecto de la navidad para hablar del mundo?..no lo se, esto igual permite que si se hace una muestra mayor analizar si hay algún efecto en el primer grupo de tópicos detectados con la técnicas LDA.

Por otro lado el comportamiento del discurso del Informe muestra una alta similaridad en meses como Enero, Mayo y Junio. De nuevo que el mes de Enero aparezca con valores considerablemente mayores me hace suponer que al inicio del año y a medio año suelen tener este comportamiento de realzar o motivar ciertas cosas “nacionalistas” o “de esperanza” de ser un mejor país. No lo se, solo me hace pensar que teniendo una muestra mayor uno puede empezar hacer cosas más interesantes y jugar a poner algunas hipótesis para experimentar.

 ¿Qué cosas hacer para mejorar esto?

Haciéndome auto-críticas, pienso que hacer una muestra mayor y con discursos de varios años puede resultar más interesante. Por otro lado hacer uso de mejores técnicas o de otras técnicas de medidas de similaridad para explorar como se comportan los discursos con varias medidas. Por último no estaría mal hacer una muestra de otros mandatarios para revisar como evolucionan los tópicos y ver como se comportan ante camios o hechos históricos, cosas de ese estilo.

 Código

Comparto las funciones principales, el resto son muchas líneas de código de loops o de procesar un poco los datos para hacer las gráficas. Por lo cual comparto solo lo más importante del código.

library(tm)
library(NLP)
library(ggplot2)

#######################################
#Mensaje
msg<-function(path){
 con<-file(path,open='rt')
 text<-readLines(con, warn = FALSE, n=-1, encoding = "UCS-2LE")
 close(con)
 return(paste(text, collapse = "\n"))
}

#####################################
#TDM

tdm<-function(doc){
 control<-list(removeWords(stopwords("spanish")),
 removePunctuation,
 removeNumbers,
 content_transformer(tolower),
 minDocFreq=2)
 doc.corpus<-Corpus(VectorSource(doc))
 doc.tdm<-TermDocumentMatrix(doc.corpus,control)
 return(doc.tdm)
}

#######################################
#TDM versión 2
tdm2<-function(doc){
 docCor<-Corpus(VectorSource(doc))
 docs <- tm_map(docCor, stripWhitespace)
 docs <- tm_map(docs, removeWords, stopwords("spanish"))
 docs <- tm_map(docs, removePunctuation)
 docs <-tm_map(docs,removeNumbers)
 docs <- tm_map(docs,content_transformer(tolower))
 DocsTDM <- TermDocumentMatrix(docs) 
 return(DocsTDM)
 }

############################################
#Tabla de frecuencias
TablaFreq<-function(TDM){
 docmatrix <- as.matrix(TDM)
 doc.counts <- rowSums(docmatrix)
 doc.df <- data.frame(cbind(names(doc.counts),as.numeric(doc.counts)),stringsAsFactors = FALSE)
 names(doc.df) <- c("Términos", "Frecuencia")
 doc.df$Frecuencia <- as.numeric(doc.df$Frecuencia)
 doc.occurrence <- sapply(1:nrow(docmatrix),
 function(i)
 {
 length(which(docmatrix[i, ] > 0)) / ncol(docmatrix)
 })
 doc.density <- doc.df$Frecuencia / sum(doc.df$Frecuencia)
 doc.df <- transform(doc.df,density = doc.density,ocurrencia =doc.occurrence)
 S=head(doc.df[with(doc.df, order(-Frecuencia)),], n=50)
 return(S)
 }

##############################################
#Gráfica de frecuencias
graphFreq<-function(L){
 library(ggplot2)
 #Se debe de introducir la matriz con frecuencias
 #Gráfica de palabras y frencia
 p<-ggplot(L,aes(x=factor(Términos, levels=unique(as.character(Términos)) ), y=Frecuencia))+geom_bar(stat = "identity",aes(fill=density))+
 coord_flip()+xlab('Apariciones en el texto')+ylab('Las 50 palabras más frecuentes') 
 return(p)
 }

##########################################
#Función para extraer el Document term Matrix
DTM<-function(Texto){
 docCor<-Corpus(VectorSource(Texto))
 docs <- tm_map(docCor, stripWhitespace)
 docs <- tm_map(docs, removeWords, stopwords("spanish"))
 docs <- tm_map(docs, removePunctuation)
 docs<-tm_map(docs,removeNumbers)
 docs <- tm_map(docs,content_transformer(tolower))
 DocsTDM <- DocumentTermMatrix(docs) 
 return(DocsTDM)
}

################################################
#Topic
TopicLDA<-function(DTMdoc){
 #Regresa las 20 palabras relevantes del primer tópico detectado
 library(topicmodels)
 r.lda=LDA(DTMdoc,method="Gibbs",2)
 L=terms(r.lda,20)
 return(L[,1])
 }

##############################################
#Similaridad de Jaccard
Jaccard<-function(A,B){
 a=length(intersect(A,B))
 b=length(union(A,B))
 a/b
}

Análisis de Grafos

En esta entrada hago una recopilación de varios post de Andrie de Vries. Ya que el ejemplo que realiza se puede replicar sin problema alguno, la muestra de datos es suficientemente grande como para ser interesante y combina varias técnicas para detectar comunidades o clusters, con la finalidad de encontrar los nodos más sobre salientes del grafo.

Una área de investigación importante tanto en matemáticas, en física como en ingeniería; es la investigación en Grafos Grandes o redes largas (Large Graph). Sobre este tema recomiendo la referncia [1]. En lo personal es una área que me gusta y que pese a saber poco, trato de leer y de aprender al respecto, quizás más aspectos teóricos que prácticos; pero suele ser grato tener algunos ejemplos de donde aparecen los objetos matemáticos estudiados.

No puedo, ni pretendo hablar de teoría de grafos o gráficas por que no soy el adecuado para hablar a detalle del tema, pero recomiendo las referencias [2,3] para acercarse al tema desde el lado de algoritmos y desde el punto de vista de matemáticas discretas. Un libro en línea que puede ser una grata introducción a manejar grafos en python se puede ver en la referencia [4].

De que trata el ejemplo.

Hago uso de las idea y parte del código de Andrine Vries para mostrar como procesar un grafo. Este está formado por una muestra de paquetes o librerías de R, así que con más  7000 nodos es interesante aplicar ciertos algoritmos.

Las etapas son las siguientes:

  1. Cargar los datos y explorar parte de ellos.
  2. Aplicar el algoritmos PageRank.
  3. Aplicar técnicas de Cluster para grafos y comparar entre algunos algoritmos.
  4. Mostrar algunas representaciones gráficas sobre el grafo y el impacto de los algoritmos en él.

La idea es explicar el uso de cada librería en los puntos anteriores y el uso de Gephi.

Etapa 1. Generar los datos

Antes de mostrar un ejemplo sencillo de como generar un grafo, la idea de grafo es contar con nodos y con aristas. Donde las aristas conectan a los nodos o se quedan conectando al mismo nodo. Una idea gráfica se puede ver como la siguiente imagen:

usa-7-2

Grafo de libro Fractional Graph Theory

Pero también puede ser algo mucho más extraño, por la cantidad de nodos y la conexión entre las aristas. De modo tal que se pueden ver como:

map-of-internet

Visualización de la Intenet

Entonces la conexión entre redes y grafos pues es natural, prácticamente son lo mismo; pero la perspectiva con la cual la estudian desde el punto de vista de física es distinta a la que se estudia en matemáticas.

En R se tiene la librería miniCRAN con la cual se pueden extraer datos de los paquetes o librerías. Cuando se instala una librería muestra en la mayoría de los casos la solicitud de instalar las librerías con las cuales tiene dependencia en caso de no contar con ellas. Así que hay muchas librerías que tienen dependencia con muchas otras librerías y otras, simplemente con unas cuantas. La mayoría usan las librerías base de R, pero con miniCRAN se pueden ignorar estas y analizar solo las que no son básicas.

#Ejemplo 1
 librería(miniCRAN)

tags<-"ggplot2"

#Se extraen datos de las librerías con las cuales tiene relación de tres modos diferente, considerando o descartando algunas.

pkgDep(tags, suggests=FALSE, enhances=FALSE, includeBasePkgs = TRUE)

pkgDep(tags, suggests=FALSE, enhances=FALSE)

pkgDep(tags, suggests=TRUE, enhances=TRUE)

#Gráfica de las relaciones entre el paquete ggplot2

set.seed(1)

plot(makeDepGraph(tags, includeBasePkgs=FALSE, suggests=TRUE, enhances=TRUE), 
 legendPosEdge = c(-1, 1), legendPosVertex = c(1, 1), vertex.size=30, cex=0.7)

La gráfica que se obtiene es la siguiente:

ggplot2_graphs

Si se replica el código pero para una lista de librerías, se puede pensar en buscar el grafo de ciertas librerías que se usan para tareas relacionadas, ejemplo dplyr y reshape2, ggplot2 y lattice; etc. Pero para mostrar que no todos los paquetes están relacionados se puede considerar en la lista algunas librerías que tienen un uso diferente, como tm y lars.

#Ejemplo 2
library(miniCRAN)

tags<-c("dplyr","reshape2","ggplot2","tm","lattice","data.table","lars")

set.seed(1)

plot(makeDepGraph(tags, includeBasePkgs=FALSE, suggests=TRUE, enhances=TRUE), 
 legendPosEdge = c(-1, 1), legendPosVertex = c(1, 1), vertex.size=15,cex=0.5)

La gráfica que se obtienen es la siguiente:

dplyr-reshape2-data.table-ggplot2-lattice-tm_graphs

Observando la imagen se observa que hay dos nodos; tm y lars, que se muestran “disjuntos” a la red que muestran los otros paquetes. En este caso, se aprecia gráficamente que entre las librerías para procesar datos y generar gráficas existen ciertas relaciones, las cuales pueden ser analizadas.

Entonces la idea es extraer el grafo de todos los paquetes de R hasta hoy 29-09-2015 y aplicar algunos algoritmos para jugar con él. La cantidad de paquetes disponibles es de 7234 hasta hoy, lo cual hace pensar en que una imagen gráfica de dicho grafo es algo complicada para detectar cuales paquetes se aglomeran más que otros, o cuales son casi asilados del resto (como en las imágenes anteriores).

La extracción de los datos se realiza con el siguiente código:

library(miniCRAN)
library(magrittr)

MRAN <- "http://mran.revolutionanalytics.com/snapshot/2015-09-29/"

#Se extrae la matriz con todos los paquetes
pdb <- MRAN %>%
 contrib.url(type = "source") %>%
 available.packages(type="source", filters = NULL)

#Para visualizar el tipo de dato y las primeras 5 filas de la matriz de datos
class(pdb)
head(pdb)

#Se construye un grafo con la matriz

g <- pdb[, "Package"] %>%
 makeDepGraph(availPkgs = pdb, suggests=FALSE, enhances=TRUE, includeBasePkgs = FALSE)

#Se puede ver el tipo de dato
class(g)
head(g)

Etapa 2.Aplicación de PageRank

Por el tamaño del grafo resulta conveniente aplicar algún tipo de algoritmo para detectar algo sobre la relación entre paquetes. La idea de aplicar el algoritmo PageRank para detectar los paquetes que tienen más relevancia en la red.

Para ver detalles sobre el algoritmo les recomiendo la referencia [5]. En breve la idea del algoritmo es asignar un valor numérico a cada paquete y por medio de eso poder definir cuales tienen mayor relevancia según el valor que se le asignó que es un modo de sintetizar el peso o impacto del paquete en los otros paquetes. Esto no le hace el merito adecuado a dicho algoritmo, pero los detalles teóricos se salen de poder explicarse en la entrada.

Aplicando el algoritmo que se tienen implementado en la librería igraph, se obtienen los siguientes resultados:

#Aplicación de pageRank
library(igraph)

#Se aplica el algoritmo
pr <- g %>%
 page.rank(directed = FALSE) %>%
 use_series("vector") %>%
 sort(decreasing = TRUE) %>%
 as.matrix %>%
 set_colnames("page.rank")

head(pr, 10)
# Los 10 paquetes más importantes
#   page.rank
#Rcpp 0.021333171
#MASS 0.019112827
#Matrix 0.009390048
#ggplot2 0.009136545
#mvtnorm 0.008061911
#lattice 0.007902018
#survival 0.007814334
#plyr 0.007025619
#sp 0.004832534
#XML 0.004669243

Haciendo una representación gráfica del orden implementado por el algoritmo PageRank, se obtienen lo siguiente:

#Top 10
set.seed(40)
pr %>%
 head(10) %>%
 rownames %>%
 makeDepGraph(pdb) %>%
 plot(main="Top de paquetes", cex=0.5)

#Top 30
set.seed(40)
pr %>%
 head(30) %>%
 rownames %>%
 makeDepGraph(pdb) %>%
 plot(main="Top 30 de paquetes", cex=0.5)

Las gráficas que se obtienen son las siguientes:

top_10

Top_30

Se observa que el grafo de los primeros 10 es más o menos claro, pero que el de los primeros 30 ya empieza a mostrar cierta complejidad o se muestra más complicado para determinar visualmente algunos aspectos, pese a eso se aprecian en la imagen un par de paquetes asilados.

Etapa 3.-Detectando comunidades.

Los clusters, son parte de las técnicas de aprendizaje no supervidado en Machine Learning. Existen muchas técnicas o algoritmos, algunos al paso del tiempo ya sea por la eficiencia computacional o por el tipo de resultados que han permitido obtener terminan siendo predominantes o persistir ante la aparición de nuevas técnicas o algoritmos.

En la entrada “Análisis de Cluster, un ejemplo sencillo” mostré como usar dicha técnica con unos conjuntos de datos. La situación cambia un poco cuando se trabaja sobre grafos o redes, ya que se tiene en particular un tipo de datos (el grafo) sobre el cual se hace uso de sus propiedades para definir los algoritmos para detectar clusters.

En las referencias [6,7,8,9] se puede leer varios exploraciones experimentales sobre el tipo de algoritmos que más predominan en las investigaciones y al implementar dichos algoritmos. Aplico dos algoritmos para detectar comunidades o clusters en el grafo y mido la similaridad entre las dos comunidades con la medida de similaridad de Jaccard para comparar los resultados obtenidos entre los dos algoritmos.

Siguiendo a Andrie de Vries, solo tomo el 80% de la red de los cuales se eligen los nodos más importantes según el algoritmo PageRank.

#Se aplica al mismo grafo ordenado por PageRank pk
#Se selecciona el 80% de los datos

cutoff <- quantile(pr[, "page.rank"], probs = 0.2)
popular <- pr[pr[, "page.rank"] >= cutoff, ] 
toKeep <- names(popular)

vids <- V(g)[toKeep]
gs <- induced.subgraph(g, vids = toKeep)

#Aplicación del primer algoritmo walktrap community
#Se obtienen 2118 comunidades

cl <- walktrap.community(gs, steps = 3)

#Se ordenas
topClusters <- table(cl$membership) %>% 
 sort(decreasing = TRUE) %>% 
 head(25)

#Se gráfica el comportamiento de los cluster o de las comunidades

plot(topClusters, main="Tamaño Cluster", ylab="Numero de cluster", type="b", lwd=2)

#Se aplica el segundo algoritmo, infoMaps community
#Se obtienen 2280 comunidades

cl1 <- infomap.community(gs)

topClusters1 <- table(cl1$membership) %>% 
 sort(decreasing = TRUE) %>% 
 head(25)

plot(topClusters1, main="Tamaño de Clusters", ylab="Numero de clusters", type="b", lwd=2)

Cluster_walktrap

InfoMaps_clusters

Las gráficas muestran el comportamiento de los cluster o comunidades, lo cual muestra que se pueden elegir los primero 10 clusters como los más importantes. Siguiendo a Andrie de Vries se eligen los 10 clusters más importantes.

Para comparar el comportamiento entre los dos algoritmos; además de que el primero detecta 2118 comunidades y el segundo 2280, comparo los 10 cluster más importantes por medio del índice de similaridad de Jaccard. Para los que tienen nociones de teoría de conjuntos, la idea es muy sencilla es comparar cuantos elementos están en la intersección dividido entre los elementos en la unión. Esto da una medida de similaridad, con la cual comparo entre las 10 comunidades más importantes por algoritmo.

#Eligiendo los 10 clusters más importantes

cluster <- function(i, clusters, pagerank, n=10){
 group <- clusters$names[clusters$membership == i]
 pagerank[group, ] %>% sort(decreasing = TRUE) %>% head(n)
}

#Para walktrap
z1 <- lapply(names(topClusters)[1:10], cluster, clusters=cl, pagerank=pr, n=20)

#Para infoMaps
z2 <- lapply(names(topClusters1)[1:10], cluster, clusters=cl1, pagerank=pr, n=20)

#Comparación entre los cluster de cada algoritmo

Jaccard<-function(A,B){
 a=length(intersect(A,B))
 b=length(union(A,B))
 a/b
 }
s=vector(length=10)

for(i in 1:10){
 L1=names(z1[[i]])
 L2=names(z2[[i]])
 s[i]=Jaccard(L1,L2)
 }

library(ggplot2)
t=1:10
qplot(x=t,y=s,geom=c("line", "point"), main="Similaridad entre los dos algoritmos", xlab="Número de Cluster",ylab="Valor de Similaridad")

Similaridad

Se observa que en los dos algoritmos en el primer cluster se tienen más similaridad, la lista de librerías por algoritmo son las siguientes:

#Para el algoritmo Walktrap
names(z1[[1]])
 [1] "MASS" "Matrix" "mvtnorm" "lattice" 
 [5] "survival" "igraph" "coda" "nlme" 
 [9] "rgl" "boot" "RColorBrewer" "numDeriv" 
[13] "Hmisc" "mgcv" "cluster" "gtools" 
[17] "car" "fields" "lme4" "xtable" 

#Para el algoritmo infoMaps
names(z2[[1]])
 [1] "Rcpp" "plyr" "XML" "stringr" 
 [5] "reshape2" "foreach" "jsonlite" "rJava" 
 [9] "cluster" "car" "fields" "lme4" 
[13] "corpcor" "e1071" "doParallel" "vegan" 
[17] "quadprog" "rpart" "randomForest" "plotrix"

La interpretación o explicación de los resultados puede varias, ejemplo en los conjuntos de librerías anteriores aparece una combinación entre librerías para procesar datos, para graficar, para aplicar modelos predictivos o de clasificación, etc.

Para visualizar el grafo de las librerías, la intención era mostrarlo con Gephi pero tuve un problema con el programa y hasta que después repare o vea que es lo que tiene comparto la visualización de toda la red. Pero con igraph se puede hacer una imagen buena de como se comportan los cluster en la red.

#Uso de igraph, parte de código de Andrei de Vries

#Se carga la librería
library(igraph)

# Se preparan los datos para construir la gráfica

cl$degree <-(degree(gs)[cl$names])
cl$cluster<-unname(ave(cl$degree, cl$membership,FUN=function(x)names(x)[which.max(x)]))
V(gs)$name <- cl$cluster

E(gs)$weight <- 1
V(gs)$weight <- 1

gcon<-contract.vertices(gs, cl$membership,vertex.attr.comb = list(weight = "sum", name = function(x)x[1], "ignore"))

gcon<-simplify(gcon, edge.attr.comb = list(weight = "sum", function(x)length(x)))

gcc<-induced.subgraph(gcon, V(gcon)$weight > 20)

V(gcc)$degree<-unname(degree(gcc))

#construcción de la gráfica
par(mar = rep(0.1, 4)) 
g.layout<-layout.kamada.kawai(gcc)
plot.igraph(gcc, edge.arrow.size = 0.1, layout = g.layout, vertex.size = 0.5 * (V(gcc)$degree))

La imagen de grafo que se obtiene es el siguiente:

Grafo1_vis

Se muestra en la imagen como la librería con círculos mayores tienen mayor relevancia en la parte de la red, por su puesto que no están las 7000 librerías representadas pero esta imagen da idea de cuales son las librerías más importantes o las más usadas, partiendo de la clasificación hecha con el algoritmo walktrap y pagerank.

Espero la entrada de una idea como tratar en general datos que pueden ser analizados como un grafo, cabe mencionar que cuando se analiza un corpus de textos o un texto, este también puede ser analizado y explorado visualizando su matriz de términos como la matriz asociada a un grafo y eso hace que se tengan más herramientas para analizar lo que sucede con dicho texto o la relevancia de sus tópicos.

Referencias:

  1. Large Network and graph limits.Lásló Lovasz
  2. Estructura de datos y algoritmos.
  3. Graph Theory
  4. http://interactivepython.org/runestone/static/pythonds/index.html
  5. http://www.mmds.org/
  6. http://www-personal.umich.edu/~mejn/papers/epjb.pdf
  7. http://arxiv.org/abs/1004.3539
  8. http://deim.urv.cat/~clara.granell/publications/ijcss_clara.pdf
  9. http://www.syssec-project.eu/m/page-media/3/moradi-sea12.pdf

Aprendiendo de los datos-Análisis Exploratorio-Part 1

El título de la entrada se refiere hacer con los datos algunas gráficas, de las cuales uno puede ir analizando posibles relaciones o visualizando conexiones entre ciertas variables. Esto se llama “Análisis Exploratorio”.

Muchas de las técnicas de Machine Learning tienen su contra parte gráfica; es decir, existe algún recurso gráfico para visualizar el resultado del uso de los algoritmos.

En la entrada trato de mostrar ejemplos de las herramientas gráficas estándar, tanto con R project, como con Python. De cierto modo trato de ir de ejemplos gráficos sencillos a herramientas gráficas más sofisticadas, hasta quizás acercarme a mostrar algunos ejemplos de visualización de datos.

Esto último es quizás sumamente atractivo como campo de trabajo y herramienta para trasmitir descubrimientos o hacer amigable ciertas relaciones entre variables analizadas, ya que permite diseñar algunas gráficas interactivas. Lo malo es que en general las mejores herramientas de visualización; son herramientas web y requieren explicaciones totalmente distintas. Pero mi recomendación es visitar la página de D3 y hacer algunos de los ejemplos para darse una idea general. Ahora hay muchas herramientas de visualización de datos, pero al final ciertas gráficas son las básicas y suelen ser las más útiles.

Análisis Exploratorio

Como todo visionario, muchos años antes de que el poder de las computadoras estuvieran en nuestra sala, teléfono y en el día a día, Jhon W. Tukey auguró desde antes de 1977 en su libro “Exploratory Data Analysis”, la relevancia de dedicarse a la investigación de diseño de herramientas gráficas para visualizar relaciones estadísticas. De cierto modo, dejando como primera etapa hacer una análisis exploratorio entre las variables analizar y posteriormente hacer una análisis confirmatorio.

Así que la relevancia que tiene hacer un previo análisis gráfico es fundamental, pero no siempre es determinante. Con esto quiero decir que si bien una gráfica facilita la visualización de relaciones entre variables, esto no lo confirma. Por lo cual es bueno posteriormente hacer pasar nuestra hipótesis por alguna técnica estadística que respalde nuestro descubrimiento.

Existe un libro sobre la construcción de gráficas en español del Dr. Juan Carlos Correa de la Universidad de Medellín [2], el cual está disponible en la red de manera gratuita. De este libro tomo los principios de William Playfair sobre el análisis gráfico:

Principios.

  • Los métodos gráficos son un modo de simplificar lo tedioso y lo complejo.
  • Los hombres ocupados necesitan algún tipo de ayuda visual.
  • Un gráfico es más  accesible que una tabla.
  • El método gráfico es concordante con los ojos.
  • El método gráfico ayuda al cerebro, ya que permite entender y memorizar mejor.

Teniendo en cuenta que los anteriores principios fueron pensados en 1800, nos debería de hacer pensar en la relevancia que tienen el trasmitir conocimiento por métodos gráficos. Por eso no es sorpresa que siempre contar con algunas gráficas en nuestros reportes o aplicaciones facilita la visualización y entendimiento de los fenómenos o hechos estudiados.

Análisis Exploratorio con R

En R Project, desde su creación se contó con herramientas gráficas diversas y al pasar de los años se han agregado herramientas o librerías sumamente útiles, como lattice, ggplot y ggvis y ahora interfaces gráficas como Shiny.

En esta entrada hago 3 ejemplos, el primero usando las gráficas nativas o base de R, el segundo haciendo uso la librería lattice y el último haciendo uso de la librería ggplot. Y muestro como este último ejemplo se sirve para visualizar de manera interactiva las gráficas haciendo uso de la librería ggvis. Para gráficas de una sola variable hago uso de las nativas y ggplot, para ver relaciones entre varias variables hago uso de lattice y ggplot.

Para cada uno de los ejemplos indico como extraer los datos, el primer ejemplo fue motivado por un ejemplo compartido por el Dr. Yanchang Zhao y el segundo ejemplo fue motivado por Institute for Digital Research and Education de la universidad de California y la referencia [3,4].

 Ejemplo con librerías nativas en R.

Los datos ha usar son Iris, los cuales se encuentran por default en R, los gráficos que explico en breve son para explorar la información de una sola variable.

Boxplot

#Ejemplo
#Cargo los datos para todos los ejemplos
data(iris)
#Tamaño de los datos
dim(iris)
#Tipo de variables
str(iris)
#Conocer las variables
names(iris)

#Boxplot
range(iris$Sepal.Length)
boxplot(iris$Sepal.Length, main="Boxplot de la Longitud de Sepal-Datos Iris", ylab="Tamaño", col="2")

La gráfica anterior los beneficios que tienen es que es fácil de calcular en el sentido computacional, por otro lado de manera rápida uno puede detectar si la distribución de los datos es simétrica o no, puede notar varios detalles sobre los cuantiles y la mediana. Para más detalles pueden verse de manera fácil en wikipedia, si subestiman este sitio como referencia, están subestimando mucha información de calidad. En este ejemplo se hace notar que no es simétrica la distribución y no se detectan valores atípicos.

Boxplot

Jitter-Gráficas de Puntos

Esta gráfica es fácil e informativa, cuando se tienen una buena cantidad de datos se puede ver los puntos de aglomeración, lo cual permite identifica como se comporta la variable analizada. En el ejemplo no muestra claramente algún comportamiento apreciable.

#Ejemplo Jitter
#Se usan los mismo datos de boxplot

stripchart(iris$Sepal.Length, method='jitter',vertical=TRUE,pch=1, col="2", main="Gráfica de Puntos", ylab="Rango de Datos")

#Método 2
stripchart(iris$Sepal.Length, method='overplot',vertical=TRUE,pch=1, col="3", main="Gráfica de puntos", ylab="Rango de Datos")

Gr´ficas_puntosGraficas_puntos2

Histograma y Densidad

Las dos gráficas que más noto que se usan para describir propiedades de alguna variable son los histogramas y las gráficas de densidad. La primera tienen varios detalles que es recomendable revisar, no los comento a detalle, pero hacer variar la cantidad de clases afecta a la construcción del gráfico, por otro lado hacer cambios en considerar la estimación de la frecuencia o de la frecuencia relativa también cambio no de forma , sino de escala. Así que esos detalles se pueden revisar en información de ayudan con el comando help() en la consola de R.

La idea central de estos dos gráficos es presentar una estimación de la densidad de la variable analizada, por eso la forma del histograma y la gráfica de la densidad tienen forma similar.

#Histograma
#Pongo varios ejemplos de como ir agregando parámetros a la gráfica

#Gráfica 1
hist(iris$Sepal.Length)

#Gráfica 2
hist(iris$Sepal.Length,col="2",ylab="Frecuencia", xlab="Longitud del Sépalo", main="Histográma de la Longitud de Sépalo-Datos Iris")

#Gráfica 3
hist(iris$Sepal.Length,col="2",ylab="Frecuencia", xlab="Longitud del Sépalo", main="Histográma de la Longitud de Sépalo-Datos Iris", labels = TRUE)

#Gráfica 4
hist(iris$Sepal.Length,col="2",ylab="Frecuencia", xlab="Longitud del Sépalo", main="Histográma de la Longitud de Sépalo-Datos Iris", labels = TRUE,border="7", nclass=15)

#Gráfica 5-Considerando las frecuencias relativas
hist(iris$Sepal.Length,col="2",ylab="Frecuencia relativa", xlab="Longitud del Sépalo", main="Histográma de la Longitud de Sépalo-Datos Iris", labels = TRUE,border="7", nclass=15, probability = TRUE)
hist(iris$Sepal.Length,col="2",ylab="Frecuencia relativa", xlab="Longitud del Sépalo", main="Histográma de la Longitud de Sépalo-Datos Iris", labels = TRUE,border="7", probability = TRUE)

Hist_1Hist_3
Hist_2

La gráfica de densidad hace una estimación de la densidad, para ello existen  varias funciones ya que la densidad no necesariamente es gausiana o de forma de campana. Lo que determina la aproximación es el tipo de “kernel” que se emplea para estimarla, en general el kernel que se considera como default es gaussiano, pero puede ser modificado. Para ver detalles de las opciones se puede consultar en la información de ayuda en R, poniendo el comando help(density).

#Gráfica de Densidad
#Si se pide estimar la densidad se obtienen lo siguiente
 
density(iris$Sepal.Length)

#Call:
# density.default(x = iris$Sepal.Length)

#Data: iris$Sepal.Length (150 obs.); Bandwidth 'bw' #= 0.2736

# x y 
# Min. :3.479 Min. :0.0001495 
# 1st Qu.:4.790 1st Qu.:0.0341599 
# Median :6.100 Median :0.1534105 
# Mean :6.100 Mean :0.1905934 
# 3rd Qu.:7.410 3rd Qu.:0.3792237 
# Max. :8.721 Max. :0.3968365

#Para la gráfica se hace uso de la funación plot()

plot(density(iris$Sepal.Length), xlab="Rango de Valores", ylab="Densidad", main="Gráfica de la Densidad", col="3",type="b", add=TRUE)

Density

Pie y Barras

Para estas dos gráficas se requiere tomar los datos para formar tablas, las cuales facilitan la gráfica tanto de barras como de pie. Principalmente se usan con variables categóricas, para estos datos la gráfica de barras no muestra gran funcionalidad por que la cantidad es la misma para las tres categorías.

#Se usan los mismos datos

table(iris$Species)
#setosa versicolor virginica 
# 50 50 50 
 
pie(table(iris$Species), radius = 0.9, col=rainbow(24),main="Gráfica Circular", clockwise=TRUE)
barplot(table(iris$Species), main="Gráfica de Barras",col="2", border="7", ylab="Cantidad")

Pie_1

Barras

La ventaja de usar gráficos para representar la información o el comportamiento de las variables analizadas resulta ser más atractivo cuando varios tipos de gráficas se combinan. En el caso de gráficos para una sola variable dos ejemplos rápidos se obtienen al combinar boxplot y jitter, histogramas y densidad.

#Combinación de gráficas

#Gráfica combinada 1
boxplot(iris$Sepal.Length, main="Boxplot de la Longitud de Sepal-Datos Iris", ylab="Tamaño", col="2")
stripchart(iris$Sepal.Length, method='jitter',vertical=TRUE,pch=1, main="Gráfica de Puntos", ylab="Rango de Datos", add=TRUE)

#Gráfica combinada 2
hist(iris$Sepal.Length,col="2",ylab="Frecuencia relativa", xlab="Longitud del Sépalo", main="Histográma de la Longitud de Sépalo-Datos Iris", labels = TRUE,border="7", probability = TRUE)
lines(density(iris$Sepal.Length), xlab="Rango de Valores", ylab="Densidad", main="Gráfica de la Densidad", col="3",type="b", add=TRUE)

Comb_1

Comb_2

En lo siguiente voy a replicar las gráficas haciendo uso de la librería ggplot2, a primera vista si no se conoce el modelo bajo el cual trabaja ggplot2 puede parecer bastante engorroso pasar de las gráficas base de R a las que proporciona esta librería.

Mi impresión es la siguiente, resulta muy fácil cuando uno aprende a usar R hacer el histograma y agregarle detalles a la gráfica con solo usar la función hist(), en cambio en ggplot2 se requiere hacer una combinación de comandos, ejemplo ggplot()+geom_hist()+…

Esto a primera vista hace parecer que ggplot2 complica mucho el hacer una simple gráfica, pero no es así. El valor o la relevancia de ggplot2 es cuando uno hacer gráficas más elaboradas, ya que cierta parte del procesamiento de los datos o de la detección de patrones de varias variables resulta inmediatamente visible, lo cual es hasta ahora para mi muy complicado hacerlo solo con las gráficas básicas de R. Así que invito a leer el libro de Hadley Wickham ( referencia [1]) o visitar el sitio de ggplot y por supuesto irse familiarizando con ” la gramática de gráficas”.

Boxplot

Como mencioné replico las gráficas en ggplot2, pero para eso hago en general dos versiones , haciendo uso de la función qplot y de ggplot. No explico más sobre las gráficas, pero comparto el código para replicar cada una.

#Boxplot
qplot(data=iris, y=iris$Sepal.Length,x=iris$Species, geom="boxplot", main="Boxplot por tipo de Iris",xlab="Tipo de Iris", ylab="Longitud de Sepal", colour="red")
ggplot(data=iris, aes(y=iris$Sepal.Length))+geom_boxplot(aes(iris$Species), col="red")+ylab("Longitud del Sepal")+xlab("Tipo de Iris")+ggtitle("Boxplot por tipo de Iris")

Boxplot_ggplot

Gráfica de Punto

#Gráficas de Puntos

qplot(data=iris, y=iris$Sepal.Length,x=iris$Species, geom="jitter", main="Jitter de la Longitud de la Sepal por tipo de Íris", ylab="Longitud", xlab="Tipo de Íris")
ggplot(data=iris, aes(y=iris$Sepal.Length,x=iris$Species ))+geom_jitter()+ylab("Longitud")+xlab("Tipo de Íris")+ggtitle("Jitter de longitud de Sepal")

Jitter_ggplot

Histograma

#Hitograma
qplot(data=iris, x=iris$Sepal.Length, geom="Histogram", col="red", main="Histograma", ylab="Cantidad", xlab="Rango de Valores")
qplot(data=iris, x=iris$Sepal.Length, main="Histograma", xlab="Rango de Valores", ylab="Frecuencia")+geom_histogram(col="red")

#Para generar el histograma con la medición de la densidad
ggplot(data=iris, aes(x=iris$Sepal.Length))+geom_histogram(aes(y=..density..), col="red")+xlab("Rango de Valores")+ylab("Frecuencia Relativa")+ggtitle("Histograma")

Hist_ggplot

Densidad

#Density
qplot(data=iris, x=iris$Sepal.Length, geom="Density",main="Densidad", ylab="Frecuencia Relativa", xlab="Rango de Valores")
#Para rellenar el área
ggplot(data=iris, aes(x=iris$Sepal.Length))+geom_density(colour="red", fill="orange")+ylab("Densidad")+xlab("Rango de Valores de la Longitud")+ggtitle("Densidad de la Longitud de la Sepalo")

Densidad_ggplot

Gráficas de Barras y de pie

#Barras

qplot(data=iris, factor(iris$Species), geom="bar", main="Ejemplo de gráfica de Barras", ylab="Cantidad",xlab="Tipo de Íris", fill=factor(iris$Species))

#Pie
ggplot(data=iris, aes(x=factor(iris$Species),fill=factor(iris$Species)))+geom_bar(width=1)+coord_polar()+xlab("Clasificado por Tipo de Especia")+ylab("")

Bar_ggplotPie_ggplot

Combinar gráficas en ggplot2, es muy sencillo solo se agrega a la gráfica que se está haciendo la otra gráfica que se desea. Ejemplo agregar la densidad al histograma resulta sencillo, ya que solo se necesita agregar  “+geom_density()”. Hago dos ejemplos para mostrar como funciona ggplot2.

#Boxplot y jitter

ggplot(data=iris, aes(y=iris$Sepal.Length))+geom_boxplot(aes(iris$Species), col="red")+geom_jitter(aes(iris$Species))+ylab("Longitud del Sepal")+xlab("Tipo de Iris")+ggtitle("Boxplot por tipo de Iris")

#Histogramas y Densidad

ggplot(data=iris, aes(x=iris$Sepal.Length))+geom_histogram(aes(y=..density..), col="red")+geom_density(colour="blue", size=1.5)+xlab("Rango de Valores")+ylab("Frecuencia Relativa")+ggtitle("Histograma")

Boxplot-jitter_ggplot

Hist_density_ggplot

Lattice…otra librería.

Cuando se requiere hacer una exploración de datos con varias variables, no resulta muy fácil pensar en como hacer eso y peor aún si se requiere hacer una comparación entre esas variables por varios años o varios periodos.

En general la mayoría de problemas involucran varias variables de distinta naturaleza, es decir; algunas pueden ser variables categóricas, indicadoras otras variables cuantitativas o cualitativas; en fin;  hacer un análisis de este tipo de datos requiere un cierto tiempo y las gráficas nativas a mi parecer hacer resultan no ser la mejor herramienta para trabajar.

En este caso las dos librerías, ggplot2 y lattice creo que ayudan bastante, detrás de estas dos librerías están dos teorías distintas sobre la exploración o visualización, es por eso que cada una requiere su tiempo de entrenamiento y sobre todo de investigación y aprendizaje. Dejo en las referencias los textos base para aprender a fondo como funcionan estas librerías.

Para las gráficas hago uso de un conjunto de datos que se descargarán automáticamente en R con una línea de código.

#Carga de datos y exploración básica

#Se cargan los datos desde el servidor
hsb2 <- read.table('http://www.ats.ucla.edu/stat/r/modules/hsb2.csv', header=T, sep=",")
#Se revisan los aspectos generales de los datos
head(hsb2)
dim(hsb2)
str(hsb2)

#Agrego una nueva variable
hsb2$gsex=factor(hsb2$female,labels=c("Male","Female"))
summary(factor(hsb2$gsex))
#Male Female 
# 91 109

 Boxplot y gráfica de puntos.

#Boxplot
bwplot(~read,hsb2, main="Boxplot de lectura", xlab="Lectura")
bwplot(~read|gsex,hsb2,main="Boxplot de lectura", xlab="Lectura")

#dotplot
dotplot(~read,hsb2,main="Gráfica de puntos de lectura", xlab="Lectura")
dotplot(~read|gsex,hsb2,main="Gráfica de puntos de lectura", xlab="Lectura")

Boxplot_latticeBoxplot_lattice2Dot_lattice2

Histogramas y Densidad

#Histograma
histogram(~math,hsb2,main="Histogramas por Género", xlab="Lectura",ylab="Porcentage Total")
histogram(~math|gsex,hsb2, ylab="Porcentage Total", xlab="Math", main="Histogramas por Género")

#Densidad
densityplot(~math, hsb2,main="Densidad de la variable math", xlab="Rango de valores", ylab="Densidad")
densityplot(~math|gsex, hsb2,main="Densidad de la variable math", xlab="Rango de valores", ylab="Densidad")

hist_latticeHist_lattice2Density_latticeDensity_lattice2

Cuantiles y Scatter Plot

Estas dos gráficas, no las había comentado. La primera se puede calcular para cualquier variable y es un modo rápido de identificar el comportamiento de la distribución de la variable, principalmente se puede validar el comportamiento de las colas de la distribución. La segunda es apropiada para detectar la posible relación entre dos variables y para explorar muchas variables se puede construir un panel de scatterplot para detectar visualmente entre qué variables es posibles que existe alguna relación.

#qqplot
qqmath(~math,hsb2, main="Gráfica de cuantiles o qqplot", xlab="qnorm",ylab="Variable Math")
qqmath(~math|gsex,hsb2, main="Gráfica de cuantiles o qqplot", xlab="qnorm",ylab="Variable Math")

#scatter plot
xyplot(write~read,hsb2, main="Scatter Plot de las variables write vs read",xlab="Variable read",ylab="Variable write")
xyplot(write~read|gsex,hsb2, main="Scatter Plot de las variables write vs read",xlab="Variable read",ylab="Variable write")

qqplot_latticeqqplot_lattice2Scatterplot_latticeScatterplot_lattice2

Gráficas en ggplot2

Lo único que hago en lo siguiente es replicar el tipo de gráficas separadas por una variable categórica.

Boxplot y dotplot

#boxplot
ggplot(data=hsb2,aes(y=read),colour=factor(hsb2$gsex))+geom_boxplot(aes(x=hsb2$gsex,fill=factor(hsb2$gsex)))+xlab("Genero")+ylab("Variable read")+
 ggtitle("Boxplot de la variable read vs genero")+theme(plot.title = element_text(lineheight=.8, face="bold"))

#dotplot
ggplot(data=hsb2,aes(y=read))+geom_jitter(aes(x=hsb2$gsex,colour=factor(hsb2$gsex)))+xlab("Genero")+ylab("Variable read")+
 ggtitle("Jitter de la variable read vs genero")+theme(plot.title = element_text(lineheight=.8, face="bold"))

Boxplot_ggplot_2Dotplot_ggplot

Histogramas y Densidad

#Histograma
ggplot(data=hsb2,aes(x=read))+geom_histogram(colour="black",aes(fill=factor(gsex)))+facet_grid(.~gsex)+xlab("Genero")+ylab("Variable read")+
 ggtitle("Histogramas de la variable read vs genero")+theme(plot.title = element_text(lineheight=.8, face="bold"))

#Density

ggplot(data=hsb2,aes(x=read))+geom_density(colour="black",aes(fill=factor(gsex)))+facet_grid(.~gsex)+xlab("Genero")+ylab("Variable read")+
 ggtitle("Densidad de la variable read vs genero")+theme(plot.title = element_text(lineheight=.8, face="bold"))

Hist_ggplot2Density_ggplot2

Cuantiles y Scatterplot

#qqnorm

ggplot(data=hsb2,aes(sample=read))+geom_point(stat="qq",aes(colour=factor(gsex)))+facet_grid(.~gsex)+xlab("Genero")+ylab("Variable read")+
 ggtitle("Cuantiles de la variable read vs genero")+theme(plot.title = element_text(lineheight=.8, face="bold"))

#Scatter plot

ggplot(data=hsb2,aes(x=read, y=write))+geom_point(aes(colour=factor(gsex)))+facet_grid(.~gsex)+xlab("Genero")+ylab("Variable read")+
 ggtitle("Scatterplot de la variable read vs write")+theme(plot.title = element_text(lineheight=.8, face="bold"))

Qqplot_ggplotScatterplot_ggplotLos ejemplos anteriores muestran la construcción de gráficos donde podemos ver la relación entre variables o explorar con mayor detalle. El siguiente paso entre el análisis exploratorio y lo que ahora es muy sencillo por las capacidades de computo es hacer análisis exploratorio con cierto nivel de interactividad.

Los casos más llamativos suelen ser las simulaciones, estas se pueden hacer tomando como parámetro una variable temporal. Ejemplo, si se desea ver el comportamiento de cierta población sobre la frontera de dos países se puede usar un mapa y ver con respecto al tiempo los flujos o movimientos de las personas.

Estas simulaciones a mi me parecen gratas para tener idea del fenómeno que se explora más que de la naturaleza de las variables.

En R se pueden hacer gráficos con cierta capacidad de interactividad está ggvis o shiny, así que los ejemplos siguientes los hago con ggvis. Para aprender a usar Shiny la recomendación es ver la documentación en la página oficial.

Página oficial Shiny

Gráficas de Puntos

#Puntos por Género
slider<-input_slider(1,100)

hsb2 %>% 
  ggvis(~as.factor(female),~read, 
        fill :="red"
       )%>% 
       layer_points(size :=slider)%>%
       layer_points(stroke := "black", fill := NA, size :=slider )%>%
       add_axis("x",title="Genero, 0 = Masculino y 1 = Femenino")%>%
       add_axis("y",title="Lectura")

La respuesta que se obtienen del código anterior es:

puntos_ggvis

#Densidad
hsb2 %>% 
  ggvis(~read, 
        fill :="red"
       )%>% 
       layer_densities(adjust = input_slider(0.1, 2))%>%
       add_axis("x",title="Densidad de la variable Lectura")%>%
       add_axis("y",title="")

La imagen que se obtiene son las siguientes:

Densidad_1.png

Variando la estimación se tiene:

Densidad_2.png

Gráfica de Barras

#Densidad
hsb2 %>% 
  ggvis(~read, 
        fill :="red"
       )%>% 
       layer_bars()%>%
       add_axis("x",title="Grafica de Barras")%>%
       add_axis("y",title="")

EjempBarras_ggvis.png

Más ejemplos de como funciona ggvis se pueden consultar en la página oficial:

Página Oficial de ggvis

Referencias:

1.- Ggpplot2 -Hadley  Wickham.

2.-Lattice – Deeppayan Sarkar.