Tip:
Highlight text to annotate it
X
En las conversaciones de las “redes sociales” hay mucha información valiosa.
En este caso de estudio, vamos a analizar cómo se ha usado el STATISTICA Text Miner
para acceder a los tweets desde el Twitter
para establecer relaciones con temas específicos,
almacenar y seguir las tendencias,
encontrar relaciones interesantes y adquirir conocimientos.
Mi nombre es Jennifer Thompson y soy estadística en StatSoft.
Vamos a explorar como se puede analizar el contenido de los medios de comunicación social.
Quiero saber más sobre las conversaciones donde aparezcan palabras clave como StatSoft,
STATISTICA,
minería de datos,
minería de texto, análisis predictivo. Y la lista continúa.
¿De qué habla la gente cuando mencionan estas palabras clave?
A lo largo del tiempo, ¿vamos a ver picos o pausas en el número de entradas?
¿Qué otras palabras aparecen con frecuencia
en estas conversaciones
y cuál es la sensación general?
¿Qué otras cosas interesantes podemos saber de lo que dice la gente que está conectada?
Actualmente existen algunas herramientas que permiten encontrar en Twitter los comentarios relacionados con
las impresiones de los usuarios y las veces que se menciona una palabra clave.
Entonces, ¿Por qué he utilizado el STATISTICA Text Miner?
La respuesta se encuentra en la producción automática de informes y alertas,
así como en las características añadidas para determinar el contenido de las conversaciones
de forma automática.
Mediante el servidor de monitorización y alertas del STATISTICA,
puedo realizar un seguimiento a largo plazo y de forma continuada de las conversaciones
así como almacenar los datos históricos
para poder acceder a ellos más tarde.
Esto me permite comparar las conversaciones de este año con las del último año.
Puedo localizar los tweets en Twitter en menos de una semana, y es por esa razón que se hace necesario
el almacenamiento de información.
Siendo un proceso automático, el análisis se realiza solamente cuando se encuentran patrones de interés
y en ese caso, yo recibo el aviso.
Por ejemplo, si una palabra nueva o una frase aparece en la conversación
el informe generado muestra las nuevas tendencias y yo puedo reaccionar en consecuencia.
Puedo ver los informes en mi tiempo libre
y recibir un mensaje de texto siempre que la dirección de las conversaciones gire hacia un lado negativo.
Este cambio puede ser muy importante,
por lo que necesito recibir el aviso lo antes posible.
En este caso he utilizado un macro STATISTICA Visual Basic
para visualizar los tweets y la información de apoyo en una hoja de cálculo.
Así pude obtener informaciones como la fecha y la hora,
la identificación del usuario,
y el texto publicado.
Ahora puedo iniciar el análisis y realizar la minería de texto sobre los tweets.
Las estadísticas descriptivas básicas sobre los datos del twitter pueden ser informativas.
¿Cuántas veces
se ha mencionado la palabra clave en los tweets de un día específico?
Esta tabla muestra las entradas diarias
de la palabra clave STATISTICA así como de sus dos grandes competidores.
Cuando se producen picos en el número de entradas,
es muy interesante ver lo que dice la gente. ¿Aparecerán en un comunicado
de prensa, campaña de marketing o un evento, como una conferencia o la publicación de
una nueva versión de software?
Encontrar estos picos
es el primer paso para comprender su origen
y cómo podemos
promover conversaciones más positivas sobre la marca.
¿Cuánta superposición existe en los usuarios?
Al ver las tendencias, ¿será que una buena parte de los usuarios de Tweeter
crean la mayoría de las interferencias,
o es que en realidad las entradas vienen de usuarios específicos?
Aquí vemos que el 71 por ciento de los tweets
provienen de usuarios únicos. Esto me dice que, probablemente, el alcance es mucho mayor del que sería si la mayoría
de los tweets viniesen de tan sólo una persona.
Aquí vemos las entradas diarias
de varias palabras clave
minería de datos, análisis y estadísticas.
Un cambio de tendencia puede indicar el lugar interesante para detallar el
contenido.
Además las repeticiones de tweets también pueden ser interesantes.
Para la palabra clave "minería de datos", el 14% de los mensajes recibidos fueron tweets repetidos.
La minería de texto sobre las redes sociales tienen en cuenta algunas consideraciones especiales,
como la informalidad del lenguaje utilizado.
En Twitter se usan a menudo las siglas del argot del chat.
Teniendo esto en cuenta, cambié los filtros para quien escribe una palabra.
También cambié los caracteres
permitidos para formar una palabra.
Para detectar los iconos emocionales o las caras sonrientes,
hay que añadir comas y paréntesis.
Ahora busco frases específicas, tales como "minería de datos ", "minería de texto",
"análisis predictivo".
También se puede detectar estas frases.
Con una lista de sinónimos, puedo utilizar palabras con el mismo significado.
Por ejemplo, "stat" será la abreviatura de "statistic".
Son la misma palabra y se reconocen como tal cuando se utiliza la lista de sinónimos.
En los resultados, las tendencias interesantes pueden ser aparentes en un diagrama de dispersión
con los elementos de la descomposición de valores singulares.
Este grupo de palabras,
“fire far dring” y “hose”
indica que varios tweets utilizan este conjunto de palabras
en comentarios que también contienen la palabra "minería de datos".
En un análisis posterior descubrí que varias personas habían comentado una o varias veces
una entrada de un blog en el que aparecía la expresión “drinking from the fire hose.”
Esta tendencia interesante se encontró al aplicar la “minería de texto ” a los datos.
Al rastrear las impresiones de la marca STATISTICA y las de sus dos
competidores,
elabore un gráfico de tarta para mostrar la distribución de las impresiones relativas a cada marca.
La impresión se midió, en este caso, usando emoticonos
como esta cara fruncida con la lengua
de fuera.
Los usuarios de Tweeter que mencionaban al segundo competidor
utilizaban una gran cantidad de emoticonos con la lengua de fuera, que se puede entender como una expresión jocosa
o tonta.
Además, el análisis de la impresión de los usuarios puede realizarse comparando las palabras
positivas y negativas encontradas en los comentarios
de un modo general.
Este gráfico de control de calidad realiza el análisis a nivel temporal de las entradas
en las que aparecen las palabras clave con el objetivo de detectar cambios de patrón.
Este tipo de información se podría utilizar para determinar la eficacia de una
campaña de marketing.
Realizar el análisis dependiendo del lugar geográfico puede significar la recogida de información interesante
sobre las tendencias regionales.
Vamos a revisar dos resultados más en el STATISTICA.
Después de un análisis básico de los gráficos y de algunas estadísticas descriptivas,
comencé el análisis de minería de texto de los comentarios que mencionaban la frase
"minería de datos".
Aquí vemos
el resultado, con el resumen de las palabras.
Estas son las palabras y frases más frecuentes en los tweets
sobre "minería de datos".
Se esperan algunas de ellas
como conocimiento, descargar, equipo,
Web, aplicaciones, negocios, máquina, inteligencia y algunas más.
Después vemos la palabra "Shakespeare".
Éste no es un término que esperaba ver en una conversación sobre minería de datos,
y es un patrón interesante saber que "Shakespeare" aparece
en el top 20 de los términos
mencionados en los comentarios sobre "minería de datos".
Un análisis más profundo nos dirá más.
Tras monitorizar la frecuencia de los términos que aparecen en los tweets sobre minería
de datos,
ajusté esta frecuencia en una escala temporal en un gráfico.
Y este gráfico, en realidad, muestra varias tendencias y picos interesantes
en el número de entradas para varios
de los términos, incluido el término Shakespeare.
Muchos de estos términos clave son algo inesperados.
El primer pico en el número entradas de una palabra
es el término "experto".
Durante una semana o más, apareció un conjunto de palabras con un pico con las entradas
"drink fire hose" y "far"
Es posible rastrear este pico en varias entradas y re-envíos sobre los comentarios del blog con
la frase "drinking from the fire hose."
Otro conjunto de términos en pico son
"europeo", "facebook" y "crack",
que se atribuye a un artículo relacionado con una denuncia europea sobre
privacidad en Facebook.
Más adelante, aparece un pequeño pico que habla sobre libros sobre aprendizaje
de máquinas e inteligencia artificial.
Luego llegamos al pico máximo para el término Shakespeare.
Este término aparece en comentarios de una presentación sobre minería de datos
de obras clásicas de Shakespeare
que destacan en la era digital.
Este gráfico es particularmente interesante porque muestra las tendencias en el tiempo
y sobre lo que habla la gente.
Aquí vemos rápidamente los informes generados desde el servidor de monitorización y
alertas del STATISTICA.
Estos informes se programan y se generan automáticamente.
Los informes se envían a los responsables para su revisión.
Los tweets obtenidos también se almacenan para una futura utilización.
Esta última página del informe muestra la información sobre las cuentas del Twitter
relacionadas con los mensajes sobre minería de datos.
el gráfico ofrece una visión general del número de seguidores que tiene un usuario en Twitter,
así como el promedio
que sigue a este usuario.
Esto nos da una idea general sobre el alcance que tienen estos mensajes.
El promedio de seguidores de las cuentas de Twitter, que comentan
sobre la minería de datos es de
2.451.
El histograma muestra una distribución asimétrica.
La mayoría de los comentarios tienen entre 65 y 725 seguidores.
Este es el vigésimo quinto en un porcentaje de 75.
Para continuar con el visionado, puede inscribirse en "statsoft.com/tmsubscribe"
y si desea más información sobre StatSoft y sus productos, incluido el
STATISTICA Text Miner, visite www.statsoft.com.br o llame al + 55 11 8190 3777
La página de contacto de statsoft.com
ofrece links para nuestras oficinas internacionales que se encuentran fuera de los Estados Unidos, Canadá y México
donde le ofrecerán la ayuda que necesite.