14/06/2016


La noticia en la WWDC de Apple esta semana era el uso de la palabra "emojification". Sabremos en qué consiste cuando aparezca iOS10, de momento han demostrado una opción de "jeroglificación" en la que el editor indica qué palabras pueden sustituirse por emojis, y hay especulaciones sobre si habrá también predicción de emojis. 

Viene ya de antiguo la costumbre de rematar un mensaje con alguna indicación extra de la intencionalidad, terminandolo con uno o varios emoticonos o, más recientemente, con emojis. Kampal Social utiliza esta marca como parte del entrenamiento del reconocedor de polaridad de un tweet, pero no los usamos al vuelo: es el sistema ya entrenado el que dada cualquier frase intenta adivinar si su intencionalidad es positiva, :), o negativa, :(.   Si Apple y Android (Google) avanzan en las ideas "emojificadoras" e introducen en su predicción de texto la propuesta de un emojí al final de mensajes, tendran que hacer el analisis de sentimiento de la frase y ademas con una importante ventaja: que el autor es el que decide, antes de enviar el mensaje, si el emoji asignado es correcto o no. 

El escenario en el lado de analisis desde luego mejoraria si los mensajes llegan ya enriquecidos de esta forma. Mientras esto ocurre, no nos queda otro remedio que seguir estudiando como mejorar nuestros analizadores de polaridad. Encontrar indicadores para el entrenador no es sencillo. Consideremos simplemente los emoticonos clásicos; si construimos una red en funcion de la frecuencia con que que dos emoticonos aparecen en el mismo tweet, tenemos algo asi:

Red "semantica" de emoticonos.El campo semantico no consiste sólo de la polaridad -que vendria indicada por las familias de sonrisas y mohínes-; hay tambien un significado normalmente jocoso, el de los XD, que es un mundo aparte. Y el sector positivo se divide realmente en dos o tres familias: la sonrisa pura y las expresiones de asombro :-O y cariño <3. Ademas, los elementos que se usan más frecuentemente son tambien los que ocupan el centro del espacio, con poca clusterización: existe una probabilidad bastante alta de que se empleen de forma neutra, sin que sean un marcador significativo de un grupo concreto. Los elementos que mas se integran en un cluster de significado son lamentablemente los que ocurren con poca frecuencia; y en cualquier caso esta frecuencia esta yendo a menos según la gente pasa a utilizar emojis en vez de emotis.

En el campo de los emojis hay variaciones con respecto al solo texto. El mundo XD, y sus compañeros -lol ahre y demas expresiones de chat de videojuegos- parece que reduce su papel. Pero por otro lado el campo del cariño amplia su espectro, no solo de corazoncitos, sino practicamente de todo tipo de iconos. Una red de emojis, basandose en la aparicion simultanea en el mismo tweet, sale asi:

Todo icono jeroglifico -y nos hemos ahorrado unos cuantos en la gráfica- tiene una carga positiva similar a la de los corazoncitos, con la excepcion de dos o tres gráficos claramente negativos: la pistola, el corazon roto, y alguno mas. Si os interesa, existe online un estudio sobre la probabilidad de que cada emoji aparezca en un tweet positivo o negativo, el "Emoji Sentiment Ranking", realizado por Novak et al a finales del año pasado.

En cualquier caso, la cuestion de determinar los emojis ideales para entrenar para polaridades positivas sigue estando igual de complicada que con los emoti. Seria necesario determinar con precision el cluster "amarillo", la interseccíon del rojo y el verde del gráfico, que parece contener la mayoria de las sonrisas, y de ese cluster determinar cuales son los emojis más representativos, que den poco margen de error. Es posible seguir una ruta alternativa para asignar clusters: en vez de coocurrencias y Louvain, utilizar directamente word2vec; esto lo hacen en los laboratorios de IBM Wang y Castanon con resultados parecidos.


loading...