Para conocer sus gustos, preferencias de lectura y, de esta forma, establecer estrategias para fidelizarlos. En la medida en que los editores definan su estrategia y cuenten con capacidad y tecnología para recoger e interpretar los datos que se recopilan de los lectores en distintos medios, -redes sociales, webs, dispositivos, blogs, etc-, podrán alcanzar mejor los objetivos que se propongan.
Para descubrir más acerca del Big Data, entrevistamos a Eduard Gil, Big Data Project Leader del Departamento de Justicia de la Generalitat de Cataluña.
Ha liderado proyectos de Big Data en la Sanidad Pública y en otras Administraciones Públicas. Académico Master Open Big Data Management en ESADE y en Euncet Business School

1.¿Qué es en realidad el Big data?

La humanidad, a lo largo de su historia, ha realizado importantes esfuerzos para conservar datos, documentos y efectos personales como testimonio de su trayectoria vital. El Big Data ha existido siempre, llevamos cientos de años almacenando información y analizándola, solo que ahora es a escala global. En la actualidad, la tecnología ha favorecido que el volumen de los datos, especialmente en formato digital, se haya disparado al mismo tiempo que lo ha hecho la capacidad de compartir, almacenar y explotar estos datos. Un ingente torrente de datos se cruzan cada día a velocidades de vértigo en una gran coctelera que bebe de los acaudalados cauces de la informática, las redes sociales, los «smartphones» y demás protagonistas de la revolución digital.

Big data es el término que se utiliza para definir los procesos y las tecnologías que permiten almacenar ese enorme volumen de datos digitales de origen muy variado, texto, vídeo, audio, etc. e identificar inesperados patrones de comportamiento humano a través de una serie de técnicas de inteligencia artificial basadas en algoritmos precisos.

2.¿Qué cambio supone su aparición?

Antes de la llegada de las nuevas tecnologías digitales de alto rendimiento cualquier estudio sobre el comportamiento de los clientes estaba limitado por la técnica del muestreo. En la pretérita época de los datos escasos nuestros análisis se limitaban a someter a prueba un reducido número de hipótesis que definíamos junto a la muestra del estudio antes incluso de recopilar los datos. Ahora en la época de los datos masivos cuando dejamos que hablen todos los datos podemos apreciar detalles que nunca pudimos ver cuando estábamos limitados a cantidades más pequeñas. Nuestra capacidad de medición se ha visto aumentada exponencialmente para descubrir pautas y correlaciones en los datos. Por ejemplo, la detección de fraudes con tarjetas de crédito funciona buscando anomalías y procesando todos los datos de las transferencias registrados en lugar de solo una muestra.

La orientación a los datos masivos es la nueva forma de centrarse en el cliente, el Big data permite a las organizaciones innovar, extraer rentabilidad y generar valor siempre y cuando cuenten con la creatividad necesaria y sepan cómo manejar todos estos datos.

3.¿Puedes explicar buenos ejemplos de utilización del Big data que se han dado en España y a nivel internacional, en el sector retail, o de las comunicaciones o mass media?

Muchas empresas, sobre todo en EEUU, se están apalancando en sus grandes bases de datos para mejorar su rentabilidad. Amazon recomienda libros específicos a sus clientes basándose en sus preferencias de compra individuales. Desde su inicio Amazon había capturado muchos datos sobre sus clientes: qué compraban, qué libros miraban pero no compraban, cuánto tiempo pasaban mirándolo y qué libros compraban al mismo tiempo. En un momento determinado decidieron hallar asociaciones entre los productos como base para sus recomendaciones a los clientes. Hoy en día una tercera parte de todas las ventas de Amazon son resultado del nuevo sistema de recomendación y personalización basados en algoritmos de clasificación.

Wallmart observó gracias al análisis de sus datos masivos que antes de un huracán no solo aumentaban las ventas de linternas, sino también las de un dulce para el desayuno. Desde entonces, cuando se avecina una tormenta, Walmart colocaba cajas de ese dulce en la parte frontal de las tiendas aumentando mucho sus ventas.

La compañía de transportes UPS lleva años analizando sus datos para mejorar sus rutas y dar el servicio más rápido y mas barato a sus clientes, empresas de transportes metropolitanos como la de Londres están también trabajando proyectos de análisis de datos con el mismo objetivo. Telefónica ha puesto en marcha un proyecto basado en técnicas de Big data que permiten anticipar incidencias e identificar acciones proactivas y garantizarles una conectividad y unas prestaciones excelentes.

Sin los datos masivos Spotify no podría existir. Los usuarios de Spotify crean 600 Gigabyte de datos por día y 150 gigabyte de datos por día a través de diferentes servicios. La mayoría de los datos son los datos centrados en el usuario, tales como miles de millones de mensajes de registro que permite Spotify para proporcionar recomendaciones de música o seleccionar por ejemplo, la siguiente canción que se escucha.

Más datos significarán mejores recomendaciones, mejores predicciones, más usuarios y por lo tanto más pagos a los titulares de derechos. Big data es verdaderamente una de las causas por las que Spotify ha modificado la industria de la música.

4.¿Cómo puede ayudar el Big data al mundo editorial, a generar más valor y beneficios?

Los datos masivos están a punto de remodelar nuestro modo de vivir, trabajar y pensar. Los datos son el eje de todo. Todos esos fragmentos digitales que hemos reunido pueden explotarse ahora y liberar valor.

Por ejemplo, el libro digital tiene muchos significados pero uno de ellos es que ha permitido convertir el texto en datos. El análisis del texto “datificado” permitiría averiguar comportamientos de lectura de valor tanto para editores como para los autores ¿en qué párrafos se detiene el lector? ¿en qué capítulos se abandona más la lectura de un libro? ¿qué capítulos de un ensayo por ejemplo son los más subrayados?.

Empresas especializadas en la formación on line como Coursera rastrean las interacciones de los estudiantes en la red para ver que da mejor resultado desde un punto de vista pedagógico. Los profesores pueden comprobar si el porcentaje de estudiantes que han vuelto a ver un pasaje de una conferencia es alto, lo que podría sugerir que tal vez no tenían claro cierto punto y mejorar la experiencia formativa. Algo parecido podría plantearse el sector editorial entorno al libro electrónico.

Los datos masivos también se pueden utilizar para rastrear las opiniones de los lectores en las redes sociales a través de lo que llamamos análisis de sentimientos. Las marcas que cuentan con un buen motor de análisis de los sentimientos, extraen conclusiones y toman decisiones concretas basadas en la información que les proporcionan: modificar elementos de su offering, lanzar acciones correctivas cuando detectan un problema con la experiencia del cliente o construir sus mensajes de marketing.

5.¿Qué debe tener en cuenta un editor para implantar un proyecto de Big data? Qué le recomendarías a una editorial que empieza a recopilar datos?

Los datos son a la sociedad de la información lo que el combustible es a la economía industrial. Muchas organizaciones confunden Big data con tecnología. Iniciar el camino para generar valor a partir de los datos masivos es sobre todo un proyecto estratégico y por tanto de negocio.

Es imprescindible empezar definiendo una estrategia de datos: tener claro qué datos necesito y cuáles puedo usar para responder a preguntas relevantes para el negocio. Si quiero usar los datos masivos para mejorar los resultados de mi empresa tengo que conocer primero mis grandes objetivos estratégicos. Cuando los haya definido, hay que identificar las grandes preguntas para las que queremos encontrar respuestas, de este modo seré capaz de averiguar qué datos le proporcionará respuestas, las necesidades de información estratégica y cómo debo almacenarlos y utilizarlos.

La conclusión es que muchas veces se explora y se busca algo que no se conoce, así que, para tener éxito, es fundamental definir el proyecto en base a lo que exactamente la empresa está tratando de lograr, y planteando correctamente las preguntas que necesitan ser contestadas.

Otro aspecto complicado a la hora de alinear el negocio con los datos masivos es que existen silos de datos en diferentes departamentos o en manos de diferentes responsables: ventas, marketing, recursos humanos, etc. Cada uno de ellos restringido y vigilado para cumplir con las normas. Hay buenas razones para que los silos de datos existan, pero, si los datos necesarios no están disponibles para la persona adecuada, se están estableciendo límites incluso antes de empezar a resolver el problema. Para superar esto, los proyectos de Big data deben empezar con la revisión de la propiedad de los datos a nivel ejecutivo. Sin todos los datos relevantes, es imposible ver las relaciones y los patrones que responderán a las preguntas que se buscan. Algún cargo directivo debería decir: “Este equipo está tratando de resolver un problema y es lo suficientemente importante como para que puedan tener acceso a todos los datos que necesiten”.

Finalmente es necesario definir un prototipo, una prueba de concepto o una prueba piloto en sitio para saber realmente si el proyecto funciona y para saber por dónde orientarlo.

6.¿Qué te parecen los proyectos de Tekstum y Jellybooks?

Son sin duda son dos iniciativas de valor que demuestran que la revolución de los datos masivos también esta llegando al sector editorial.

Entorno a la cadena de valor de los datos masivos se articulan tres tipos de actores, en primer lugar los propietarios de los datos, aquellas empresas que han conseguido  almacenar gran cantidad de datos sobre sus clientes o usuarios como Amazon, Facebook, Twitter. En segundo lugar los especialistas en análisis de datos que cuentan con las capacidades y las tecnologías para realizar las predicciones y encontrar correlaciones entre la multitud de datos almacenados y finalmente las empresas con mentalidad de datos masivos. Estas últimas no tienen la propiedad de los datos ni las tecnologías pero si el olfato para ver las oportunidades de revolucionar un sector con los datos masivos antes que los demás. Tekstum y Jellybooks son buenos ejemplos de dos empresas con mentalidad de datos masivos que han construido alianzas con los propietarios de los datos para generar valor.

 Jellybooks es un buen ejemplo de lo que he mencionado anteriormente, las posibilidades que da la “datificación” de los textos. El análisis del texto “datificado” permitiría averiguar comportamientos de lectura antes completamente ocultos ¿en qué párrafos se detiene el lector? ¿en qué capítulos se abandona más la lectura de un libro? ¿qué capítulos de un ensayo por ejemplo son los más subrayados?¿ cuántos lectores leen el libro de principio a fin o cuántos leen siguiendo determinados capítulos? Los datos pueden revelar segmentos diferentes de lectores que se acercan a un mismo texto con hábitos de lectura y gustos diferentes.

Tekstum funciona como un motor de análisis de sentimientos, algoritmos que se utilizan para rastrear las opiniones de los lectores en las redes sociales.  El análisis de los datos de los Social Media es fundamental para obtener unos resultados positivos para nuestra campaña y encauzarla, si fuese el caso, hacia el éxito. Esto no es tan sencillo y resulta un gran reto para las tecnologías del lenguaje, ya que obtener buenos resultados es mucho más difícil de lo que muchos creen. La tarea de clasificar automáticamente un texto escrito en un lenguaje natural en un sentimiento positivo o negativo, opinión o subjetividad es a veces tan complicada que incluso es difícil poner de acuerdo a diferentes personas sobre la clasificación a asignar a un texto dado. Los motores de sentimientos basados en el Big data pueden consistir en entrenar un clasificador usando un algoritmo de aprendizaje supervisado a partir de una colección de textos anotados, donde cada texto habitualmente se representa con un vector de palabras (bag of words), n-gramas o skip-grams, en combinación con otro tipo de características semánticas que intentan modelar la estructura sintáctica de las frases, la intensificación, la negación, la subjetividad o la ironía. Los sistemas utilizan diversas técnicas, aunque las más populares son los clasificadores basados en Support Vector Machines,K-Nearest Neighbor. En las investigaciones más recientes se han empezado a utilizar otras técnicas más avanzadas, como Latent Semantic Analisi e incluso Deep Learning

7.¿Es costoso implementar un sistema de Big data en una organización de tamaño mediano o pequeño, como puede ser una editorial? ¿Qué inversiones y costes hay que considerar?

La nube también ha llegado al  mundo de los datos masivos y eso ha reducido sensiblemente el coste de invertir en este tipo de tecnología. El llamado Big data as a Service permite a las organizaciones externalizar una gran variedad de funciones de datos a la nube y sólo pagar por el poder de cómputo que se  requiere.

Las grandes empresas del mundo de los datos como Amazon WS, Microsoft, Google ya ofrecen soluciones Big data como servicio. En lugar de instalar y gestionar los servidores por tu cuenta, un proveedor te ofrece un sistema de Big data configurado, optimizado y funcionando en lo que se conoce como nube o cloud. Tú solo tienes que ocuparte de enviarle tus datos y de pedirle que haga las operaciones que tú quieras cuando las necesites, ya sea en tiempo real o en diferido. Esa es la filosofía de Google BigQuery, IBM analytics for Twitter, Amazon Web Service’s Elastic Map Reduce (EMR),  Altiscale, etc.

Solucionado el tema tecnológico, las editoriales que quieran desarrollar un proyecto de Big data deberían invertir en contratar profesionales con habilidades analíticas, los llamados científicos de datos. El científico de datos analiza, interpreta los datos, comunica los resultados para que la empresa haga uso de ellos, adapte sus productos y servicios, y cree nuevas oportunidades de negocio. Esta solución tiene algunas barreras de entrada para muchas organizaciones. Por un lado, los científicos de datos son caros. Tienen un conjunto de habilidades muy específicas y aunque añaden valor, no todas las empresas tienen los recursos para contratar a alguien específicamente dedicado a la ciencia de datos. Incluso si existieran los recursos, la gran demanda actual significa que muchas organizaciones se ven en apuros para encontrar un científico de datos para contratar.

En este caso una posible solución es centrarse en las necesidades de negocio de los usuarios en lugar de modelos estadísticos complejos, herramientas que devuelven información que se puede utilizar en tiempo real. Existen herramientas de Business Intelligence como Qlickview o Tableau que facilitan un análisis de datos accesible a todos los posibles usuarios en todos los niveles de la organización, proporcionan interfaces fáciles de usar, consultas que se pueden guardar para usar una y otra vez y que son fáciles de entender. La segmentación de clientes, por ejemplo, debe ser lo suficientemente fácil para  que un usuario de negocios la pueda hacer en cuestión de segundos.

Invertir en datos masivos hoy en día ya no es una opción sino que es una necesidad si se quiere sobrevivir en un mundo cada vez mas competitivo y global.