miércoles, 20 de mayo de 2015

Del Data Mining al Big Data

Desde los años 90, cuando Data Mining se consolidó como una tecnología de apoyo a la toma de decisiones, se han logrado grandes avances, sobre todo en la parte de comunicaciones y manejo de grandes cantidades de información. Hoy surgen nuevos retos, sobre todo en la parte de integrar la información de los dispositivos móviles a la ya gran Base de Datos.

Por las experiencias que se han tenido, se propone que se incorpore en los proyectos de Data Mining un Modelo de Datos Analítico (MDA), que, sin ser un Data Warehouse, pueda ser útil a los usuarios finales para una mejor explotación de lo que existe oculto en las bases de datos. Sin embargo, es importante adquirir las tecnologías y metodologías que Big Data ofrece para poder alcanzar esto.

El objetivo es uno: proveer al usuario de “toda” la información que existe, que sea fácil de explotar, y que ayude a tomar decisiones más asertivas.

Los inicios del concepto Data Mining

En 2002, siendo yo Coordinador del Curso de Data Mining, en la Universitat Oberta de Catalunya (UOC) en Barcelona, España, me pidieron que escribiera un artículo relacionado a Data Mining (en español conocido como Minería de Datos). Lo titulé: “Data Mining: Torturando los datos hasta que confiesen”.

En aquella época fue un artículo muy citado, por la poca información que se tenía en español y por el gran potencial que esta tecnología ofrecía a través de varios ejemplos de diversos sectores. Lo que intenté transmitir era dejar en claro que Data Mining no era estadística, ni redes neuronales, ni visualización de datos, ni pronóstico, sino una tecnología orientada a los negocios y que mediante el análisis de grandes bases de datos iba en búsqueda de lo que se llama el conocimiento mediante la integración de un conjunto de técnicas.

Haciendo un poco de historia, para consolidar el término “Data Mining”, se tuvo que pasar desde los 60 por los conceptos de Data Arqueology, Data Dredging, Data Fishing, Data Snooping y KDD (Knowledge Discovery in Databases), entre otros. Todavía a finales de los 90 era común usar el Proceso de Fayyad como referencia para comenzar un proyecto de Data Mining, sin embargo, había problemas en las definiciones, por ejemplo para dimensionar el concepto “trabajar con grandes volúmenes de información”, y acotar lo que era grande.

Asimismo, cada investigador le daba una definición dependiendo del área formativa de la que provenía.

Sin duda, uno de los más importantes problemas de estos proyectos era la gran dependencia del “gurú”, por lo que en muchas ocasiones cuando se necesitaba realizar nuevamente un estudio comparativo, muchas veces éste no estaba disponible, y dado que casi no dejaba documentación sobre sus extracciones de SQL, causaba que no existiera continuidad en los estudios de Data Mining.

Ante la falta de regularización de los procesos de Data Mining, un grupo de investigadores y empresas se reunieron y en 1999, apareció la metodología CRISP-DM (Cross Industry Standard Process for Data Mining), que se consolida en diferentes llamados del 2002, 2004, and 2007 como la más usada en un proyecto de inicio a fin, por lo tanto, estandariza, en gran medida, los criterios para establecer la estrategia de resolución a los proyectos de Data Mining.

Acompañando a esta metodología, diversos trabajos de Ron Kohavi, Tom Mitchel, Liu Huan, Hiroshi Motoda, Peter Shappiro, Heikki Mannila, John Dougherty, Jiawei Han, Micheline Kamber, Gregory Piatetsky-Shapiro, entre muchos otros, vinieron a demostrar los mejores métodos de muestreo, selección de atributos relevantes, algoritmos de clasificación, y de cálculo del error principalmente.

Así que ya no había que inventar muchas cosas. La conclusión de todo esto es que son los propios datos, sus características y el objetivo a alcanzar lo que nos va llevando a la técnica a usar, y que había ciertos métodos que tenían en lo general un mejor desempeño que otros que hacían lo mismo.

Desde entonces muchos eventos han sucedido: Mayor capacidad de almacenamiento (Cómputo en la Nube) y procesamiento; mejores herramientas analíticas con sorprendentes capacidades de visualización de datos; mejores herramientas para mejorar la calidad de datos; personal que realiza Data Mining con mejores habilidades de entender los negocios y; sobre todo, un cliente con cada vez mayores necesidades de analizar a profundidad sus datos para beneficiar al negocio.

La evolución de Data Mining hacia el Modelo de Datos Analítico

Uno de los hechos relevantes es que Data Mining ya ha evolucionado para venderse más como concepto que como producto. Por lo tanto, ahora se vende como mejora en la utilidad, propensión de fuga del cliente, perfilamiento del comportamiento de los defraudadores de tarjetas de crédito o como una mejora para el ajuste de parámetros en las herramientas de calificación de riesgo.

Todo esto se resume en que Data Mining se ha conviertido en un concepto que incorpora en las diferentes áreas de organizaciones la práctica de la Cultura Analítica.

Para vender Cultura Analítica se debe comenzar a diferenciar en una organización cuáles son sus procesos operativos y cuáles los analíticos.

Los procesos operativos se refieren a todos ellos que trabajan en la continuidad del objeto del negocio, mientras que los segundos registran y miden el desempeño de ese objeto desde diversos aspectos. Una métrica simple consiste en calcular las horas/hombre dedicadas a la operación y al análisis en una organización. En nuestras experiencias, encontramos casos de empresas mexicanas con una relación entre operación/análisis de un 98%/2% y un 89%/11%, respectivamente.

Desde mi punto de vista, y de acuerdo con los diversos tipos de negocios, los rangos deben estar entre un 80%/20% a un 60%/40%.

Como hemos visto, vender Cultura Analítica afecta de manera significativa toda la estructura de la empresa, de ahí la importancia de tener una visión integral del negocio. En uno de sus diagnósticos, la Cultura Analítica estudia las actividades sin valor dentro de los procesos analíticos.

Para ejemplificar esto, recuerdo que tuve una experiencia en una institución bancaria: la persona que analizaba casos de operaciones inusuales de depósitos bancarios, tenía que copiar las cuentas detectadas por un sistema y analizarlas en otro. “Copiar y pegar” le consumía el 45% de su tiempo laboral. Cuando se detectó esta actividad sin valor, se desarrolló un programa que lo hacía en minutos, lo que le permitió a la persona realizar análisis de mayor profundidad e incorporar nuevas técnicas analíticas.

Otro punto a incorporar es la capacitación, sobre todo en estrategias para resolver los problemas analíticos y en el uso de herramientas de explotación de datos.

De igual manera que se ha aprendido a vender los proyectos, también ha habido ciertos aprendizajes citados a continuación:

La Cultura Analítica debe estar al alcance de muchos. Se debe apegar a metodologías analíticas bien documentadas, donde una persona con ciertos conocimientos técnicos, sin ser “gurú” las pueda entender. También los usuarios deberían tener acceso a la explotación de la información con herramientas amigables con destacados componentes de visualización de datos.

Un proyecto debe hacerse inmune a quien lo diseña, por lo tanto, no debe de haber dependencia del “gurú”, de tal forma que el proyecto analítico se pueda repetir a lo largo del tiempo.

Se deben tener habilidades que permitan mejorar la calidad de los datos.

Deben darse resultados que impacten el núcleo del negocio, teniendo una visión lo más integral posible, por lo que el responsable del proyecto debe de involucrarse mucho en el negocio de la organización.

Tener una certificación en el uso de herramientas de Data Mining no garantiza el éxito de un proyecto.

Adicionalmente, un elemento trascendental que ha surgido para cubrir las diversas necesidades actuales de las organizaciones, es el “Modelo de Datos Analítico” (MDA). Se trata de un modelo –generalmente bajo el esquema entidad-relación– que guardan algunas diferencias respecto a un modelo de datos tradicional o un Data Warehouse.

En un modelo tradicional, se determinan objetivos y alcances, luego se realizan entrevistas con los usuarios, se procede al mapeo de procesos, la definición de necesidades futuras, el análisis de las fuentes de datos hasta diseñarlo, construirlo, probarlo, documentarlo, liberarlo y capacitar a los usuarios, dependiendo de la metodología usada.

Una vez definidos los objetivos y el alcance, en el MDA se integran todos los elementos que permitan tomar de decisiones tanto a los directivos, como a quienes están analizando la información. Se coloca como eje al usuario y sobre eso, se intenta proporcionarle la información que necesite mediante gráficas, tablas, reportes, indicadores, entre otros. Todo lo anterior en apego a las metodologías tradicionales, pero con insumos y estrategias diferentes.

Por ejemplo, en un modelo tradicional se necesita definir en su contenido la dirección completa de un cliente. En cambio, un MDA sólo necesitará de la colonia, el código postal (CP) y las variables hijas de éste, como CP2 y CP3, refiriéndose al Código Postal que contienen los 2 y 3 primeros dígitos, para garantizar que los algoritmos puedan consolidar por grandes grupos de localidades.

También en un MDA, en la gran mayoría de los casos, el nombre del cliente no importará, sino únicamente algún identificador único. De igual forma no existe el concepto de hechos, ni dimensiones que tiene un Data Warehouse, aunque existen históricos, granularidad y metadatos.

Un aspecto importante dentro de un MDA es la política de nomenclatura de variables. Para ello, es necesario tener nombres que apoyen al usuario a entenderlas de manera intuitiva. Se deben clasificar para saber cuántas variables pertenecen a catálogos numéricos, alfanuméricos, cuántas variables fecha se tienen, cuántas son indicadores, cuántas están relacionadas a montos, importes, etc.

Finalmente, una vez construido el MDA, se debe apoyar con poderosas herramientas gráficas de consulta de información para usuarios no informáticos. Esto permite que los usuarios de negocio puedan explotar la información al momento que la necesiten, sin tener dependencia de las áreas de TI. A su vez, una herramienta de Data Mining se conecta al MDA, lo que facilita aplicar las diversas técnicas, repetir los estudios a lo largo del tiempo para comparar los avances de la organización.

Entre las técnicas más comunes, destaca los árboles de decisión, las reglas de asociación, clustering y los métodos bayesianos, principalmente.

Cuando se implementó un MDA en una compañía telefónica, al principio se visitaron las diversas áreas de negocio para recopilar sus elementos de decisión y saber las necesidades de información que tenían. Se partió de poner al usuario en el centro para observar la propensión de abandono de los clientes, conocido en inglés como “churn”, y determinar qué elementos necesitaba para desempeñar su trabajo, además de la información de consumo que se le daba.

Era necesario saber cuántas campañas de promoción se le había hecho al cliente, cuántas quejas se tenían, como había evolucionado tecnológicamente en sus diversos teléfonos que había adquirido, si usaba su plan de datos para acceder a Facebook, o Twitter, cada cuándo perdía su teléfono, entre otros aspectos.

Al presentar el proyecto al área de TI, se nos informó que lo que solicitábamos era “imposible”, pues cada información estaba en sistemas independientes. Afortunadamente, se pudo pasar sobre ese paradigma, gracias a los directivos que apoyaron el proyecto, de tal forma que sus primeros resultados incrementaron la respuesta con las mismas campañas, pasando de un 3% a un 30%, mediante una mejor selección de clientes propensos a abandonar la compañía.

La informática no ha podido cumplir los requerimientos de los usuarios

Este crecimiento de los modelos de datos –con poca planificación y enfocado más a resolver problemas inmediatos–, ha originado que el tema de la calidad de datos tenga un papel importante.

Aunque existen muchos conceptos para corregir esto tales como: la higienización de datos, la limpieza de datos, el filtrado de datos, la estandarización y depuración de datos, hemos decidido llamarles “procesos de mejora de calidad de datos”, pero que sin duda se trata de un aspecto fundamental antes de considerar hacer un proyecto de Data Mining.

La informática debe volcar sus esfuerzos en dar soluciones integrales y analíticas; debe colocar como eje central al usuario y proveerlo de toda la información necesaria y fidedigna para cumplir con su actividad, lo que traería beneficios directos a las instituciones. Aquí surge el fundamento de lo que se le ha llamado Big Data.16

El Big Data

A partir de una necesidad para proporcionar al usuario una visión analítica de 360 grados sobre los clientes, los productos, los empleados, las transacciones que, a su vez, estén inter-ligados, surge el concepto Big Data, conocido también por otros nombres (Big Data Analytics, Value Data, Smart Data, entre otros).

Aunque hay todavía muchas discusiones por el nombre, lo que de veras importa es que atiende una necesidad y que debe de contener varias palabras: almacenamiento y procesamiento masivo, heterogeneidad de datos, integración, fácil explotación de datos, análisis avanzado y data mining.

Muchos textos al respecto se preocupan más por el tipo de almacenamiento de datos heterogéneos y hablan de pentabytes, exabytes, zettabytes o yottabytes. Sin embargo, eso no necesariamente responde a la necesidad del usuario.

Otro de los factores que pueden detonar el Big Data, consiste en explotar mejor la información que envian los sensores o dispositivos móviles, tales como la información de camiones de transporte, de dispositivos de geolocalización, de tarjetas con antenas transmisoras. Estas últimas, por ejemplo, pueden rastrear con la instalación de muchas antenas la navegación de los clientes en una tienda, o de sistemas más complicados como en la red de transporte público de la ciudad.

Junto con Big Data hay que proveer al usuario de herramientas para ejecutar acciones oportunas como respuesta del negocio. Aunque falta mucho camino para entender a los clientes, un gran error que comenten los ejecutivos es que si éstos detectan “algo” en la red social, quieren atacar ese mercado desde esa misma red social. Pero eso no siempre es lo mejor.

En la gran mayoría de los casos, las redes sólo sirven para detectar patrones o grupos y deben ser atraídos desde otros medios.

En las campañas presidenciales de México en el 2012 existieron dos propuestas políticas (PRD-PT y PAN) que quisieron convencer a parte de ese electorado de su voto a favor desde las redes sociales. Sin embargo, tuvieron un efecto contrario y acabaron llenándolos de infinidad de información, no toda fidedigna, y hasta con cierto grado de agresión no sólo a los candidatos, sino a los cibernautas.

En mi opinión concluí –con base en varias encuestas– que muchos electores indecisos decidieron no dar su voto a la propuesta política que enviaba mensajes agresivos en la red social en la que estaban. Cabe aclarar que muchos de estos mensajes no eran realizados por estas propuestas políticas, sino por cibernautas afines a ellas.

El equipo científico de Barack Obama en las elecciones del 2012, dirigido por Rayid Ghani, se dedicó a analizar los diferentes perfiles de electores en un lugar llamado “La Cueva”. La situación al principio prácticamente era un empate técnico entre ambos candidatos, por lo que había que hacer cosas diferentes.

Durante 18 meses unificaron todas las bases de datos que emplearon los equipos de campaña de Obama que le ganó a McCain en el 2008, en lo que podemos llamar el Big Data, combinando las redes sociales, listas de donantes, encuestas, las bases de datos del partido que determinaban sus preferencias políticas o la indecisión en cada estado de importancia.

Entre las variables introducidas estaban: sexo, edad, raza, etnia, lugar de residencia, idioma, ingreso, tendencia política, historial de participación electoral, junto con aficiones, red de amigos, preferencias de consumo, la mayoría obtenidos del Facebook.

Algunos aspectos que encontraron los científicos fueron:

El 20% de los que recibían un mensaje vía Facebook lo leían y lo mandaban a sus amigos. La acción fue diseñar una aplicación que transmitía mensajes muy bien estructurados animando a sus contactos a registrarse para algún evento donde Obama estaría presente.

Se descubrió que en Florida era necesario convencer a las mujeres del condado de Dade de menos de 35 años, que les gustaban ciertos programas de televisión. La acción fue contratar publicidad en “Sons of Anarchy” y “The Walking Dead”, que eran programas que la gran mayoría de ellas veía con frecuencia.

Había un importante grupo de votantes indecisos en la red social Reddit. La acción fue que Obama se registró para interactuar junto con su equipo dentro de esa red.

Se encontró que un grupo de mujeres de la Costa Este estaban indecisas. La acción fue hacer un sorteo en esa región para ir a visitar, junto con Obama, a la actriz de la serie televisiva “Sex and the City”, Sarah Jessica Parker, nacida en 1965 y conocida como un referente en la moda.

Se descubrió que las mujeres de entre 40 y 49 años de la Costa Oeste soñaban con tener una cena con George Clooney. La acción fue hacer un sorteo para cenar con Obama y el actor en Hollywood.

En la noche del escrutinio, Mitt Romney vio cómo se iban sus estados como Ohio, Virginia, New Hampshire, Indiana, Colorado, Florida, Iowa a favor de Obama. Unas horas después, la revista TIME17 fue el medio que develó la existencia de “La Cueva”. En marzo del 2012, el presidente Obama dio a conocer un proyecto denominado “The Big Data Research and Development Initiative”.18

La iniciativa está compuesta por 84 diferentes programas de Big Data distribuidos en seis dependencias.

El reto futuro

Las instituciones tanto públicas como privadas han hecho esfuerzos por conceptos como Cuenta Única, Cliente Único, Clave Única de Registro de Población (CURP), Registro Federal de Causantes (RFC), Documento Nacional de Identidad (DNI), entre otros.

Sin embargo, por ejemplo, en los sistemas es común hablar de la CURP16 o CURP18, para decir que la primera le faltan dígitos y en el segundo está completa.

En un estudio del CURP de ciudadanos que asistían a escuelas del Distrito Federal, encontramos que un grupo importante de estos aparentemente habían nacido en el estado de Aguascalientes. Al buscar la fuente del problema, encontramos que el sistema de captura asumía el estado que aparece como primero y lo ponía por defecto, en caso de que no se hubiera llenado, en vez de haber puesto Distrito Federal por defecto. Por lo tanto, debemos decir que el esfuerzo de cumplir con las claves de identificación únicas completas debe ser prioridad de las instituciones del gobierno, certificando que los sistemas puedan llenar de forma correcta y completa datos como la CURP.

De igual forma sucede con las direcciones. Es necesario que cada predio tenga una dirección única, ya que resulta curioso que la correspondencia que recibe un ciudadano de los distintos órganos del gobierno (agua, luz, predial, multas de tránsito, etc.) tienen direcciones diferentes, que varían principalmente en el nombre de la colonia y el código postal. La necesidad de que los municipios cuenten con catálogos de calles y colonias es primordial, así como establecer criterios para dar los nombres a las calles.

Existe el caso de un municipio que decidió realizar una política de nomenclatura a sus calles, de tal forma que en lo referente a nombres de héroes o personajes distinguidos, se comienza por el nombre y termina por el apellido sin abreviaturas. Esto facilita bastante la forma de que cada predio tenga una dirección única y la correspondencia llegue realmente a donde debe.

Actualmente, en México existen dos organismos que indican cómo se debe establecer una dirección: uno es el Servicio Postal Mexicano (SEPOMEX) y el otro es el Instituto Nacional de Estadística y Geografía (INEGI). Sin embargo, en el tema de usar o no abreviaturas, por ejemplo, éstas se contraponen, situación que se debe unificar.

Por otro lado, cada vez que se pide una factura fiscal, resulta que se deben capturar todos los datos; siendo que si existieran sistemas más eficientes, con sólo teclear el RFC y solicitar a un centro del gobierno que llene los campos restantes en forma automática, eso ahorraría miles de horas/hombre anuales gastadas en esa actividad. Algunos me entenderán cuando piden una factura a un restaurante y ésta llega a tardar más de 30 minutos y después de su revisión observamos que tiene errores.

Una estrategia para vender Big Data se refiere a plantearle situaciones de peligro a la compañía y ver si está preparada tecnológicamente para responder ante eso.

Por ejemplo, qué información crucial se requiere al momento que hubiera un accidente para definir acciones. Ante eso, el posible cliente se da cuenta de que sólo tiene información parcial ante un posible escenario y percibe inmediatamente la necesidad del Big Data, así como su necesidad de analizar toda la información en conjunto.

Para concluir, a lo largo de este artículo hemos hecho una revisión de cómo han evolucionado las actividades analíticas a lo largo del tiempo, y cómo se han ido solventando problemas con la incorporación de metodologías, de una visión integral del negocio, del Modelo de Datos Analítico, y que esto a su vez está convirtiéndose en lo que se conoce como Big Data.

Hoy algunas de las empresas que venden está tecnología encabezan sus discursos de venta sobre almacenamiento masivo de datos heterogéneos, incorporando términos como “cómputo en la nube”.

Sin embargo, el verdadero poder de esta evolución tecnológica está en darle a los usuarios una información completa, integral y fidedigna, acompañada de elementos analíticos y de fácil explotación, que le ayuden a entender mejor el negocio, permitiendo beneficios como ahorros, identificación de nuevos perfiles, búsqueda de nuevos nichos de mercado, recomendación de nuevos productos, detección de fallas en los procesos, entre otros.