user_mobilelogo
  • 027_header_semanas_ciencia_2018.jpg
    https://www.viveinternet.es/images/headers/027_header_semanas_ciencia_2018.jpg
  • 025_header_fake_news_2018.jpg
    https://www.viveinternet.es/images/headers/025_header_fake_news_2018.jpg
  • 026_header_gestion_innovacion.jpg
    https://www.viveinternet.es/images/headers/026_header_gestion_innovacion.jpg
  • 024_header_charlas_online_2018.jpg
    https://www.viveinternet.es/images/headers/024_header_charlas_online_2018.jpg
  • 017_header_ojito_con_la_red.jpg
    https://www.viveinternet.es/images/headers/017_header_ojito_con_la_red.jpg
  • 012_header_final_OCTSI.gif
    https://www.viveinternet.es/images/headers/012_header_final_OCTSI.gif

viveinternet big data main

Imagen: Shutterstock. Parcialmente tratada

Big Data es una disciplina informática consistente en el análisis de enormes conjuntos de datos con el propósito de identificar patrones que conduzcan a información de utilidad para Negocio y Ciencia. Conozcámosla.

Internet no ha parado de crecer desde la revolución Web 2.0 de inicios del milenio. La metamorfosis que ha sufrido el usuario, que pasó de ser un mero espectador a un productor de contenidos de todo tipo, ha creado un escenario de datos que hoy, más de doce años después, sigue aumentando en volumen ininterrumpidamente.

Alguien vio oportunidades de negocio, generalmente orientadas a poder ofrecer productos y servicios personalizados, en lo que se denominó Marketing 1-to-1. Abanderó esta idea el hoy todopoderoso gigante tecnológico Amazon, llevando la magia de ofrecer productos en su web que se ajustaban a los requisitos de cada cliente de manera individual.

Detrás de esto estaba un, por aquel entonces, relativamente “simple” proceso de captura y análisis de datos para averiguar qué es lo que gustaba a un usuario de Amazon que, recordemos, hace 15 años sólo vendía libros. Se analizaban las compras que había hecho un cliente para, en su siguiente visita, mostrarle en la página libros sobre temas similares. Luego se pasó a las cookies y ya no hacía falta que el usuario comprara. Bastaba con analizar qué clase de productos visitaba más.

Hoy en día ya oímos mucho el término Big Data que, aunque puede parecer estar referido únicamente a colecciones ingentes de datos, va bastante más allá. El concepto Big Data comprende la recopilación, almacenamiento, búsqueda, extracción, análisis y producción de datos en forma de información útil para algún propósito.

¿Cuáles son las características del concepto Big Data?: Las 5 “V”

Curiosamente, los atributos que definen esta disciplina empiezan todos por “V”. ¡Así los recordaremos mejor!

Volumen

Es la primera de sus características. Un pequeño conjunto de datos aislados no constituyen un escenario Big Data, salvo que sean parte de un entramado mucho mayor. Pero éste no es el caso que nos ocupa.

Variedad

Esta característica se refiere al tipo y naturaleza de los datos que serán procesados por las técnicas correspondientes. Una base de datos que incluye millones de nombres y apellidos únicamente, por muy voluminosa que sea no aporta gran cosa. Por ello, la variedad es clave, tanto en tipo, como en naturaleza. Cuanto mayor sea la variedad, más prometedor podrá ser el resultado de los análisis que se lleven a cabo sobre los datos.

Velocidad

Los datos de un contexto Big Data deben estar siempre disponibles y en tiempo real. “Ahora lo quiero, ahora lo tengo”. Esto implica además que incluso analizando cantidades considerables de datos, se podrá aún seguir accediendo a ellos. No se bloquean durante el análisis.

Variabilidad

Determina la riqueza del escenario de conjuntos de datos. Cuanto más variabilidad, mayor es su riqueza y, en consecuencia, más rico será el potencial de resultados de un análisis. Aunque también más difícil.

Veracidad

Esta propiedad se refiere a la calidad de los datos que se van a usar para el análisis. ¿Son fiables? Un conjunto de datos erróneo podría dar al traste con todo un proceso de investigación o análisis. De ahí que la veracidad sea una característica igualmente importante.

Procesos que incluye el Big Data

Las técnicas empleadas en Big Data no son comúnmente aplicadas en las pequeñas y medianas empresas, pero sí es habitual el despliegue de soluciones de este tipo en las grandes, como bancos, proveedores de servicios de telefonía o energía y otras industrias, administraciones públicas, etc.

El Big Data parte de inmensos escenarios abstractos de datos, en busca de patrones que puedan arrojar algún tipo de luz para un propósito empresarial o científico concreto. El reto es obtener información “extra” de estos datos, mediante la aplicación de complejas pero bien definidas técnicas.

Si elevamos este contexto a Internet, nos daremos cuenta de que el escenario es casi agobiante.

Los gigantes como Google, Facebook o Amazon llevan ya bastantes años haciendo uso de Big Data con datos existentes en la Red, sean o no de sus clientes o usuarios.

Con estos mimbres, se han tenido que definir unos procesos muy claros. Son los siguientes:

Captura de los datos

Es el primero de los pasos. Se identifica el escenario de datos al que se quiere “atacar” para, de éste, obtener lo que se llama una “librería” o “biblioteca de datos”.

Depurado

Los sistemas participantes en el proceso y que están gobernados por nosotros se encargan de “limpiar” los datos y dividirlos en conjuntos menores más manejables, con el propósitos de facilitar el trabajo en los siguientes pasos.

Indexación de datos

Este el proceso que hace que los datos sean buscables. La indexación es una técnica que se ha venido usando en el mundo de las bases de datos de hace más de 40 años. Sin embargo, se ha convertido en un término popular fruto de “boom” de páginas web de los últimos años y las técnicas SEO que, para un mejor posicionamiento en buscadores, deben aplicarse. Seguro que todos hemos oído la expresión “Google no a indexado aún tu página”.

El indexado consiste en hacer que los datos sean “buscables”, esto es, que puedan aplicarse ciertas técnicas informáticas para obtener la información deseada.

Almacenamiento

Durante los tres procesos anteriores, el sistema ha estado almacenando datos al mismo tiempo, aunque de manera temporal.

Análisis

Comprende el despliegue de algoritmos o instrucciones bien definidas y de mayor o menor complejidad sobre los conjuntos de datos que ya han sido capturados, indexados y almacenados.
La esencia de este paso es la búsqueda de patrones en los datos. Llevando este asunto al mundo de las películas de toda índole en las que se incluye como tema el descifrado de algún código mágico, la interpretación de un mensaje secreto, el análisis de un manuscrito antiguo, se trataría de llegar a ese tradicional

- “¡Fíjate!, cada tres líneas se repite esto… Además, las líneas pares parecen estar enlazadas mediante este u otro símbolo con la línea 15. ¡Creo haber dado con la clave!”

Compartición y transferencia

Este paso consiste en hacer que los datos puedan ya compartirse y enviarse a otros. Si fuera necesario, los datos obtenidos de este paso podrían ser objeto de una nueva ronda de procedimientos al objeto de afinar aún más los resultados.

Visualización

Los patrones que se han descubierto durante la fase de análisis son objeto de aplicación de un nuevo algoritmo cuyo propósito es representar visualmente usando gráficos las relaciones entre conjuntos de datos. Además es aquí donde se mostrarán los patrones e inferencias descubiertos.

viveinternet big data in content 1

Representación de relaciones entre datos. Imagen: Sutterstock. Parcialmente Tratada

Privacidad de la información

Por supuesto, todos los datos deben ser tratados confidencialmente y nunca ir más allá de las fronteras del departamento o empresa que está aplicando los mecanismos.

Cuáles son los beneficios de la Big Data

Algo debe tener de bueno si tan de moda está esta disciplina. Pues sí.

Reduce costes

Desplegar procesos Big Data, aunque inicialmente muy costoso, acaba por resultar rentable para las empresas, permitiéndoles estudiar las formas más eficientes en términos de costes para desarrollar su negocio.

Ahorra tiempo

La estandarización de procesos internos para el análisis de grandes cantidades de datos evita estar “dando palos de ciego” en futuras ocasiones.

Conocer a la competencia

Los procesos de Big Datos permiten a una empresa conocer más a fondo a sus competidores, permitiendo a ésta adecuar su negocio posicionándolo en una posición de ventaja competitiva.
Desarrollo de nuevos y mejores productos y servicios.

Un análisis preciso de la oferta actual de éstos por parte de la empresa combinado con un conjunto de datos adicionales arroja habitualmente indicadores que le permiten evolucionar su cartera de productos y servicios hacia la mejora continua.

Entender mejor al cliente y al mercado

Y he aquí la ventaja más popular. La que tanto aplican Facebook, Google, Amazon y otros gigantes y no tan gigantes para mostrarnos siempre aquello que saben que nos interesa ahora o que nos puede llegar a interesar dentro de, por ejemplo, 3 meses. Porque saben que un amigo muy cercano nuestro cumple años y saben que le gustan los relojes de tal tipo y, además, saben que el que tiene se le rompió porque nuestro amigo ha estado buscando talleres de relojería para tal marca y tipo, pero aún no ha conseguido que se lo arreglen. ¡Nos ponen nuestro regalo en bandeja! “¡Si le regalo un reloj voy a quedar como un rey!”, piensa uno…

viveinternet bigdata incontent 2

Imagen: Sutterstock. Parcialmente Tratada

Así es la Big Data. Y no sólo de negocios va este asunto. La Ciencia también es una usuaria importante de ella y, su aplicación en el mundo de las Neurociencias Cognitivas, de la investigación en nuevas vacunas y muchos otros ámbitos, también está arrojando resultados.

 

ViveInternet
 
Referencias:
- Maketecheasier