Análisis de grandes datos de grandes datos. La sencillez es la clave del éxito

Según investigaciones y tendencias

Big Data, "Big Data" se ha convertido en la comidilla de la ciudad en la prensa de TI y marketing desde hace varios años. Y está claro: las tecnologías digitales han calado en la vida de una persona moderna, “todo está escrito”. El volumen de datos sobre diversos aspectos de la vida está creciendo y, al mismo tiempo, crecen las posibilidades de almacenar información.

Tecnologías globales para el almacenamiento de información

Fuente: Hilbert y Lopez, 'La capacidad tecnológica mundial para almacenar, comunicar y computar información', Science, 2011 Global.

La mayoría de los expertos están de acuerdo en que acelerar el crecimiento de los datos es una realidad objetiva. Las redes sociales, los dispositivos móviles, los datos de los dispositivos de medición, la información comercial son solo algunos tipos de fuentes que pueden generar grandes cantidades de información. Según estudios IDCUniverso digital, publicado en 2012, en los próximos 8 años la cantidad de datos en el mundo alcanzará los 40 Zb (zettabytes), lo que equivale a 5200 GB por habitante del planeta.

Crecimiento de la información digital recopilada en los EE. UU.

Fuente: IDC

Una parte importante de la información no la crean las personas, sino los robots que interactúan entre sí y con otras redes de datos, como, por ejemplo, sensores y dispositivos inteligentes. A este ritmo de crecimiento, la cantidad de datos en el mundo, según los investigadores, se duplicará cada año. La cantidad de servidores virtuales y físicos en el mundo se multiplicará por diez debido a la expansión y creación de nuevos centros de datos. En este sentido, existe una necesidad creciente del uso efectivo y la monetización de estos datos. Dado que el uso de Big Data en los negocios requiere una inversión considerable, es necesario comprender claramente la situación. Y es, en esencia, simple: puede aumentar la eficiencia del negocio reduciendo costos y/o aumentando las ventas.

¿Para qué sirve el Big Data?

El paradigma Big Data define tres tipos principales de tareas.

Almacenar y administrar cientos de terabytes o petabytes de datos que las bases de datos relacionales convencionales no pueden usar de manera eficiente.
Organización de la información no estructurada compuesta por textos, imágenes, videos y otro tipo de datos.
Análisis de Big Data, que plantea la cuestión de cómo trabajar con información no estructurada, la generación de informes analíticos y la implementación de modelos predictivos.

El mercado de proyectos de Big Data se cruza con el mercado de inteligencia empresarial (BA), cuyo volumen en el mundo, según los expertos, en 2012 ascendió a unos 100 mil millones de dólares. Incluye componentes de tecnología de red, servidores, software y servicios técnicos.

Además, el uso de tecnologías Big Data es relevante para soluciones de clase de aseguramiento de ingresos (RA) diseñadas para automatizar las actividades de las empresas. Los modernos sistemas de aseguramiento de ingresos incluyen herramientas para la detección de inconsistencias y análisis de datos en profundidad que le permiten detectar oportunamente posibles pérdidas o distorsiones de la información que pueden conducir a una disminución en los resultados financieros. En este contexto, las empresas rusas, confirmando la demanda de tecnologías de Big Data en el mercado interno, señalan que los factores que estimulan el desarrollo de Big Data en Rusia son el crecimiento de los datos, la aceleración de la toma de decisiones gerenciales y la mejora de su calidad.

Lo que impide trabajar con Big Data

Hoy en día, solo se analiza el 0,5% de los datos digitales acumulados, a pesar de que objetivamente hay tareas de toda la industria que podrían resolverse utilizando soluciones analíticas de la clase Big Data. Los mercados de TI desarrollados ya tienen resultados que pueden usarse para evaluar las expectativas asociadas con la acumulación y el procesamiento de big data.

Uno de los principales factores que ralentiza la implementación de proyectos Big Data, además del alto costo, es el problema de elegir los datos a procesar: es decir, la definición de qué datos se deben extraer, almacenar y analizar, y cuáles no se deben tener en cuenta.

Muchos representantes empresariales señalan que las dificultades para implementar proyectos de Big Data están asociadas con la falta de especialistas: especialistas en marketing y analistas. La tasa de retorno de la inversión en Big Data depende directamente de la calidad del trabajo de los empleados involucrados en análisis profundos y predictivos. El enorme potencial de los datos que ya existen en una organización a menudo no puede ser utilizado de manera efectiva por los propios especialistas en marketing debido a procesos comerciales obsoletos o regulaciones internas. Por lo tanto, los proyectos de Big Data a menudo son percibidos por las empresas como difíciles no solo en la implementación, sino también en la evaluación de los resultados: el valor de los datos recopilados. Los detalles de trabajar con datos requieren que los especialistas en marketing y analistas cambien su atención de la tecnología y los informes a la solución de problemas comerciales específicos.

Debido al gran volumen y la alta velocidad del flujo de datos, el proceso de recopilación de datos implica procedimientos ETL en tiempo real. Para referencia:ETL - desdeinglésExtraer, Transformar, carga- literalmente "extracción, transformación, carga") - uno de los principales procesos de gestión almacenes de datos, que incluye: la extracción de datos de fuentes externas, su transformación y limpieza para satisfacer las necesidades ETL debe verse no solo como un proceso de transferencia de datos de una aplicación a otra, sino también como una herramienta para preparar datos para el análisis.

Y luego, los problemas de garantizar la seguridad de los datos provenientes de fuentes externas deben tener soluciones que correspondan al volumen de información recopilada. Dado que los métodos de análisis de Big Data se están desarrollando hasta ahora solo después del crecimiento del volumen de datos, la capacidad de las plataformas analíticas para utilizar nuevos métodos de preparación y agregación de datos juega un papel importante. Esto sugiere que, por ejemplo, los datos sobre compradores potenciales o un almacén de datos masivo con un historial de clics en sitios de tiendas en línea pueden ser interesantes para resolver varios problemas.

Las dificultades no paran

A pesar de todas las dificultades con la implementación de Big Data, la empresa tiene la intención de aumentar las inversiones en esta área. Según datos de Gartner, en 2013, el 64% de las empresas más grandes del mundo ya han invertido o tienen planes de invertir en el despliegue de tecnologías Big Data para su negocio, mientras que en 2012 había un 58% de dichas empresas. Según un estudio de Gartner, los líderes de las industrias que invierten en Big Data son las empresas de medios, telecomunicaciones, el sector bancario y las empresas de servicios. Muchos actores importantes en la industria minorista ya han logrado resultados exitosos de la implementación de Big Data en términos de uso de datos obtenidos con herramientas RFID, logística y sistemas de reubicación (del inglés. reposición- acumulación, reposición - R&T), así como de programas de fidelización. La experiencia minorista exitosa estimula a otros sectores del mercado a encontrar nuevas formas efectivas de monetizar los grandes datos para convertir su análisis en un recurso que funcione para el desarrollo comercial. Gracias a esto, según los expertos, en el período hasta 2020, las inversiones en gestión y almacenamiento disminuirán por cada gigabyte de datos de $2 a $0,2, pero para el estudio y análisis de las propiedades tecnológicas de Big Data crecerá solo un 40 %

Los costes que se presentan en varios proyectos de inversión en el campo del Big Data son de diferente naturaleza. Los elementos de costo dependen de los tipos de productos que se seleccionan en función de ciertas decisiones. La mayor parte de los costos en proyectos de inversión, según los expertos, recae en productos relacionados con la recolección, estructuración de datos, limpieza y gestión de la información.

Cómo está hecho

Hay muchas combinaciones de software y hardware que le permiten crear soluciones efectivas de Big Data para varias disciplinas comerciales: desde redes sociales y aplicaciones móviles hasta visualización y extracción de datos comerciales. Una ventaja importante de Big Data es la compatibilidad de las nuevas herramientas con bases de datos ampliamente utilizadas en los negocios, lo que es especialmente importante cuando se trabaja con proyectos transversales, como la organización de ventas multicanal y atención al cliente.

La secuencia de trabajo con Big Data consiste en recopilar datos, estructurar la información recibida mediante informes y cuadros de mando (dashboard), crear insights y contextos y formular recomendaciones de acción. Dado que trabajar con Big Data implica altos costos para la recopilación de datos, cuyo resultado del procesamiento no se conoce de antemano, la tarea principal es comprender claramente para qué sirven los datos y no cuántos de ellos están disponibles. En este caso, la recolección de datos se convierte en un proceso de obtención de información sumamente necesaria para la solución de problemas específicos.

Por ejemplo, los proveedores de telecomunicaciones agregan una gran cantidad de datos, incluida la geolocalización, que se actualiza constantemente. Esta información puede ser de interés comercial para las agencias de publicidad, que pueden utilizarla para ofrecer publicidad dirigida y localizada, así como para minoristas y bancos. Dichos datos pueden desempeñar un papel importante a la hora de decidir si abrir un punto de venta minorista en una ubicación particular en función de los datos sobre la presencia de un poderoso flujo de personas específico. Hay un ejemplo de medición de la efectividad de la publicidad en vallas publicitarias al aire libre en Londres. Ahora, la cobertura de dicha publicidad solo se puede medir colocando personas cerca de las estructuras publicitarias con un dispositivo especial que cuenta a los transeúntes. En comparación con este tipo de medición de la efectividad de la publicidad, el operador móvil tiene muchas más oportunidades: conoce exactamente la ubicación de sus suscriptores, conoce sus características demográficas, sexo, edad, estado civil, etc.

Con base en dichos datos, en el futuro, la perspectiva se abre para cambiar el contenido del mensaje publicitario, utilizando las preferencias de una persona en particular que pasa por la cartelera. Si los datos muestran que la persona que pasa viaja mucho, se le puede mostrar un anuncio del resort. Los organizadores de un partido de fútbol solo pueden estimar el número de aficionados cuando llegan al partido. Pero si pudieran pedirle al operador de telefonía móvil información sobre dónde estaban los visitantes una hora, un día o un mes antes del partido, esto les daría a los organizadores la oportunidad de planificar lugares para anunciar los próximos partidos.

Otro ejemplo es cómo los bancos pueden usar Big Data para prevenir el fraude. Si el cliente reporta la pérdida de la tarjeta, y al realizar una compra con ella, el banco ve en tiempo real la ubicación del teléfono del cliente en el área de compra donde se realiza la transacción, el banco puede consultar la información en el estado de cuenta del cliente si trató de engañarlo. O la situación contraria, cuando un cliente realiza una compra en una tienda, el banco ve que la tarjeta con la que se realiza la transacción y el teléfono del cliente están en el mismo lugar, el banco puede concluir que el titular de la tarjeta la está utilizando . Gracias a estas ventajas del Big Data, los límites con los que están dotados los almacenes de datos tradicionales se están ampliando.

Para una decisión exitosa de implementar soluciones de Big Data, una empresa necesita calcular un caso de inversión, y esto genera grandes dificultades debido a muchos componentes desconocidos. La paradoja de la analítica en tales casos es predecir el futuro basándose en el pasado, información sobre la cual a menudo falta. En este caso, un factor importante es la planificación clara de sus acciones iniciales:

En primer lugar, es necesario definir un problema comercial específico, para el cual se utilizarán las tecnologías Big Data, esta tarea se convertirá en el núcleo para determinar la corrección del concepto elegido. Debe concentrarse en recopilar datos relacionados con esta tarea en particular y, durante la prueba de concepto, podrá utilizar varias herramientas, procesos y métodos de gestión que le permitirán tomar decisiones más informadas en el futuro.
En segundo lugar, es poco probable que una empresa sin las habilidades y la experiencia en análisis de datos pueda implementar con éxito un proyecto de Big Data. El conocimiento necesario siempre proviene de la experiencia previa en análisis, que es el principal factor que afecta la calidad del trabajo con datos. La cultura del uso de datos juega un papel importante, ya que a menudo el análisis de la información revela la dura verdad sobre el negocio, y para aceptar esta verdad y trabajar con ella, se necesitan métodos desarrollados para trabajar con datos.
En tercer lugar, el valor de las tecnologías de Big Data radica en proporcionar información. Los buenos analistas siguen siendo escasos en el mercado. Se les llama especialistas que tienen un conocimiento profundo del significado comercial de los datos y saben cómo aplicarlos correctamente. El análisis de datos es un medio para lograr los objetivos comerciales y, para comprender el valor de Big Data, necesita un modelo de comportamiento adecuado y una comprensión de sus acciones. En este caso, los grandes datos proporcionarán mucha información útil sobre los consumidores, en base a la cual podrá tomar decisiones comerciales útiles.

A pesar de que el mercado ruso de Big Data apenas comienza a tomar forma, algunos proyectos en esta área ya se están implementando con bastante éxito. Algunos de ellos tienen éxito en el campo de la recopilación de datos, como los proyectos para el Servicio de Impuestos Federales y Tinkoff Credit Systems, otros en términos de análisis de datos y aplicación práctica de sus resultados: este es el proyecto Synqera.

Tinkoff Credit Systems Bank implementó un proyecto para implementar la plataforma EMC2 Greenplum, que es una herramienta para computación paralela masiva. En los últimos años, el banco ha incrementado sus requerimientos de rapidez en el procesamiento de la información acumulada y análisis de datos en tiempo real, motivado por el alto ritmo de crecimiento en el número de usuarios de tarjetas de crédito. El Banco anunció planes para expandir el uso de tecnologías Big Data, en particular para procesar datos no estructurados y trabajar con información corporativa obtenida de diversas fuentes.

El Servicio Federal de Impuestos de Rusia está creando actualmente una capa analítica del almacén de datos federal. Sobre esta base se está creando un espacio único de información y tecnología de acceso a los datos tributarios para su procesamiento estadístico y analítico. Durante la implementación del proyecto se está trabajando en la centralización de información analítica con más de 1200 fuentes del nivel local del Servicio de Impuestos Federales.

Otro ejemplo interesante de análisis de big data en tiempo real es la startup rusa Synqera, que desarrolló la plataforma Simplate. La solución se basa en el procesamiento de grandes conjuntos de datos, el programa analiza información sobre los clientes, su historial de compras, edad, género e incluso estado de ánimo. En las cajas registradoras de la red de tiendas de cosmética se instalaron pantallas táctiles con sensores que reconocen las emociones de los clientes. El programa determina el estado de ánimo de una persona, analiza información sobre él, determina la hora del día y escanea la base de datos de descuento de la tienda, luego de lo cual envía mensajes dirigidos al comprador sobre promociones y ofertas especiales. Esta solución mejora la lealtad del cliente y aumenta las ventas minoristas.

Si hablamos de casos de éxito en el extranjero, entonces, en este sentido, es interesante la experiencia del uso de tecnologías Big Data en Dunkin` Donuts, que utiliza datos en tiempo real para vender productos. Las pantallas digitales en las tiendas muestran ofertas que cambian cada minuto, según la hora del día y la disponibilidad del producto. Según los ingresos de caja, la empresa recibe datos sobre qué ofertas recibieron la mayor respuesta de los compradores. Este enfoque de procesamiento de datos permitió aumentar las ganancias y la rotación de mercancías en el almacén.

Como muestra la experiencia de implementar proyectos de Big Data, esta área está diseñada para resolver con éxito los problemas comerciales modernos. Al mismo tiempo, un factor importante para lograr objetivos comerciales cuando se trabaja con big data es elegir la estrategia adecuada, que incluye análisis que identifican las necesidades del consumidor, así como el uso de tecnologías innovadoras en el campo de Big Data.

Según una encuesta global realizada anualmente por Econsultancy y Adobe desde 2012 entre los especialistas en marketing de las empresas, el "big data", que caracteriza las acciones de las personas en Internet, puede hacer mucho. Pueden optimizar los procesos comerciales fuera de línea, ayudar a comprender cómo los propietarios de dispositivos móviles los usan para buscar información o simplemente "mejorar el marketing", es decir. más eficiente. Además, la última función se está volviendo más popular de año en año, como se muestra en nuestro diagrama.

Las principales áreas de trabajo de los vendedores de Internet en términos de relaciones con los clientes.

Una fuente: Econsultancy y Adobe, publicadoemarketer.com

Tenga en cuenta que la nacionalidad de los encuestados no importa mucho. Según una encuesta realizada por KPMG en 2013, la proporción de "optimistas", es decir, de los que usan Big Data al desarrollar una estrategia comercial es el 56%, y las fluctuaciones de una región a otra son pequeñas: del 63% en los países de América del Norte al 50% en EMEA.

Uso de Big Data en varias regiones del mundo

Una fuente: KPMG, publicadoemarketer.com

Mientras tanto, la actitud de los especialistas en marketing hacia tales "tendencias de la moda" recuerda un poco a una anécdota bien conocida:

Dime, Vano, ¿te gustan los tomates?
- Me gusta comer, pero no.

A pesar de que los especialistas en marketing dicen que les “encanta” el Big Data e incluso parecen usarlo, de hecho, “todo es complicado”, como escriben sobre sus sentidos adjuntos en las redes sociales.

Según una encuesta realizada por Circle Research en enero de 2014 entre especialistas en marketing europeos, 4 de cada 5 encuestados no utilizan Big Data (a pesar de que, por supuesto, les “encanta”). Las razones son diferentes. Hay pocos escépticos empedernidos: el 17% y exactamente el mismo número que sus antípodas, es decir. aquellos que con confianza responden "Sí". El resto vacila y duda, el “pantano”. Evaden una respuesta directa bajo excusas plausibles como "todavía no, pero pronto" o "esperaremos a que empiecen los demás".

Uso de Big Data por parte de los especialistas en marketing, Europa, enero de 2014

Una fuente:maldita sea, publicado -vendedor electrónicocom

¿Qué los confunde? Puro disparate. Algunos (exactamente la mitad de ellos) simplemente no creen en estos datos. A otros (también hay bastantes, el 55%) les resulta difícil correlacionar los conjuntos de "datos" y "usuarios" entre ellos. Alguien simplemente (digámoslo políticamente correcto) tiene un lío corporativo interno: los datos caminan sin dueño entre los departamentos de marketing y las estructuras de TI. Para otros, el software no puede hacer frente a la afluencia de trabajo. Etc Dado que las participaciones totales están muy por encima del 100%, es evidente que la situación de "múltiples barreras" no es infrecuente.

Barreras que impiden el uso de Big Data en marketing

Una fuente:maldita sea, publicado -vendedor electrónicocom

Por lo tanto, tenemos que afirmar que hasta el momento "Big Data" es un gran potencial que aún necesita ser utilizado. Por cierto, esta puede ser la razón por la que el Big Data está perdiendo su halo de “tendencia de moda”, tal y como demuestran los datos de la encuesta realizada por la empresa Econsultancy que ya hemos mencionado.

Las tendencias más significativas en marketing digital 2013-2014

Una fuente: Consultoría y Adobe

Están siendo reemplazados por otro rey: el marketing de contenidos. ¿Cuánto tiempo?

No se puede decir que Big Data sea un fenómeno fundamentalmente nuevo. Las fuentes de big data existen desde hace años: bases de datos de compras de clientes, historiales de crédito, estilos de vida. Y durante años, los científicos han utilizado estos datos para ayudar a las empresas a evaluar el riesgo y predecir las necesidades futuras de los clientes. Sin embargo, hoy en día la situación ha cambiado en dos aspectos:

Han surgido herramientas y métodos más sofisticados para analizar y combinar diferentes conjuntos de datos;

Estas herramientas analíticas se complementan con una avalancha de nuevas fuentes de datos impulsadas por la digitalización de prácticamente todos los métodos de recopilación y medición de datos.

La variedad de información disponible es a la vez inspiradora e intimidante para los investigadores que crecieron en un entorno de investigación estructurado. El sentimiento del consumidor es capturado por sitios web y todo tipo de redes sociales. El hecho de ver anuncios se registra no solo mediante decodificadores, sino también con la ayuda de etiquetas digitales y dispositivos móviles que se comunican con la TV.

Los datos de comportamiento (como el número de llamadas, los hábitos de compra y las compras) ahora están disponibles en tiempo real. Por lo tanto, mucho de lo que antes se podía aprender a través de la investigación ahora se puede aprender a través de grandes fuentes de datos. Y todos estos activos de información se generan constantemente, independientemente de cualquier proceso de investigación. Estos cambios nos hacen preguntarnos si el big data puede reemplazar la investigación de mercado clásica.

No se trata de los datos, se trata de preguntas y respuestas.

Antes de ordenar una sentencia de muerte para la investigación clásica, debemos recordar que no es la presencia de uno u otro activo de datos lo que es decisivo, sino algo más. ¿Qué exactamente? Nuestra capacidad para responder preguntas, eso es. Una cosa divertida sobre el nuevo mundo de los grandes datos es que los resultados de los nuevos activos de datos generan aún más preguntas, y esas preguntas tienden a ser mejor respondidas por la investigación tradicional. Por lo tanto, a medida que crece el Big Data, vemos un aumento paralelo en la disponibilidad y la demanda de "pequeños datos" que pueden proporcionar respuestas a las preguntas del mundo del Big Data.

Consideremos una situación: un gran anunciante monitorea constantemente el tráfico en las tiendas y los volúmenes de ventas en tiempo real. Las metodologías de investigación existentes (en las que preguntamos a los participantes en los paneles de investigación sobre sus motivaciones de compra y su comportamiento en el punto de venta) nos ayudan a dirigirnos mejor a segmentos de clientes específicos. Estas metodologías se pueden ampliar para incluir una gama más amplia de activos de big data, hasta el punto en que los big data se conviertan en un medio de observación pasiva y la investigación en un método de investigación continua y estrechamente enfocada de cambios o eventos que requieren estudio. Así es como el big data puede liberar a la investigación de una rutina innecesaria. La investigación primaria ya no debería centrarse en lo que está pasando (lo hará el big data). En cambio, la investigación primaria puede enfocarse en explicar por qué vemos ciertas tendencias o desviaciones de las tendencias. El investigador podrá pensar menos en obtener datos y más en cómo analizarlos y usarlos.

Al mismo tiempo, vemos que el big data está resolviendo uno de nuestros mayores problemas, el problema de los estudios demasiado largos. El examen de los estudios en sí ha demostrado que las herramientas de investigación demasiado infladas tienen un impacto negativo en la calidad de los datos. Aunque muchos expertos reconocieron este problema durante mucho tiempo, invariablemente respondieron con la frase: “Pero necesito esta información para la alta dirección”, y continuaron las largas entrevistas.

En el mundo de los grandes datos, donde se pueden obtener indicadores cuantitativos a través de la observación pasiva, este tema se vuelve discutible. Una vez más, pensemos en toda esta investigación sobre el consumo. Si el big data nos da información sobre el consumo a través de la observación pasiva, entonces la investigación primaria en forma de encuestas ya no necesita recopilar este tipo de información, y finalmente podemos respaldar nuestra visión de encuestas cortas no solo con buenos deseos, sino también con algo real.

Big Data necesita tu ayuda

Finalmente, "grande" es solo una de las características de los grandes datos. La característica "grande" se refiere al tamaño y la escala de los datos. Por supuesto, esta es la característica principal, ya que el volumen de estos datos está más allá del alcance de todo lo que hemos trabajado antes. Pero otras características de estos nuevos flujos de datos también son importantes: a menudo tienen un formato deficiente, no están estructurados (o, en el mejor de los casos, están parcialmente estructurados) y están llenos de incertidumbre. El campo emergente de la gestión de datos, acertadamente llamado "análisis de entidades", tiene como objetivo resolver el problema de superar el ruido en los grandes datos. Su tarea es analizar estos conjuntos de datos y averiguar cuántas observaciones son para la misma persona, qué observaciones son actuales y cuáles son utilizables.

Este tipo de limpieza de datos es necesario para eliminar el ruido o los datos erróneos cuando se trabaja con activos de datos grandes o pequeños, pero no es suficiente. También necesitamos crear un contexto en torno a los activos de big data en función de nuestra experiencia previa, análisis y conocimiento de la categoría. De hecho, muchos analistas apuntan a la capacidad de gestionar la incertidumbre inherente a los grandes datos como fuente de ventaja competitiva, ya que permite una mejor toma de decisiones.

Y aquí es donde la investigación primaria no solo se libera de la rutina gracias al big data, sino que también contribuye a la creación y análisis de contenidos dentro del big data.

Un excelente ejemplo de esto es la aplicación de nuestro nuevo marco de valor de marca a las redes sociales. (estamos hablando del desarrollado enMillward marrónun nuevo enfoque para medir el valor de la marcalos significativamente Diferente Estructura- "El paradigma de las diferencias significativas" -R & T ). Este modelo se somete a pruebas de comportamiento en mercados específicos, se implementa de forma estándar y se puede aplicar fácilmente a otras disciplinas de marketing y sistemas de información de apoyo a la toma de decisiones. En otras palabras, nuestro modelo de valor de marca, que se basa en la investigación de encuestas (aunque no solo en la investigación de encuestas), tiene todas las propiedades necesarias para superar la naturaleza no estructurada, desconectada e incierta de los grandes datos.

Considere los datos de opinión del consumidor proporcionados por las redes sociales. En su forma cruda, los picos y valles en el sentimiento del consumidor muy a menudo se correlacionan mínimamente con las medidas fuera de línea del valor y el comportamiento de la marca: simplemente hay demasiado ruido en los datos. Pero podemos reducir este ruido aplicando nuestros modelos de significado del consumidor, diferenciación de marca, dinámica e identidad a los datos sin procesar del sentimiento del consumidor, que es una forma de procesar y agregar datos de redes sociales a lo largo de estas dimensiones.

Una vez que los datos se organizan de acuerdo con nuestro modelo de marco, las tendencias identificadas generalmente coinciden con las mediciones de comportamiento y valor de marca obtenidas fuera de línea. De hecho, los datos de las redes sociales no pueden hablar por sí mismos. Para usarlos con este propósito se requiere nuestra experiencia y modelos construidos alrededor de las marcas. Cuando las redes sociales nos brindan información única expresada en el lenguaje que usan los consumidores para describir las marcas, debemos usar ese lenguaje al crear nuestra investigación para que la investigación primaria sea mucho más efectiva.

Beneficios de los Estudios Exentos

Esto nos lleva de nuevo al hecho de que los grandes datos no reemplazan tanto a la investigación como la liberan. Los investigadores se verán aliviados de tener que crear un nuevo estudio para cada nuevo caso. Los activos de big data en constante crecimiento se pueden utilizar para diferentes temas de investigación, lo que permite que la investigación primaria posterior profundice en el tema y llene los vacíos. Los investigadores se verán libres de tener que depender de encuestas demasiado infladas. En su lugar, podrán utilizar encuestas breves y centrarse en los parámetros más importantes, lo que mejora la calidad de los datos.

Con este lanzamiento, los investigadores podrán usar sus principios y conocimientos establecidos para agregar precisión y significado a los activos de big data, lo que conducirá a nuevas áreas para la investigación de encuestas. Este ciclo debería conducir a una comprensión más profunda de una variedad de cuestiones estratégicas y, en última instancia, a un avance hacia lo que siempre debería ser nuestro objetivo principal de informar y mejorar la calidad de las decisiones de marca y comunicación.

El término "Big Data" puede ser reconocible hoy en día, pero todavía hay bastante confusión en cuanto a lo que realmente significa. En verdad, el concepto está en constante evolución y se redefine, ya que sigue siendo la fuerza impulsora detrás de muchas olas en curso de transformación digital, incluida la inteligencia artificial, la ciencia de datos y la Internet de las cosas. Pero, ¿qué es la tecnología Big-Data y cómo está cambiando nuestro mundo? Tratemos de entender la esencia de la tecnología Big Data y lo que significa en palabras simples.

Todo comenzó con una “explosión” en la cantidad de datos que hemos creado desde los albores de la era digital. Esto se debe en gran parte al desarrollo de las computadoras, Internet y tecnologías que pueden "arrebatar" datos del mundo que nos rodea. Los datos en sí mismos no son un invento nuevo. Incluso antes de la era de las computadoras y las bases de datos, usábamos registros de transacciones en papel, registros de clientes y archivos de archivo, que son datos. Las computadoras, especialmente las hojas de cálculo y las bases de datos, nos han facilitado el almacenamiento y la organización de datos a gran escala. De repente, la información está disponible con un clic del ratón.

Sin embargo, hemos recorrido un largo camino desde las tablas y bases de datos originales. Hoy, cada dos días creamos tantos datos como los que recibimos desde el principio hasta el año 2000. Así es, cada dos días. Y la cantidad de datos que creamos continúa disparándose; para 2020, la cantidad de información digital disponible aumentará de unos 5 zettabytes a 20 zettabytes.

Hoy en día, casi todas las acciones que realizamos dejan su huella. Generamos datos cada vez que accedemos a Internet, cuando llevamos nuestro smartphone equipado con un buscador, cuando hablamos con nuestros conocidos a través de redes sociales o chats, etc. Además, la cantidad de datos generados por máquinas también está creciendo rápidamente. Los datos se generan y comparten cuando nuestros dispositivos domésticos inteligentes se comunican entre sí o con sus servidores domésticos. Los equipos industriales en plantas y fábricas están cada vez más equipados con sensores que acumulan y transmiten datos.

El término "Big Data" se refiere a la recopilación de todos estos datos y nuestra capacidad para usarlos en nuestro beneficio en una amplia gama de áreas, incluido el negocio.

¿Cómo funciona la tecnología Big Data?

Big Data funciona según el principio: cuanto más sepa sobre un tema o fenómeno en particular, más confiablemente podrá lograr una nueva comprensión y predecir lo que sucederá en el futuro. Al comparar más puntos de datos, emergen relaciones que antes estaban ocultas, y estas relaciones nos permiten aprender y tomar mejores decisiones. Esto se hace con mayor frecuencia a través de un proceso que involucra la construcción de modelos a partir de los datos que podemos recopilar y luego ejecutar una simulación que modifica los valores de los puntos de datos cada vez y ve cómo afectan nuestros resultados. Este proceso está automatizado: las tecnologías de análisis modernas ejecutarán millones de estas simulaciones, modificando todas las variables posibles hasta que encuentren un modelo, o idea, que ayude a resolver el problema en el que están trabajando.

Bill Gates se cierne sobre el contenido en papel de un CD

Hasta hace poco, los datos se limitaban a hojas de cálculo o bases de datos, y todo estaba muy organizado y ordenado. Cualquier cosa que no pudiera organizarse fácilmente en filas y columnas se consideró demasiado compleja para trabajar con ella y se ignoró. Sin embargo, el progreso en almacenamiento y análisis significa que podemos capturar, almacenar y procesar una gran cantidad de datos de varios tipos. Como resultado, "datos" hoy puede significar cualquier cosa, desde bases de datos hasta fotografías, videos, grabaciones de sonido, textos escritos y datos de sensores.

Para comprender todos estos datos desordenados, los proyectos basados en Big Data a menudo utilizan análisis de vanguardia, utilizando inteligencia artificial y aprendizaje automático. Al enseñar a las computadoras a determinar qué datos en particular son, por ejemplo, a través del reconocimiento de patrones o el procesamiento del lenguaje natural, podemos enseñarles a identificar patrones mucho más rápido y de manera más confiable que nosotros.

¿Cómo se utiliza el Big Data?

Este flujo cada vez mayor de información sobre datos de sensores, texto, voz, fotos y videos significa que ahora podemos usar los datos de formas que eran inimaginables hace solo unos años. Esto trae cambios revolucionarios al mundo de los negocios en casi todas las industrias. Las empresas de hoy pueden predecir, con una precisión increíble, qué categorías específicas de clientes querrán realizar una adquisición y cuándo. Big Data también ayuda a las empresas a realizar sus actividades de manera mucho más eficiente.

Incluso fuera de los negocios, los proyectos de Big Data ya están ayudando a cambiar nuestro mundo de varias maneras:

Mejorar la atención médica: la medicina basada en datos puede analizar grandes cantidades de información médica e imágenes para modelos que pueden ayudar a detectar enfermedades en una etapa temprana y desarrollar nuevos medicamentos.
Predecir y responder a desastres naturales y provocados por el hombre. Los datos de los sensores se pueden analizar para predecir dónde podrían ocurrir los terremotos, y los patrones de comportamiento humano brindan pistas que ayudan a las organizaciones a brindar asistencia a los sobrevivientes. La tecnología Big Data también se está utilizando para rastrear y proteger el flujo de refugiados de las zonas de guerra en todo el mundo.
Prevención del crimen. Las fuerzas policiales utilizan cada vez más estrategias basadas en datos que incorporan su propia inteligencia e información de dominio público para hacer un mejor uso de los recursos y tomar contramedidas cuando sea necesario.

Los mejores libros sobre tecnología Big-Data

Todos mienten. Los motores de búsqueda, Big Data e Internet saben todo sobre ti.
GRANDES DATOS. Toda la tecnología en un solo libro.
industria de la felicidad Cómo el Big Data y las nuevas tecnologías ayudan a añadir emoción a los bienes y servicios.
Una revolución en la analítica. Cómo mejorar tu negocio con analítica operativa en la era del Big Data.

Problemas con los grandes datos

Big Data nos brinda información y oportunidades sin precedentes, pero también plantea problemas y preguntas que deben abordarse:

Privacidad de datos: el Big Data que generamos hoy en día contiene mucha información sobre nuestras vidas personales que tenemos todo el derecho de mantener en privado. Cada vez con más frecuencia, se nos pide que logremos un equilibrio entre la cantidad de datos personales que revelamos y la comodidad que ofrecen las aplicaciones y los servicios basados en el uso de Big Data.
Protección de datos: incluso si creemos que estamos de acuerdo con que alguien tenga nuestros datos para un propósito específico, ¿podemos confiar en ellos para mantener nuestros datos seguros y protegidos?
Discriminación de datos: cuando se conozca toda la información, ¿será aceptable discriminar a las personas en función de los datos de su vida personal? Ya usamos puntajes de crédito para decidir quién puede pedir prestado dinero, y el seguro también depende en gran medida de los datos. Debemos esperar ser analizados y evaluados con más detalle, pero se debe tener cuidado de que esto no complique la vida de quienes tienen menos recursos y acceso limitado a la información.

Cumplir con estas tareas es una parte importante de Big Data y deben ser abordadas por las organizaciones que desean utilizar dichos datos. No hacerlo puede dejar a una empresa vulnerable, no solo en términos de reputación, sino también legal y financieramente.

Mirando hacia el futuro

Los datos están cambiando nuestro mundo y nuestras vidas a un ritmo sin precedentes. Si Big Data es capaz de todo esto hoy, imagínese lo que será capaz de hacer mañana. La cantidad de datos disponibles para nosotros solo aumentará y la tecnología de análisis será aún más avanzada.

Para las empresas, la capacidad de aplicar Big Data será cada vez más crítica en los próximos años. Solo aquellas empresas que ven los datos como un activo estratégico sobrevivirán y prosperarán. Aquellos que ignoran esta revolución corren el riesgo de quedarse atrás.

En un momento, escuché el término "Big Data" de German Gref (director de Sberbank). Por ejemplo, ahora están trabajando activamente en la implementación, porque esto les ayudará a reducir el tiempo que trabajan con cada cliente.

La segunda vez que encontré este concepto fue en la tienda en línea del cliente, en la que trabajamos y aumentamos el surtido de un par de miles a un par de decenas de miles de artículos básicos.

La tercera vez vi que Yandex necesitaba un analista de big data. Entonces decidí profundizar más en este tema y, al mismo tiempo, escribir un artículo que le dirá qué tipo de término es el que excita las mentes de los gerentes TOP y el espacio de Internet.

VVV o VVVVV

Por lo general, comienzo cualquiera de mis artículos con una explicación de qué tipo de término es. Este artículo no será una excepción.

Sin embargo, esto no se debe principalmente al deseo de mostrar lo inteligente que soy, sino a que el tema es realmente complejo y requiere una explicación cuidadosa.

Por ejemplo, puede leer qué son los grandes datos en Wikipedia, no entender nada y luego volver a este artículo para comprender la definición y la aplicabilidad para los negocios. Entonces, comencemos con una descripción y luego con ejemplos comerciales.

Los grandes datos son grandes datos. Increíble, ¿verdad? En realidad, del inglés se traduce como “big data”. Pero esta definición, se podría decir, es para tontos.

Importante. La tecnología de big data es un enfoque/método de procesamiento de más datos para obtener nueva información que es difícil de procesar de manera convencional.

Los datos se pueden procesar (estructurar) y fragmentar (es decir, no estructurar).

El término en sí apareció relativamente recientemente. En 2008, una revista científica predijo este enfoque como algo necesario para manejar una gran cantidad de información que crece exponencialmente.

Por ejemplo, cada año la información en Internet que necesita ser almacenada y, por supuesto, procesada, aumenta en un 40%. Otra vez. +40% cada año aparece nueva información en Internet.

Si los documentos impresos son comprensibles y las formas de procesarlos también son comprensibles (transferencia a formato electrónico, unión en una carpeta, numeración), entonces qué hacer con la información que se presenta en "portadores" completamente diferentes y otros volúmenes:

documentos de Internet;
blogs y redes sociales;
fuentes de audio/video;
aparatos de medición;

Existen características que hacen posible clasificar la información y los datos como big data.

Es decir, no todos los datos pueden ser adecuados para el análisis. Estas características contienen el concepto clave de big data. Todos caben en tres V.

Volumen (del volumen en inglés). Los datos se miden en términos del volumen físico del “documento” a analizar;
Velocidad (del inglés speed). Los datos no se detienen en su desarrollo, sino que crecen constantemente, por lo que necesitan ser procesados rápidamente para obtener resultados;
Variedad (del inglés variedad). Los datos pueden no ser uniformes. Es decir, pueden estar fragmentados, estructurados o parcialmente estructurados.

Sin embargo, de vez en cuando, a la VVV se le añade una cuarta V (veracidad - fiabilidad/credibilidad de los datos) e incluso una quinta V (en unos casos es viabilidad - viabilidad, en otros es valor - valor).

En algún lugar incluso vi 7V, que caracterizan datos relacionados con big data. Pero en mi opinión, esto es de una serie (donde periódicamente se agregan Ps, aunque las 4 iniciales son suficientes para entender).

YA SOMOS MÁS DE 29.000 personas.
ENCENDER

¿Quién lo necesita?

Surge una pregunta lógica, ¿cómo se puede usar la información (en todo caso, los grandes datos son cientos y miles de terabytes)? Ni siquiera así.

Aquí está la información. Entonces, ¿por qué se les ocurrió el big data entonces? ¿Cuál es el uso de big data en marketing y negocios?

Las bases de datos convencionales no pueden almacenar y procesar (ni siquiera estoy hablando de análisis ahora, sino simplemente almacenar y procesar) una gran cantidad de información.
Big data resuelve este problema principal. Almacena y gestiona con éxito información con un gran volumen;
Estructura la información proveniente de varias fuentes (video, imágenes, audio y documentos de texto) en una forma única, comprensible y digerible;
Formación de análisis y creación de pronósticos precisos basados en información estructurada y procesada.

Es complicado. En pocas palabras, cualquier vendedor que entienda que si estudia una gran cantidad de información (sobre usted, su empresa, sus competidores, su industria), puede obtener resultados muy decentes:

Comprensión completa de su empresa y su negocio desde el lado de los números;
Estudia a tus competidores. Y esto, a su vez, permitirá salir adelante dominándolos;
Conoce nueva información sobre tus clientes.

Y precisamente porque la tecnología de big data da los siguientes resultados, todo el mundo se apresura con ella.

Están tratando de meter este negocio en su empresa para obtener un aumento en las ventas y una disminución en los costos. Y para ser específicos, entonces:

Aumentar las ventas cruzadas y las ventas adicionales a través de un mejor conocimiento de las preferencias de los clientes;
Buscar productos populares y razones por las que se compran (y viceversa);
Mejora del producto o servicio;
Mejora en el nivel de servicio;
Aumentar la lealtad y el enfoque en el cliente;
Prevención del fraude (más relevante para el sector bancario);
Reducción de los costes excesivos.

El ejemplo más común que se da en todas las fuentes es, por supuesto, Apple, que recopila datos sobre sus usuarios (teléfono, reloj, computadora).

Es debido a la presencia del ecosistema que la corporación sabe tanto sobre sus usuarios y en el futuro usa esto para obtener ganancias.

Puedes leer estos y otros ejemplos de uso en cualquier otro artículo menos en este.

vamos al futuro

Te hablaré de otro proyecto. O mejor dicho, sobre una persona que construye el futuro utilizando soluciones de big data.

Se trata de Elon Musk y su empresa Tesla. Su principal sueño es hacer autos autónomos, es decir, te pones al volante, enciendes el piloto automático de Moscú a Vladivostok y... te duermes, porque no necesitas conducir un auto en absoluto, porque él lo hará. todo él mismo.

¿Te parecería fantástico? ¡Pero no! Es solo que Elon actuó mucho más sabiamente que Google, que controla los autos usando docenas de satélites. Y fue por el otro lado:

Cada automóvil vendido está equipado con una computadora que recopila toda la información.
Todo significa todo. Sobre el conductor, su estilo de conducción, las carreteras a su alrededor, el movimiento de otros coches. El volumen de dichos datos alcanza los 20-30 GB por hora;
Además, esta información se transmite vía satélite a la computadora central, que procesa estos datos;
Sobre la base de los grandes datos que procesa esta computadora, se construye un modelo de un vehículo no tripulado.

Por cierto, si a Google le está yendo bastante mal y sus autos tienen accidentes todo el tiempo, entonces Musk, debido al hecho de que está trabajando con big data, lo está haciendo mucho mejor, porque los modelos de prueba muestran muy buenos resultados.

Pero... Se trata de la economía. ¿Qué somos todos sobre el beneficio, sí sobre el beneficio? Mucho de lo que pueden resolver los grandes datos no tiene ninguna relación con las ganancias y el dinero.

Las estadísticas de Google, basadas únicamente en grandes datos, muestran algo interesante.

Antes de que los médicos anuncien el comienzo de una epidemia de una enfermedad en una región, el número de consultas de búsqueda para el tratamiento de esta enfermedad aumenta significativamente en esta región.

Así, el correcto estudio de los datos y su análisis pueden formar previsiones y predecir la aparición de la epidemia (y, en consecuencia, su prevención) mucho más rápido que la opinión de las autoridades y sus actuaciones.

Aplicación en Rusia

Sin embargo, Rusia, como siempre, frena un poco. Entonces, la definición misma de big data en Rusia apareció hace no más de 5 años (ahora estoy hablando de empresas ordinarias).

Y esto a pesar de que este es uno de los mercados de más rápido crecimiento en el mundo (las drogas y las armas fuman nerviosamente al margen), porque cada año el mercado de software para recopilar y analizar big data crece un 32%.

Para caracterizar el mercado de big data en Rusia, recuerdo un viejo chiste. La gran cita es como el sexo antes de los 18.

Todo el mundo está hablando de ello, hay mucha exageración a su alrededor y poca acción real, y todo el mundo se avergüenza de admitir que ellos mismos no están haciendo esto. De hecho, hay mucha publicidad en torno a esto, pero poca acción real.

Aunque la conocida empresa de investigación Gartner anunció ya en 2015 que el big data ya no es una tendencia en alza (como la inteligencia artificial, por cierto), sino herramientas completamente independientes para analizar y desarrollar tecnologías avanzadas.

Los nichos más activos donde se usa big data en Rusia son los bancos/seguros (no sin razón comencé el artículo con el jefe de Sberbank), las telecomunicaciones, el comercio minorista, los bienes raíces y… el sector público.

Por ejemplo, te contaré con más detalle sobre un par de sectores de la economía que utilizan algoritmos de big data.

Bancos

Comencemos con los bancos y la información que recopilan sobre nosotros y nuestras acciones. Por ejemplo, tomé el TOP-5 de bancos rusos que están invirtiendo activamente en big data:

Sberbank;
Gazprombank;
VTB 24;
Banco Alfa;
Banco Tinkoff.

Es especialmente agradable ver a Alfa Bank entre los líderes rusos. Como mínimo, es bueno saber que el banco, cuyo socio oficial es usted, comprende la necesidad de introducir nuevas herramientas de marketing en su empresa.

Pero quiero mostrar ejemplos del uso y la implementación exitosa de big data en el banco, que me gusta por el aspecto y las acciones no estándar de su fundador.

Estoy hablando del Banco Tinkoff. Su tarea principal era desarrollar un sistema para analizar big data en tiempo real debido a una base de clientes demasiado grande.

Resultados: el tiempo de los procesos internos se redujo al menos 10 veces, y para algunos, más de 100 veces.

Bueno, un poco de distracción. ¿Sabes por qué comencé a hablar sobre las payasadas y acciones no estándar de Oleg Tinkov?

Es solo que, en mi opinión, fueron ellos quienes lo ayudaron a pasar de ser un hombre de negocios de clase media, de los cuales hay miles en Rusia, a uno de los empresarios más famosos y reconocibles. Para probarlo, mira este video inusual e interesante:

Bienes raíces

En el sector inmobiliario, las cosas son mucho más complicadas. Y este es exactamente el ejemplo que quiero darte para que entiendas la gran cita dentro del negocio normal. Datos iniciales:

Gran volumen de documentación de texto;
Fuentes abiertas (satélites privados que transmiten datos sobre el cambio de la tierra);
La gran cantidad de información no controlada en Internet;
Cambios constantes en fuentes y datos.

Y sobre esta base, es necesario preparar y evaluar el costo de un terreno, por ejemplo, debajo del pueblo de los Urales. Tomará una semana para un profesional.

La Sociedad Rusa de Tasadores y ROSEKO, que en realidad implementaron el análisis de big data con la ayuda de un software, no requerirán más de 30 minutos de trabajo pausado. Compare, una semana y 30 minutos. Colosal diferencia.

Pues para merendar

Por supuesto, grandes cantidades de información no se pueden almacenar y procesar en simples discos duros.

Y el software que estructura y analiza datos es generalmente propiedad intelectual y cada vez es desarrollo de un autor. Sin embargo, hay herramientas sobre la base de las cuales se crea todo este encanto:

Hadoop y MapReduce;
bases de datos NoSQL;
Herramientas de la clase Data Discovery.

Para ser honesto, no puedo explicarle claramente en qué se diferencian entre sí, ya que el conocimiento y el trabajo con estas cosas se enseñan en institutos físicos y matemáticos.

¿Por qué entonces comencé a hablar de eso si no puedo explicarlo? ¿Recuerdas que en todas las películas los ladrones entran a cualquier banco y ven una gran cantidad de todo tipo de piezas de hierro conectadas a los cables?

Lo mismo es cierto para los grandes datos. Por ejemplo, aquí tienes un modelo que actualmente es uno de los más punteros del mercado.

Herramienta para citas grandes

El costo en la configuración máxima alcanza los 27 millones de rublos por rack. Esta es, por supuesto, la versión de lujo. Me refiero a que pruebes con anticipación la creación de big data en tu negocio.

Brevemente sobre los principales

Quizás se pregunte por qué ustedes, las pequeñas y medianas empresas, trabajan con big data.

A esto te responderé con una cita de una persona: “En un futuro cercano, los clientes demandarán empresas que comprendan mejor su comportamiento, hábitos y les correspondan tanto como sea posible”.

Pero seamos realistas. Para implementar big data en una pequeña empresa, es necesario contar no solo con grandes presupuestos para el desarrollo e implementación de software, sino también para el mantenimiento de especialistas, al menos como un analista de big data y un administrador de sistemas.

Y ahora guardo silencio sobre el hecho de que debe tener dichos datos para su procesamiento.

está bien. Para las pequeñas empresas, el tema casi no es aplicable. Pero esto no significa que deba olvidar todo lo que ha leído anteriormente.

Simplemente estudie no sus propios datos, sino los resultados del análisis de datos de conocidas empresas extranjeras y rusas.

Por ejemplo, la cadena minorista Target, utilizando análisis de big data, descubrió que las mujeres embarazadas antes del segundo trimestre del embarazo (de la semana 1 a la 12 del embarazo) están comprando activamente productos sin sabor.

Con estos datos les envían cupones de descuento para productos sin perfume con fecha de caducidad limitada.

¿Y si solo eres un café muy pequeño, por ejemplo? Sí, muy sencillo. Usa una aplicación de fidelización.

Y después de un tiempo y gracias a la información acumulada, podrá no solo ofrecer a los clientes platos relevantes para sus necesidades, sino también ver los platos más marginales y sin vender con solo un par de clics del mouse.

De ahí la conclusión. No vale la pena implementar big data para pequeñas empresas, pero es imprescindible utilizar los resultados y desarrollos de otras empresas.

Cada revolución industrial ha tenido sus símbolos: hierro y vapor, acero y producción en masa, polímeros y electrónica, y la próxima revolución estará marcada por los materiales compuestos y los datos. Big Data: ¿una pista falsa o el futuro de la industria?

20/12/2011 Leonid Chernyak

Los símbolos de la primera revolución industrial fueron el hierro fundido y el vapor, la segunda, el acero y la producción en línea, la tercera, los materiales poliméricos, el aluminio y la electrónica, y la próxima revolución estará bajo el signo de los materiales compuestos y los datos. ¿Es el Big Data una pista falsa o el futuro de la industria?

Durante más de tres años, mucho se ha dicho y escrito sobre grandes datos(Big Data) en combinación con la palabra "problema", reforzando la mística de este tema. Durante este tiempo, el “problema” se ha convertido en el foco de atención de la gran mayoría de los grandes fabricantes, contando con encontrarle una solución, se están creando muchas startups, y todos los principales analistas de la industria pregonan lo importante que es la capacidad de trabajo. con grandes cantidades de datos es ahora para asegurar la competitividad. Tal carácter masivo, no demasiado bien razonado, provoca disidencia, y puede encontrar muchas declaraciones escépticas sobre el mismo tema, y a veces incluso se aplica el epíteto de pista falsa a Big Data (literalmente, "arenque ahumado" es un rastro falso , una maniobra de distracción).

Entonces, ¿qué es Big Data? Lo más fácil es imaginar el Big Data como una avalancha de datos que ha colapsado espontáneamente de la nada, o reducir el problema a las nuevas tecnologías que cambian radicalmente el entorno de la información, o quizás, junto con el Big Data, estemos viviendo otra etapa en el desarrollo tecnológico. ¿revolución? Lo más probable, tanto eso como otro, y el tercero, y aún desconocido. Es significativo que de más de cuatro millones de páginas en la web que contienen la frase Big Data, un millón también contiene la palabra definición: al menos una cuarta parte de los que escriben sobre Big Data están tratando de dar su propia definición. Tal interés masivo atestigua a favor del hecho de que, muy probablemente, hay algo cualitativamente diferente en Big Data de lo que la conciencia ordinaria está impulsando.

antecedentes

El hecho de que la gran mayoría de las referencias a Big Data esté relacionada de alguna manera con los negocios puede ser engañoso. De hecho, el término de ninguna manera nació en un entorno corporativo, sino que fue tomado prestado por analistas de publicaciones científicas. Big Data es uno de los pocos títulos que tiene una fecha de nacimiento completamente confiable: el 3 de septiembre de 2008, cuando se publicó un número especial de la revista científica británica más antigua, Nature, dedicado a encontrar una respuesta a la pregunta "¿Cómo pueden las tecnologías que abren la posibilidad de trabajar con grandes volúmenes afectará el futuro de la ciencia?¿datos? El número especial resume debates previos sobre el papel de los datos en la ciencia en general y en la e-ciencia en particular.

El papel de los datos en la ciencia ha sido objeto de debate durante mucho tiempo: el astrónomo inglés Thomas Simpson fue el primero en escribir sobre el procesamiento de datos en el siglo XVIII en su obra "Sobre las ventajas del uso de números en las observaciones astronómicas". , pero recién a finales del siglo pasado se empezó a notar el interés por este tema, y el procesamiento de datos saltó a la palestra a finales del siglo pasado, cuando se descubrió que los métodos informáticos se pueden aplicar en casi todas las ciencias, desde la arqueología hasta la física nuclear. Como consecuencia, los propios métodos científicos están cambiando notablemente. No es casualidad que apareciera el neologismo bibliotecario, formado a partir de las palabras biblioteca (biblioteca) y laboratorio (laboratorio), lo que refleja cambios respecto a la idea de lo que puede considerarse el resultado de la investigación. Hasta ahora, solo los resultados finales obtenidos, y no los datos experimentales en bruto, se han sometido al juicio de los colegas, pero ahora, cuando una variedad de datos se puede convertir en un "dígito", cuando varios medios digitales están disponibles, el objeto de publicación pueden ser varios tipos de datos medidos, y de particular importancia es la posibilidad de reprocesar datos previamente acumulados en la biblioteca. Y luego hay una retroalimentación positiva, debido a que el proceso de acumulación de datos científicos se acelera constantemente. Es por eso que, al darse cuenta de la escala de los cambios que se avecinan, el editor de la edición de Nature, Clifford Lynch, propuso un nombre especial para el nuevo paradigma Big Data, elegido por él por analogía con metáforas como Big Reft, Big Ore, etc., reflejando no tanto la cantidad de algo, cuanto la transición de la cantidad a la calidad.

Big Data y negocios

Menos de un año después, el término Big Data apareció en las páginas de las principales publicaciones empresariales, en las que, sin embargo, se utilizaron metáforas completamente diferentes. Big Data se compara con los recursos minerales: el nuevo petróleo (petróleo nuevo), la fiebre del oro (fiebre del oro), la minería de datos (desarrollo de datos), que enfatiza el papel de los datos como fuente de información oculta; con desastres naturales: tornado de datos (huracán de datos), diluvio de datos (inundación de datos), maremoto de datos (inundación de datos), viéndolos como una amenaza; capturar la conexión con la producción industrial: escape de datos (liberación de datos), manguera contra incendios (manguera de datos), Revolución Industrial (revolución industrial). Tanto en los negocios como en la ciencia, los macrodatos tampoco son algo completamente nuevo: se ha hablado durante mucho tiempo de la necesidad de trabajar con macrodatos, por ejemplo, en relación con la difusión de la identificación por radiofrecuencia (RFID) y las redes sociales, y simplemente como y en la ciencia, sólo faltaba una metáfora vívida para definir lo que estaba sucediendo. Es por eso que en 2010 aparecieron los primeros productos, que afirmaban pertenecer a la categoría de Big Data: se encontró un nombre adecuado para cosas ya existentes. Es significativo que en la versión 2011 Hype Cycle, que caracteriza el estado y las perspectivas de las nuevas tecnologías, los analistas de Gartner introdujeron una posición más Big Data y Extreme Information Processing and Management con una estimación del período de implementación masiva de las soluciones correspondientes de dos a cinco años.

¿Por qué el Big Data es un problema?

Han pasado tres años desde la aparición del término Big Data, pero si todo está más o menos claro en la ciencia, entonces el lugar del Big Data en los negocios sigue siendo incierto, no es casualidad que a menudo se hable del “problema del Big Data”. ”, y no solo sobre el problema, sino sobre todo lo demás también está mal definido. Muchas veces el problema se simplifica, se interpreta como la ley de Moore, con la única diferencia de que en este caso estamos ante el fenómeno de duplicar la cantidad de datos por año, o se exagera, presentándose casi como un desastre natural que necesita ser atendido con urgencia. de alguna manera. De hecho, hay más y más datos, pero todo esto pasa por alto el hecho de que el problema no es de ninguna manera externo, no es causado tanto por una increíble cantidad de datos que se han derrumbado, sino por la incapacidad de los métodos antiguos para hacer frente a nuevos volúmenes, y, lo más importante, por nosotros creados por ellos mismos. Hay un extraño desequilibrio: la capacidad de generar datos resultó ser más fuerte que la capacidad de procesarlos. La razón de este sesgo es probablemente que en los 65 años de historia de las computadoras, no hemos entendido qué son los datos y cómo se relacionan con los resultados del procesamiento. Curiosamente, durante siglos los matemáticos se ocupan de los conceptos básicos de su ciencia, como el número y los sistemas numéricos, involucrando en ello a los filósofos, y en nuestro caso, los datos y la información, nada baladíes, quedan desatendidos y a merced de percepción intuitiva. Entonces resultó que durante todos estos 65 años, las propias tecnologías de procesamiento de datos se han desarrollado a un ritmo increíble, y la cibernética y la teoría de la información apenas se han desarrollado, manteniéndose al nivel de los años 50, cuando las computadoras de tubo se usaban exclusivamente para cálculos. De hecho, el alboroto en torno a Big Data que se está observando actualmente, con una atención cuidadosa, provoca una sonrisa escéptica.

Escalado y jerarquización

Nubes, big data, análisis: estos tres factores de la TI moderna no solo están interconectados, sino que hoy en día no pueden existir el uno sin el otro. Trabajar con Big Data es imposible sin el almacenamiento en la nube y la computación en la nube: la aparición de las tecnologías en la nube, no solo en forma de idea, sino ya en forma de proyectos terminados e implementados, se ha convertido en el detonante para lanzar una nueva espiral de creciente interés en el análisis de Big Data. Si hablamos del impacto en la industria en su conjunto, hoy en día se han hecho evidentes los mayores requisitos para escalar los sistemas de almacenamiento. De hecho, esta es una condición necesaria, porque es difícil predecir de antemano qué procesos analíticos requerirán ciertos datos y con qué intensidad se cargará el almacenamiento existente. Además, los requisitos para la escala vertical y horizontal se vuelven igualmente importantes.

En la nueva generación de sus sistemas de almacenamiento, Fujitsu ha prestado gran atención a los aspectos de escalado y almacenamiento en niveles. La práctica muestra que hoy en día, para realizar tareas analíticas, los sistemas deben estar muy cargados, pero el negocio requiere que todos los servicios, aplicaciones y los datos mismos permanezcan siempre disponibles. Además, los requisitos para los resultados de la investigación analítica son muy altos hoy en día: los procesos analíticos realizados de manera competente, correcta y oportuna pueden mejorar significativamente los resultados del negocio en su conjunto.

– Alejandro Yakovlev ([correo electrónico protegido]), Product Marketing Manager en Fujitsu (Moscú).

Al ignorar el papel de los datos y la información como sujetos de investigación, se puso la misma mina que explotó ahora, en un momento en que las necesidades han cambiado, cuando la carga computacional en las computadoras resultó ser mucho menor que otro tipo de trabajo realizado sobre los datos. , y el propósito de estas acciones es obtener nueva información y nuevos conocimientos a partir de conjuntos de datos existentes. Por eso no tiene sentido hablar de solucionar el problema del Big Data fuera del restablecimiento de los eslabones de la cadena “datos - información - conocimiento”. Los datos se procesan para obtener información, que debería ser suficiente para que una persona la convierta en conocimiento.

Durante las últimas décadas, no ha habido un trabajo serio sobre la relación de los datos brutos con la información útil, y lo que habitualmente llamamos la teoría de la información de Claude Shannon no es más que una teoría estadística de la señalización, y no tiene nada que ver con la información percibida. por una persona Hay muchas publicaciones individuales que reflejan puntos de vista privados, pero no existe una teoría de la información moderna completa. Como resultado, la gran mayoría de los especialistas no distinguen en absoluto entre datos e información. Todos a su alrededor solo afirman que hay muchos o muchos datos, pero nadie tiene una idea madura de qué es exactamente mucho, de qué manera se debe resolver el problema, y todo porque las capacidades técnicas de trabajar con los datos han superado claramente el nivel de desarrollo de la capacidad para utilizarlos. Solo un autor, Dion Hinchcliffe, editor de Web 2.0 Journal, tiene una clasificación de Big Data que alinea la tecnología con el resultado esperado del procesamiento de Big Data, pero incluso eso está lejos de ser satisfactorio.

Hinchcliff divide los enfoques de Big Data en tres grupos: Fast Data (Fast Data), su volumen se mide en terabytes; Big Analytics: datos de petabytes y Deep Insight: exabytes, zettabytes. Los grupos se diferencian entre sí no solo en la cantidad de datos que manejan, sino también en la calidad de la decisión de procesarlos.

El procesamiento para Fast Data no implica la adquisición de nuevos conocimientos, sus resultados se correlacionan con conocimientos a priori y permiten juzgar cómo proceden determinados procesos, permite ver mejor y con más detalle lo que ocurre, confirmar o rechazar algunos hipótesis Solo una pequeña parte de las tecnologías existentes actualmente es adecuada para resolver tareas de Fast Data, esta lista incluye algunas tecnologías de almacenamiento (Greenplum, Netezza, Oracle Exadata, Teradata, DBMS como Verica y kdb). La velocidad de estas tecnologías debería aumentar en sincronía con el crecimiento de los volúmenes de datos.

Las tareas resueltas por las herramientas de Big Analytics son notablemente diferentes, no solo cuantitativamente, sino también cualitativamente, y las tecnologías correspondientes deberían ayudar a obtener nuevos conocimientos: sirven para transformar la información registrada en los datos en nuevos conocimientos. Sin embargo, este nivel medio no asume la presencia de inteligencia artificial al elegir decisiones o acciones autónomas del sistema analítico; se basa en el principio de "entrenamiento con un maestro". En otras palabras, todo su potencial analítico se deposita en él en el proceso de aprendizaje. El ejemplo más obvio es un automóvil que juega Jeopardy!. Los representantes clásicos de este tipo de análisis son los productos MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache y Mahout.

El nivel más alto, Deep Insight, implica el aprendizaje no supervisado y el uso de métodos analíticos modernos, así como varios métodos de visualización. En este nivel es posible descubrir conocimientos y patrones a priori desconocidos.

Análisis de grandes datos

Con el tiempo, las aplicaciones informáticas se están acercando al mundo real en toda su diversidad, de ahí el crecimiento del volumen de datos de entrada y de ahí la necesidad de su análisis, y en un modo lo más cercano posible al tiempo real. La convergencia de estas dos tendencias ha llevado al surgimiento de la dirección análisis de grandes datos(Análisis de Big Data).

La victoria de la computadora Watson fue una demostración brillante de las capacidades de Big Data Analytics: estamos entrando en una era interesante en la que la computadora se usa por primera vez no tanto como una herramienta para acelerar los cálculos, sino como un asistente que amplía las capacidades humanas en selección de información y toma de decisiones. Los planes aparentemente utópicos de Vannevar Bush, Joseph Licklider y Doug Engelbart están comenzando a hacerse realidad, pero esto no está sucediendo de la forma en que se vio hace décadas: el poder de una computadora no es superior a una persona en términos de capacidades lógicas. , que los científicos esperaban especialmente, pero con una capacidad significativamente mayor para manejar grandes cantidades de datos. Algo similar ocurrió en la confrontación de Garry Kasparov con Deep Blue, la computadora no era un jugador más hábil, pero podía clasificar más opciones más rápido.

Los volúmenes gigantescos combinados con la alta velocidad que distinguen Big Data Analytics de otras aplicaciones requieren computadoras apropiadas, y hoy en día casi todos los principales fabricantes ofrecen sistemas de hardware y software especializados: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine y Oracle Exalytics Business Intelligence Machine. , dispositivo de rendimiento extremo de Teradata, tecnología de almacenamiento E-Series de NetApp, dispositivo de datos IBM Netezza, EMC Greenplum, plataforma de análisis Vertica con tecnología de infraestructura convergente de HP. Además, muchas empresas pequeñas y de nueva creación han entrado en el juego: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Realimentación

Las aplicaciones cualitativamente nuevas de Big Data Analytics requieren para sí mismas no solo nuevas tecnologías, sino también un nivel cualitativamente diferente de pensamiento sistémico, pero esto presenta dificultades: los desarrolladores de soluciones de Big Data Analytics a menudo redescubren las verdades conocidas desde los años 50. Como resultado, el análisis a menudo se considera aislado de los medios para preparar datos iniciales, visualización y otras tecnologías para proporcionar resultados a una persona. Incluso una organización tan respetada como The Data Warehousing Institute trata el análisis de forma aislada de todo lo demás: según él, el 38 % de las empresas ya está explorando la posibilidad de utilizar el análisis avanzado en su práctica de gestión, y otro 50 % tiene la intención de hacerlo dentro del próximos tres años. Este interés se justifica trayendo muchos argumentos de las empresas, aunque se puede decir de manera más simple: las empresas en las nuevas condiciones necesitan un sistema de gestión más avanzado, y es necesario comenzar a crearlo con el establecimiento de una retroalimentación, es decir, desde un sistema que ayuda en la toma de decisiones, y en el futuro, quizás sea posible automatizar la toma de decisiones real. Sorprendentemente, todo lo anterior encaja en la metodología de creación de sistemas automatizados de control de objetos tecnológicos, conocida desde los años 60.

Se requieren nuevas herramientas de análisis porque no solo hay más datos que antes, sino más de sus fuentes externas e internas, ahora son más complejos y diversos (estructurados, no estructurados y cuasiestructurados), se utilizan diversos esquemas de indexación (relacional, multidimensional, noSQL). Ya no es posible manejar los datos a la antigua: Big Data Analytics se extiende a arreglos grandes y complejos, por lo que todavía usan los términos Discovery Analytics (análisis de apertura) y Exploratory Analytics (análisis de explicación). No importa cómo lo llame, la esencia es la misma: retroalimentación, que proporciona a los tomadores de decisiones información aceptable sobre varios tipos de procesos.

Componentes

Para recolectar datos en bruto, se utilizan tecnologías de hardware y software apropiadas, las cuales dependen de la naturaleza del objeto de control (RFID, información de redes sociales, documentos de texto varios, etc.). Estos datos se alimentan a la entrada del motor analítico (el regulador en el circuito de retroalimentación, si continuamos con la analogía con la cibernética). Este controlador se basa en una plataforma de hardware y software sobre la que se ejecuta el propio software analítico, no proporciona la generación de acciones de control suficientes para el control automático, por lo que se incluyen en el circuito científicos de datos o ingenieros de datos. Su función puede compararse con el papel que desempeñan, por ejemplo, los especialistas en el campo de la ingeniería eléctrica, que utilizan el conocimiento de la física en aplicación a la creación de máquinas eléctricas. La tarea de los ingenieros es administrar el proceso de convertir datos en información utilizada para tomar decisiones: cierran el ciclo de retroalimentación. De los cuatro componentes de Big Data Analytics, en este caso, solo nos interesa uno: la plataforma de software y hardware (los sistemas de este tipo se denominan Analytic Appliance o Data Warehouse Appliance).

Durante varios años, Teradata fue el único fabricante de máquinas analíticas especializadas, pero no fue el primero: a finales de los años 70, el entonces líder de la industria informática británica, ICL, hizo un intento no muy exitoso de crear un contenido -Almacenamiento direccionable (Content-Addressable Data Store), que se basó en IDMS DBMS. Pero Britton-Lee fue el primero en crear un "motor de base de datos" en 1983 basado en una configuración multiprocesador de la familia de procesadores Zilog Z80. Posteriormente, Britton-Lee fue comprada por Teradata, que produce computadoras con arquitectura MPP para sistemas de soporte de decisiones y almacenes de datos desde 1984. Y Netezza fue el primero de una nueva generación de proveedores de dichos sistemas: su solución Netezza Performance Server utilizaba servidores blade estándar junto con blades de unidades de procesamiento de fragmentos especializados.

Analítica en DBMS

Los análisis son lo primero profético, o profético(Análisis Predictivo, RA). En la mayoría de las implementaciones existentes, los datos iniciales de los sistemas RA son datos acumulados previamente en almacenes de datos. Para el análisis, los datos se transfieren primero a data marts intermedios (Independent Data Mart, IDM), donde la presentación de los datos no depende de las aplicaciones que los utilizan, y luego los mismos datos se transfieren a data marts analíticos especializados (Analytical Data Mart). , ADM), y los especialistas ya están trabajando con ellos, utilizando diversas herramientas de desarrollo, o minería de datos (Data Mining). Dicho modelo de múltiples etapas es bastante aceptable para cantidades de datos relativamente pequeñas, pero a medida que aumentan y aumentan los requisitos de eficiencia, dichos modelos revelan una serie de deficiencias. Además de la necesidad de mover datos, la existencia de muchos ADM independientes genera una complicación de la infraestructura física y lógica, crece la cantidad de herramientas de modelado utilizadas, los resultados obtenidos por diferentes analistas resultan inconsistentes y la potencia de cálculo y los canales no se utilizan de manera óptima. Además, la existencia separada de almacenamientos y ADM hace que sea casi imposible realizar análisis casi en tiempo real.

La salida puede ser un enfoque llamado In-Database Analytics o No-Copy Analytics, que implica el uso de datos directamente en la base de datos con fines analíticos. Estos DBMS a veces se denominan analíticos y paralelos. El enfoque se ha vuelto especialmente atractivo con la llegada de las tecnologías MapReduce y Hadoop. En las aplicaciones de nueva generación de la clase In-Database Analytics, toda la ingeniería de datos y otros trabajos intensivos se realizan directamente en los datos del almacén. Obviamente, esto acelera significativamente los procesos y le permite realizar aplicaciones en tiempo real, como reconocimiento de patrones, agrupación, análisis de regresión y varios tipos de pronósticos. La aceleración se logra no solo eliminando los movimientos del almacenamiento a los escaparates, sino principalmente mediante el uso de varios métodos de paralelización, incluidos los sistemas de clúster con escalado ilimitado. Soluciones como In-Database Analytics abren la posibilidad de utilizar tecnologías en la nube en una aplicación de análisis. El siguiente paso podría ser la tecnología SAP HANA (Dispositivo analítico de alto rendimiento), cuya esencia es colocar datos para su análisis en RAM.

Principales proveedores...

Para 2010, los principales proveedores de software para In-Database Analytics eran Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL) , Oracle (Oracle Database 11g/10g, Oracle Exadata), SenSage (SenSage/columnar), Sybase (Sybase IQ), Teradata y Vertica Systems (Vertica Analytic Database). Todas estas son empresas conocidas, con la excepción de la startup SenSage de Silicon Valley. Los productos difieren notablemente en el tipo de datos con los que pueden trabajar, en funcionalidad, interfaces, en el software de análisis utilizado y en su capacidad para trabajar en las nubes. El líder en términos de madurez de la solución es Teradata, y en términos de vanguardia, Aster Data. La lista de proveedores de software analítico es más corta: los productos de las empresas KXEN, SAS, SPSS y TIBCO pueden funcionar en configuraciones locales, y Amazon, Cascading, Google, Yahoo! y Cloudera.

2010 fue un año fundamental para el análisis predictivo, comparable a 2007, cuando IBM adquirió Cognos, SAP adquirió Business Object y Oracle adquirió Hyperion. Todo comenzó con EMC adquiriendo Greenplum, luego IBM adquiriendo Netezza, HP adquiriendo Vertica, Teradata adquiriendo Aster Data y SAP adquiriendo Sybase.

…y nuevas oportunidades

El paradigma analítico abre posibilidades fundamentalmente nuevas, lo que fue demostrado con éxito por dos ingenieros de Colonia que crearon la empresa ParStream (el nombre oficial de empulse GmbH). Juntos lograron crear una plataforma analítica basada en procesadores, tanto de propósito general como gráficos, competitiva con sus predecesores. Hace cuatro años, Michael Hümmepl y Jörg Bienert, antes de Accenture, recibieron el encargo de una empresa de viajes alemana que necesitaba un sistema para generar recorridos que pudiera seleccionar un registro que contenía 20 parámetros en 100 milisegundos de una base de datos de 6 mil millones de registros. Ninguna de las soluciones existentes puede hacer frente a tal tarea, aunque se encuentran problemas similares en todas partes donde se requiere un análisis rápido del contenido de bases de datos muy grandes. ParStream nació de la premisa de aplicar tecnologías HPC a Big Data Analytics. Hümmepl y Bienert comenzaron escribiendo su propio motor de base de datos diseñado para ejecutarse en un clúster x86 que admite operaciones de datos en forma de flujos paralelos, de ahí el nombre ParStream. Eligieron trabajar solo con datos estructurados como su configuración inicial, lo que en realidad abre la posibilidad de una paralelización relativamente simple. Por diseño, esta base de datos se acerca más al nuevo proyecto de Google Dremel que a MapReduce o Hadoop, que no están adaptados a consultas en tiempo real. Comenzando con la plataforma x86/Linux, Hümmepl y Bienert pronto se convencieron de que su base de datos también podría admitir las GPU nVidia Fermi.

Big Data y Procesamiento de Datos

Para entender qué esperar de lo que se llama Big Data, uno debe ir más allá de los límites de la cosmovisión moderna y estrecha de "TI" y tratar de ver lo que está sucediendo en una retrospectiva histórica y tecnológica más amplia, por ejemplo, tratar de encontrar analogías con las tecnologías. que tienen una historia más larga. Después de todo, habiendo llamado tecnología al objeto de nuestra actividad, también debemos tratarlo como tecnología. Prácticamente todas las tecnologías de materiales conocidas se reducen al procesamiento, procesamiento o ensamblaje de materias primas específicas para ellos o algunos otros componentes para obtener productos cualitativamente nuevos: hay algo en la entrada del proceso tecnológico y algo en la salida.

La peculiaridad de las tecnologías de la información intangibles es que la cadena tecnológica aquí no es tan obvia, no está claro cuál es la materia prima, cuál es el resultado, cuál es la entrada y cuál es la salida. La forma más fácil de decir que la entrada son datos sin procesar y la salida es información útil. En general, casi cierto, pero la relación entre estas dos entidades es sumamente compleja; si nos mantenemos en el nivel de una sana pragmática, podemos limitarnos a las siguientes consideraciones. Los datos son hechos en bruto expresados en varias formas, que en sí mismos no tienen un significado útil hasta que se colocan en contexto, se organizan y ordenan adecuadamente en el proceso de procesamiento. La información surge como resultado del análisis de los datos procesados por una persona, este análisis da sentido a los datos y les dota de cualidades de consumo. Los datos son hechos no organizados que deben convertirse en información. Hasta hace poco, las ideas sobre procesamiento de datos(procesamiento de datos) se redujeron a un círculo orgánico de operaciones algorítmicas, lógicas o estadísticas sobre cantidades relativamente pequeñas de datos. Sin embargo, a medida que las tecnologías informáticas convergen con el mundo real, aumenta la necesidad de transformar los datos del mundo real en información sobre el mundo real, aumenta la cantidad de datos que se procesan y aumentan los requisitos de velocidad de procesamiento.

Lógicamente, las tecnologías de la información no son muy diferentes de las tecnologías materiales, la entrada son datos en bruto, la salida está estructurada, en una forma más conveniente para la percepción humana, extrayendo información de ellos y el poder de la inteligencia para convertir la información en conocimiento útil. Las computadoras se llamaban computadoras por su capacidad de contar, recuerde la primera aplicación de ENIAC: procesar datos de disparos de armas y convertirlos en tablas de artillería. Es decir, la computadora procesó datos sin procesar, extrajo datos útiles y los anotó en una forma aceptable para su uso. Ante nosotros no hay más que un proceso tecnológico convencional. En términos generales, en lugar del término acostumbrado Tecnología de la información, se debería usar con mayor frecuencia el procesamiento de datos más preciso.

Las tecnologías de la información deben estar sujetas a patrones generales de acuerdo con los cuales se desarrollan todas las demás tecnologías, y esto es, en primer lugar, un aumento en la cantidad de materias primas procesadas y un aumento en la calidad del procesamiento. Esto sucede en todas partes, independientemente de qué sirva exactamente como materia prima y cuál sea el resultado, ya sea metalurgia, petroquímica, biotecnología, tecnologías de semiconductores, etc. También es común que ninguna de las áreas tecnológicas se desarrolle de manera monótona, temprana o tardía allí. son momentos de desarrollo acelerado, saltos. Las transiciones rápidas pueden ocurrir cuando surge una necesidad externa y existe la capacidad de satisfacerla dentro de la tecnología. Las computadoras no se podían construir con tubos de vacío, y aparecieron los semiconductores, los automóviles necesitan mucha gasolina, descubrieron el proceso de craqueo y hay muchos ejemplos de este tipo. Así, bajo el nombre de Big Data se esconde la transición cualitativa emergente en la tecnología informática, que puede conducir a cambios serios, no es casualidad que se le denomine nueva revolución industrial. El Big Data es otra revolución tecnológica con todas las consecuencias que ello conlleva.

La primera experiencia en Informática se remonta al IV milenio antes de Cristo, cuando aparece la escritura pictográfica. Desde entonces, se han desarrollado varias áreas principales de trabajo con datos, la más poderosa fue y sigue siendo textual, desde las primeras tabletas de arcilla hasta SSD, desde bibliotecas de mediados del primer milenio antes de Cristo hasta bibliotecas modernas, luego varios tipos de métodos numéricos matemáticos. Apareció a partir de papiros con la prueba del teorema de Pitágoras y técnicas tabulares para simplificar los cálculos a las computadoras modernas. A medida que la sociedad se desarrolló, comenzaron a acumularse varios tipos de datos tabulares, cuya automatización del trabajo comenzó con los tabuladores, y en los siglos XIX y XX se propusieron muchos métodos nuevos para crear y acumular datos. Durante mucho tiempo se entendió la necesidad de trabajar con grandes cantidades de datos, pero no había fondos, de ahí los proyectos utópicos como el Librarium de Paul Otlet, o un fantástico sistema de pronóstico del tiempo utilizando el trabajo de 60 mil personas-calculadoras.

Hoy en día, la computadora se ha convertido en una herramienta universal para trabajar con datos, aunque fue concebida únicamente para automatizar cálculos. La idea de usar una computadora para el procesamiento de datos se originó en IBM diez años después de la invención de las computadoras digitales programables, y antes de eso, los dispositivos de perforación como Unit Record, inventado por Herman Hollerith, se usaban para el procesamiento de datos. Se llamaban Registro de unidad, es decir, un solo registro: cada tarjeta contenía el registro completo relacionado con cualquier objeto. Las primeras computadoras no sabían cómo trabajar con Big Data, solo con la llegada de las unidades de disco y cinta, pudieron competir con las estaciones de conteo de máquinas que existieron hasta finales de los años 60. Por cierto, en las bases de datos relacionales, la herencia de Unit Record está claramente rastreada.

La sencillez es la clave del éxito

El crecimiento del volumen de datos en bruto, junto con la necesidad de analizarlos en tiempo real, requiere la creación e implementación de herramientas que puedan resolver de manera efectiva el problema del llamado Big Data Analytics. Las tecnologías de Information Builders le permiten trabajar con datos de cualquier fuente en tiempo real, gracias a muchos adaptadores diferentes y la arquitectura de Enterprise Service Bus. La herramienta WebFOCUS le permite analizar datos sobre la marcha y le brinda la posibilidad de visualizar los resultados de la mejor manera para el usuario.

Basado en la tecnología RSTAT, Information Builders ha creado un producto de análisis predictivo que permite la previsión de escenarios: "Qué sucederá si" y "Para qué se necesita".

Las tecnologías de inteligencia comercial también han llegado a Rusia, pero solo unas pocas empresas rusas utilizan el análisis predictivo, lo que se debe a la baja cultura del uso de inteligencia comercial en las empresas nacionales y la dificultad de comprender los métodos de análisis existentes por parte de un usuario comercial. Con esto en mente, Information Builders ahora ofrece productos que los analistas de Gartner califican como los más fáciles de usar.

– mijail stroev([correo electrónico protegido]), Director de Desarrollo de Negocios en Rusia y el CIS InfoBuild CIS (Moscú).

Los datos están en todas partes

A medida que las computadoras evolucionaron gradualmente de dispositivos informáticos a máquinas de procesamiento de datos de propósito general, aproximadamente después de 1970, comenzaron a aparecer nuevos términos: datos como productos (producto de datos); herramientas para trabajar con datos (herramienta de datos); aplicaciones implementadas a través de la organización pertinente (aplicación de datos); ciencia de datos (ciencia de datos); científicos de datos (científico de datos), e incluso periodistas que transmiten la información contenida en los datos al público en general (periodista de datos).

Hoy en día, se han generalizado las aplicaciones de la clase de aplicación de datos, que no solo realizan operaciones en los datos, sino que extraen valores adicionales de ellos y crean productos en forma de datos. Entre las primeras aplicaciones de este tipo se encuentra la base de datos de CD de audio CDDB, que, a diferencia de las bases de datos tradicionales, se creó extrayendo datos de discos y combinándolos con metadatos (títulos de discos, nombres de pistas, etc.). Esta base subyace al servicio iTunes de Apple. Uno de los factores del éxito comercial de Google fue también la conciencia del papel de la aplicación de datos: la propiedad de los datos permite a esta empresa "saber" mucho utilizando datos que se encuentran fuera de la página que se busca (algoritmo PageRank). En Google, el problema de la corrección ortográfica se resuelve de manera bastante simple: para esto, se crea una base de datos de errores y correcciones, y se ofrecen correcciones al usuario, que puede aceptar o rechazar. También se utiliza un enfoque similar para el reconocimiento durante la entrada de voz: se basa en datos de audio acumulados.

En 2009, durante el brote de gripe porcina, el análisis de las consultas a los motores de búsqueda permitió rastrear la propagación de la epidemia. Muchas empresas (Facebook, LinkedIn, Amazon, etc.) han tomado el camino de Google, no solo brindando servicios, sino también utilizando los datos acumulados para otros fines. La capacidad de procesar este tipo de datos impulsó el surgimiento de otra ciencia de la población: la ciencia ciudadana. Los resultados obtenidos a través de un análisis exhaustivo de los datos de población le permiten obtener un conocimiento mucho más profundo sobre las personas y tomar decisiones administrativas y comerciales más informadas. La recopilación de datos y herramientas para trabajar con ellos ahora se llama infoware.

Gran máquina de datos

Los almacenes de datos, las tiendas online, los sistemas de facturación o cualquier otra plataforma que pueda atribuirse a los proyectos de Big Data suelen tener especificidades únicas, y al diseñarlo, lo principal es la integración con los datos industriales, proporcionando procesos de acumulación de datos, su organización y análisis.

Oracle proporcionó un Oracle Big Data Appliance integrado para respaldar la cadena de procesamiento de Big Data, que consta de hardware optimizado con una pila de software completa y 18 servidores Sun X4270 M2. La interconexión se basa en Infiniband 40 Gb/s y 10 Gigabit Ethernet. Oracle Big Data Appliance incluye una combinación de software de código abierto y propietario de Oracle.

Los key-value stores o DBMS NoSQL son reconocidos hoy en día como los principales para el mundo del Big Data y están optimizados para una rápida acumulación de datos y acceso a ellos. Como tal DBMS para Oracle Big Data Appliance, se utiliza un DBMS basado en Oracle Berkley DB, que almacena información sobre la topología del sistema de almacenamiento, distribuye datos y comprende dónde se pueden colocar los datos en la menor cantidad de tiempo.

Oracle Loader for Hadoop le permite utilizar la tecnología MapReduce para crear conjuntos de datos optimizados para la carga y el análisis en Oracle 11g. Los datos se generan en el formato "nativo" de Oracle DBMS, lo que minimiza el uso de recursos del sistema. El procesamiento de los datos formateados se realiza en el clúster y luego se puede acceder a los datos desde las estaciones de trabajo de los usuarios tradicionales de RDBMS mediante comandos SQL estándar o herramientas de inteligencia empresarial. La integración de los datos de Hadoop y Oracle DBMS se realiza mediante la solución Oracle Data Integrator.

Oracle Big Data Appliance viene con una distribución abierta de Apache Hadoop que incluye HDFS y otros componentes, una distribución abierta del paquete estadístico R para análisis de datos sin procesar y Oracle Enterprise Linux 5.6. Las empresas que ya utilizan Hadoop pueden integrar los datos alojados en HDFS en Oracle DBMS mediante la función de tabla externa, y no es necesario cargar inmediatamente los datos en el DBMS: los datos externos se pueden utilizar junto con los datos internos de la base de datos de Oracle mediante comandos SQL.

La conectividad entre Oracle Big Data Appliance y Oracle Exadata a través de Infiniband proporciona una transferencia de datos de alta velocidad para procesamiento por lotes o consultas SQL. Oracle Exadata ofrece el rendimiento que necesita tanto para el almacenamiento de datos como para las aplicaciones de procesamiento de transacciones en línea.

El nuevo producto Oracle Exalytics se puede utilizar para resolver problemas de inteligencia comercial y está optimizado para usar Oracle Business Intelligence Enterprise Edition con procesamiento en memoria.

– vladimir demkin ([correo electrónico protegido]), consultor líder de Oracle Exadata en Oracle CIS (Moscú).

ciencia y especialistas

Autor del informe “¿Qué es la ciencia de datos?” (¿Qué es la ciencia de datos?), publicado en la serie O'Reilly Radar Report, Mike Loukidis escribió: "El futuro pertenece a las empresas y personas que pueden convertir los datos en productos". Esta declaración recuerda involuntariamente las famosas palabras de Rothschild "Quien posee la información, él posee el mundo", pronunciadas por él cuando se enteró de la derrota de Napoleón en Waterloo antes que otros y realizó una estafa con valores. Hoy, este aforismo debería reformularse: "El mundo es propiedad de quien posee los datos y las tecnologías para su análisis". Karl Marx, que vivió un poco más tarde, demostró que la revolución industrial dividió a las personas en dos grupos: los que poseen los medios de producción y los que trabajan para ellos. En términos generales, algo similar está sucediendo ahora, pero ahora el tema de la propiedad y la división de funciones no son los medios de producción de valores materiales, sino los medios de producción de datos e información. Y aquí es donde surgen los problemas: resulta que poseer datos es mucho más difícil que poseer activos tangibles, los primeros se replican con bastante facilidad y la probabilidad de robo es mucho mayor que el robo de objetos materiales. Además, existen métodos legales de inteligencia: con un volumen suficiente y métodos analíticos apropiados, puede "calcular" lo que está oculto. Es por eso que ahora hay tanto enfoque en Big Data Analytics (ver barra lateral) y cómo protegerse contra él.

Diversos tipos de actividades con datos, y sobre todo el conocimiento de métodos para la extracción de información, se denominan data science (ciencia de datos), que, en cualquier caso, traducido al ruso, resulta un tanto desorientador, ya que más bien se refiere no a algún nuevo académico. ciencia, sino a un conjunto interdisciplinario de conocimientos y habilidades necesarios para extraer conocimientos. La composición de dicho conjunto depende en gran medida del área, pero se pueden distinguir requisitos de calificación más o menos generalizados para especialistas, que se denominan científicos de datos. Esto lo hizo mejor Drew Conway, quien en el pasado estuvo involucrado en el análisis de datos sobre amenazas terroristas en una de las agencias de inteligencia de EE. UU. Las principales tesis de su disertación están publicadas en la revista trimestral IQT Quarterly, que es publicada por In-Q-Tel, que actúa como intermediario entre la CIA de EE. UU. y las organizaciones científicas.

Conway representó su modelo en forma de diagrama de Venn (ver figura), que representa las tres áreas de conocimiento y habilidades que necesita poseer y poseer para convertirse en un científico de datos. Las habilidades de hacker no deben entenderse como actos maliciosos, en este caso la combinación de posesión de ciertas herramientas con una mentalidad analítica especial, como Hércules Poirot, o tal vez a esta habilidad se le puede llamar el método deductivo de Sherlock Holmes. A diferencia de los grandes detectives, también debe ser un experto en varias áreas matemáticas y comprender el tema. El aprendizaje automático se forma en la intersección de las dos primeras áreas, en la intersección de la segunda y la tercera: métodos tradicionales. La tercera zona de intersección es peligrosa por la especulatividad, sin métodos matemáticos no puede haber visión objetiva. En la intersección de las tres zonas se encuentra la ciencia de datos.

El diagrama de Conway da una imagen simplificada; en primer lugar, no solo el aprendizaje automático se encuentra en la intersección de los círculos de piratas informáticos y matemáticos, y en segundo lugar, el tamaño del último círculo es mucho mayor, hoy incluye muchas disciplinas y tecnologías. El aprendizaje automático es solo una de las áreas de la inteligencia artificial asociada a la construcción de algoritmos capaces de aprender, se divide en dos subáreas: aprendizaje basado en casos o inductivo, que revela patrones ocultos en los datos, y deductivo, destinado a formalizar conocimiento experto. El aprendizaje automático también se divide en aprendizaje supervisado (Supervised Learning), cuando se estudian métodos de clasificación basados en conjuntos de datos de entrenamiento preparados previamente, y aprendizaje no supervisado (Unsupervised Learning), cuando se buscan patrones internos a través del análisis de conglomerados.

Entonces, Big Data no son reflejos especulativos, sino un símbolo de la revolución técnica de adelantamiento. La necesidad de trabajo analítico con big data cambiará significativamente la cara de la industria de TI y estimulará la aparición de nuevas plataformas de software y hardware. Ya hoy en día, los métodos más avanzados se utilizan para analizar grandes cantidades de datos: redes neuronales artificiales: modelos construidos sobre el principio de organización y funcionamiento de las redes neuronales biológicas; métodos de análisis predictivo, estadística y procesamiento de lenguaje natural (direcciones de inteligencia artificial y lingüística matemática, que estudia los problemas de análisis informático y síntesis de lenguajes naturales). También se utilizan métodos que involucran a expertos humanos, o crowdsourcing, pruebas A / B, análisis de sentimiento, etc.. Se utilizan métodos bien conocidos para visualizar los resultados, por ejemplo, nubes de etiquetas y Clustergram, History Flow y Spatial Information Flow completamente nuevos. .

Desde el lado de las tecnologías Big Data, son compatibles con los sistemas de archivos distribuidos Google File System, Cassandra, HBase, Lustre y ZFS, construcciones de software MapReduce y Hadoop y muchas otras soluciones. Según expertos, como el Instituto McKinsey, bajo la influencia del Big Data, el ámbito de la producción, la salud, el comercio, la administración y el seguimiento de los movimientos individuales sufrirán la mayor transformación.