Qué es el Análisis de Big Data. ¿Cómo se utiliza el Big Data? Los mejores libros sobre tecnología Big-Data

Se predijo que el volumen global total de datos creados y replicados en 2011 podría ser de alrededor de 1,8 zettabytes (1,8 billones de gigabytes), unas 9 veces más que lo que se creó en 2006.

Definición más compleja

Sin embargo` grandes datos` implican algo más que analizar grandes cantidades de información. El problema no es que las organizaciones creen grandes cantidades de datos, sino que la mayor parte se presenta en un formato que no encaja bien con el formato de base de datos estructurado tradicional: son registros web, videos, documentos de texto, código de máquina o, por ejemplo, datos geoespaciales. Todo esto se almacena en muchos repositorios diferentes, a veces incluso fuera de la organización. Como resultado, las corporaciones pueden tener acceso a una gran cantidad de sus datos y no tener las herramientas necesarias para establecer relaciones entre estos datos y sacar conclusiones significativas de ellos. Agregue a esto el hecho de que los datos ahora se actualizan cada vez con más frecuencia, y se obtiene una situación en la que los métodos tradicionales de análisis de información no pueden mantenerse al día con grandes cantidades de datos constantemente actualizados, lo que finalmente allana el camino para la tecnología. grandes datos.

Mejor definición

En esencia, el concepto grandes datos implica trabajar con información de gran volumen y diversa composición, muchas veces actualizada y ubicada en diferentes fuentes con el fin de aumentar la eficiencia del trabajo, crear nuevos productos y aumentar la competitividad. La consultora Forrester lo expresa sucintamente: ` grandes datos reunir técnicas y tecnologías que extraen significado de los datos en el límite extremo de la practicidad”.

¿Cuál es la diferencia entre inteligencia de negocios y big data?

Craig Bathy, director de marketing y director de tecnología de Fujitsu Australia, señaló que el análisis comercial es un proceso descriptivo de analizar los resultados logrados por una empresa en un período de tiempo determinado, mientras que la velocidad de procesamiento grandes datos le permite hacer el análisis predictivo, capaz de ofrecer recomendaciones comerciales para el futuro. Las tecnologías de big data también le permiten analizar más tipos de datos que las herramientas de inteligencia empresarial, lo que hace posible centrarse no solo en el almacenamiento estructurado.

Matt Slocum de O'Reilly Radar cree que aunque grandes datos y la inteligencia empresarial tienen el mismo objetivo (encontrar respuestas a una pregunta), se diferencian entre sí en tres aspectos.

  • Los grandes datos están diseñados para procesar mayores cantidades de información que la inteligencia empresarial y esto, por supuesto, se ajusta a la definición tradicional de grandes datos.
  • Big data está diseñado para procesar información más rápida y cambiante, lo que significa una exploración profunda e interactividad. En algunos casos, los resultados se generan más rápido de lo que carga la página web.
  • Big data está diseñado para manejar datos no estructurados que recién estamos comenzando a explorar cómo usarlos después de que hayamos podido recopilarlos y almacenarlos, y necesitamos algoritmos y diálogo para que sea más fácil encontrar las tendencias contenidas dentro de estos arreglos.

De acuerdo con el libro blanco Oracle Information Architecture: An Architect's Guide to Big Data publicado por Oracle, abordamos la información de manera diferente cuando trabajamos con big data que cuando hacemos análisis de negocios.

Trabajar con big data no es como un proceso típico de inteligencia de negocios, donde la simple suma de valores conocidos arroja resultados: por ejemplo, la suma de las facturas pagadas se convierte en las ventas de un año. Cuando se trabaja con big data, el resultado se obtiene en el proceso de limpieza a través del modelado secuencial: primero, se plantea una hipótesis, se construye un modelo estadístico, visual o semántico, sobre la base de la cual se comprueba la exactitud de la hipótesis planteada. , y luego se presenta el siguiente. Este proceso requiere que el investigador interprete los significados visuales o realice consultas interactivas basadas en el conocimiento, o desarrolle algoritmos adaptativos de "aprendizaje automático" capaces de producir el resultado deseado. Además, la vida útil de dicho algoritmo puede ser bastante corta.

Técnicas de Análisis de Big Data

Existen muchos métodos diferentes para analizar matrices de datos, que se basan en herramientas tomadas de la estadística y la informática (por ejemplo, el aprendizaje automático). La lista no pretende ser completa, pero refleja los enfoques más populares en varias industrias. Al mismo tiempo, debe entenderse que los investigadores continúan trabajando en la creación de nuevos métodos y la mejora de los existentes. Además, algunas de las técnicas enumeradas no necesariamente se aplican exclusivamente a grandes datos y se pueden usar con éxito para arreglos más pequeños (por ejemplo, pruebas A/B, análisis de regresión). Por supuesto, cuanto más voluminosa y diversificable se analice la matriz, más precisos y relevantes se podrán obtener datos en la salida.

Pruebas A/B. Técnica en la que una muestra de control se compara a su vez con otras. Así, es posible identificar la combinación óptima de indicadores para lograr, por ejemplo, la mejor respuesta del consumidor a una oferta de marketing. grandes datos permiten realizar un gran número de iteraciones y así obtener un resultado estadísticamente significativo.

aprendizaje de reglas de asociación. Un conjunto de técnicas para identificar relaciones, i.e. reglas de asociación entre variables en grandes arreglos de datos. Utilizado en procesamiento de datos.

clasificación. Conjunto de técnicas que permite predecir el comportamiento del consumidor en un determinado segmento del mercado (decisiones de compra, churn, volumen de consumo, etc.). Utilizado en procesamiento de datos.

análisis de conglomerados. Un método estadístico para clasificar objetos en grupos mediante la identificación de características comunes que no se conocen de antemano. Utilizado en procesamiento de datos.

Colaboración colectiva. Una técnica para recopilar datos de un gran número de fuentes.

Fusión e integración de datos. Un conjunto de técnicas que te permite analizar los comentarios de los usuarios de las redes sociales y compararlos con los resultados de ventas en tiempo real.

procesamiento de datos. Conjunto de técnicas que permite determinar las categorías de consumidores más susceptibles al producto o servicio promocionado, identificar las características de los empleados más exitosos y predecir el modelo de comportamiento de los consumidores.

aprendizaje conjunto. Este método utiliza una gran cantidad de modelos predictivos, lo que mejora la calidad de las predicciones realizadas.

Algoritmos genéticos. En esta técnica, las posibles soluciones se representan como "cromosomas" que pueden combinarse y mutar. Como en el proceso de evolución natural, el individuo más apto sobrevive.

aprendizaje automático. Una dirección en informática (históricamente, se le ha asignado el nombre de `inteligencia artificial`), que tiene como objetivo crear algoritmos de autoaprendizaje basados ​​en el análisis de datos empíricos.

procesamiento natural del lenguaje (PNL). Un conjunto de técnicas de reconocimiento de lenguaje natural tomadas de la informática y la lingüística.

análisis de red. Un conjunto de técnicas para analizar enlaces entre nodos en redes. En cuanto a las redes sociales, permite analizar la relación entre usuarios individuales, empresas, comunidades, etc.

Mejoramiento. Un conjunto de métodos numéricos para rediseñar sistemas y procesos complejos para mejorar uno o más indicadores. Ayuda en la toma de decisiones estratégicas, por ejemplo, la composición de la línea de productos introducidos al mercado, realización de análisis de inversión, etc.

reconocimiento de patrones. Conjunto de técnicas con elementos de autoaprendizaje para la predicción del modelo de comportamiento de los consumidores.

modelado predictivo. Conjunto de técnicas que permiten crear un modelo matemático de un escenario probable predeterminado para el desarrollo de eventos. Por ejemplo, el análisis de la base de datos del sistema CRM para posibles condiciones que empujarán a los suscriptores a cambiar de proveedor.

regresión. Un conjunto de métodos estadísticos para identificar patrones entre cambios en una variable dependiente y una o más variables independientes. A menudo se utiliza para pronósticos y predicciones. Se utiliza en la minería de datos.

análisis de los sentimientos. Las técnicas para evaluar el sentimiento del consumidor se basan en tecnologías de reconocimiento del lenguaje natural humano. Le permiten aislar los mensajes relacionados con el tema de interés (por ejemplo, un producto de consumo) del flujo de información general. A continuación, evalúe la polaridad del juicio (positivo o negativo), el grado de emotividad, etc.

procesamiento de la señal. Un conjunto de técnicas tomadas de la ingeniería de radio, cuyo objetivo es reconocer una señal en un contexto de ruido y su posterior análisis.

Análisis espacial. Un conjunto de técnicas, en parte prestadas de las estadísticas, para analizar datos espaciales: topología del terreno, coordenadas geográficas, geometría de objetos. fuente grandes datos en este caso suelen actuar los sistemas de información geográfica (SIG).

Estadísticas. La ciencia de recopilar, organizar e interpretar datos, incluido el diseño de cuestionarios y la realización de experimentos. Los métodos estadísticos se utilizan a menudo para hacer juicios de valor sobre las relaciones entre ciertos eventos.

Aprendizaje supervisado. Un conjunto de técnicas basadas en tecnologías de aprendizaje automático que le permiten identificar relaciones funcionales en los arreglos de datos analizados.

simulación. El modelado del comportamiento de sistemas complejos a menudo se usa para predecir, predecir y resolver varios escenarios al planificar.

Análisis de series temporales. Un conjunto de métodos tomados de estadísticas y procesamiento de señales digitales para analizar secuencias de datos que se repiten con el tiempo. Un uso obvio es rastrear el mercado de valores o la incidencia de pacientes.

Aprendizaje sin supervisión. Un conjunto de técnicas basadas en tecnologías de aprendizaje automático que permiten identificar relaciones funcionales ocultas en los conjuntos de datos analizados. Tiene características comunes con análisis de conglomerados.

Visualización. Métodos de presentación gráfica de los resultados del análisis de big data en forma de diagramas o imágenes animadas para simplificar la interpretación y facilitar la comprensión de los resultados obtenidos.


Una presentación visual de los resultados del análisis de big data es de fundamental importancia para su interpretación. No es ningún secreto que la percepción humana es limitada y los científicos continúan investigando en el campo de la mejora de los métodos modernos de presentación de datos en forma de imágenes, diagramas o animaciones.

Herramientas analiticas

Para 2011, algunos de los enfoques enumerados en el subapartado anterior, o alguna combinación de ellos, permiten poner en práctica motores analíticos para trabajar con big data. De los sistemas abiertos gratuitos o relativamente económicos para analizar Big Data, podemos recomendar:

  • Revolution Analytics (basado en el lenguaje R para estadísticas matemáticas).

De particular interés en esta lista es Apache Hadoop, un software de código abierto que ha sido probado como analizador de datos por la mayoría de los rastreadores de acciones en los últimos cinco años. Tan pronto como Yahoo abrió el código de Hadoop a la comunidad de código abierto, rápidamente surgió una nueva tendencia en la industria de TI para crear productos basados ​​en Hadoop. Casi todas las herramientas de análisis modernas grandes datos proporcionar integración con Hadoop. Sus desarrolladores son tanto startups como conocidas empresas globales.

Mercados para soluciones de gestión de Big Data

Big Data Platforms (BDP, Big Data Platform) como medio para combatir el acaparamiento digital

Habilidad para analizar grandes datos, coloquialmente llamado Big Data, se percibe como una bendición, y sin ambigüedades. Pero, ¿es realmente así? ¿A qué puede conducir la acumulación desenfrenada de datos? Lo más probable es que los psicólogos domésticos en relación con una persona llamen acaparamiento patológico, silogomanía o, en sentido figurado, "síndrome de Plyushkin". En inglés, la pasión viciosa de recolectar todo se llama hording (del inglés hoard - "reserva"). Según la clasificación de las enfermedades mentales, el acaparamiento se clasifica como un trastorno mental. En la era digital, digital (Digital Hoarding) se agrega a la cuerda material tradicional, tanto individuos como empresas y organizaciones enteras () pueden sufrirlo.

Mercado mundial y ruso

Panorama de Big Data - Principales proveedores

Interés en herramientas de recolección, procesamiento, gestión y análisis grandes datos mostró casi todas las principales empresas de TI, lo cual es bastante natural. En primer lugar, experimentan este fenómeno directamente en su propio negocio y, en segundo lugar, grandes datos abrir excelentes oportunidades para desarrollar nuevos nichos de mercado y atraer nuevos clientes.

Han aparecido muchas startups en el mercado que hacen negocios procesando grandes cantidades de datos. Algunos de ellos usan infraestructura en la nube lista para usar proporcionada por grandes jugadores como Amazon.

Teoría y práctica de Big Data en industrias

Historia del desarrollo

2017

Pronóstico de TmaxSoft: la próxima "ola" de Big Data requerirá la modernización de DBMS

Las empresas saben que las enormes cantidades de datos que acumulan contienen información importante sobre sus negocios y clientes. Si la empresa puede aplicar con éxito esta información, tendrá una ventaja significativa sobre sus competidores y podrá ofrecer mejores productos y servicios que los de ellos. Sin embargo, muchas organizaciones aún no pueden usar de manera efectiva grandes datos debido al hecho de que su infraestructura de TI heredada no puede proporcionar la capacidad de almacenamiento necesaria, los procesos de intercambio de datos, las utilidades y las aplicaciones necesarias para procesar y analizar grandes conjuntos de datos no estructurados para extraer información valiosa de ellos, indicó TmaxSoft.

Además, aumentar la potencia de procesamiento necesaria para analizar volúmenes de datos cada vez mayores puede requerir una inversión significativa en la infraestructura de TI heredada de una organización, así como recursos de mantenimiento adicionales que podrían usarse para desarrollar nuevas aplicaciones y servicios.

El 5 de febrero de 2015, la Casa Blanca publicó un informe que analiza cómo las empresas están utilizando " grandes datos fijar precios diferentes para compradores diferentes, una práctica conocida como "discriminación de precios" o "precios diferenciales" (precios personalizados). El informe describe los beneficios de los "macrodatos" tanto para los vendedores como para los compradores, y concluye que muchas de las cuestiones planteadas por el advenimiento de los macrodatos y la diferenciación de precios pueden abordarse dentro de las leyes y regulaciones antidiscriminatorias existentes que protegen los derechos de los consumidores. .

El informe señala que, en este momento, solo hay evidencia anecdótica de cómo las empresas están utilizando big data en el contexto del marketing individualizado y la fijación de precios diferenciados. Esta información muestra que los vendedores utilizan métodos de fijación de precios que se pueden dividir en tres categorías:

  • estudiar la curva de demanda;
  • Dirección y precios diferenciados basados ​​en la demografía; y
  • marketing conductual objetivo (behavioral targeting - Behavioral Targeting) y precios individualizados.

Estudiar la curva de demanda: Para comprender la demanda y estudiar el comportamiento del consumidor, los especialistas en marketing suelen realizar experimentos en esta área, durante los cuales se asigna aleatoriamente a los clientes una de dos posibles categorías de precios. “Técnicamente, estos experimentos son una forma de fijación de precios diferencial porque dan como resultado precios diferentes para los clientes, incluso si son “no discriminatorios” en el sentido de que todos los clientes tienen las mismas posibilidades de “alcanzar” el precio más alto”.

Direccion: Es la práctica de presentar los productos a los consumidores en función de su pertenencia a un determinado grupo demográfico. Por ejemplo, el sitio web de una empresa de computación puede ofrecer la misma computadora portátil a diferentes tipos de clientes a diferentes precios según la información que proporcionen sobre ellos mismos (por ejemplo, dependiendo de si el usuario es un representante de agencias gubernamentales, instituciones científicas o comerciales, o un individuo) o su ubicación geográfica (por ejemplo, determinada por la dirección IP de una computadora).

Marketing conductual dirigido y precios personalizados: En estos casos, los datos personales de los compradores se utilizan para publicidad dirigida y precios individualizados de ciertos productos. Por ejemplo, los anunciantes en línea utilizan datos recopilados por redes publicitarias y cookies de terceros sobre la actividad del usuario en Internet para orientar sus materiales publicitarios. Este enfoque, por un lado, permite a los consumidores recibir anuncios de bienes y servicios de su interés, pero puede ser motivo de preocupación para aquellos consumidores que no desean ciertos tipos de sus datos personales (como información sobre visitas a sitios web vinculados a asuntos médicos y financieros) reunidos sin su consentimiento.

Aunque el marketing de comportamiento dirigido está muy extendido, hay relativamente poca evidencia de precios individualizados en el entorno en línea. El informe especula que esto puede deberse a que los métodos aún se están desarrollando, o porque las empresas son reacias a adoptar (o prefieren guardar silencio) precios individuales, posiblemente por temor a una reacción violenta de los consumidores.

Los autores del informe creen que "para el consumidor individual, el uso de big data está sin duda asociado con beneficios y riesgos potenciales". Si bien reconoce que existen problemas de transparencia y discriminación cuando se utilizan macrodatos, el informe argumenta que las leyes existentes contra la discriminación y la protección del consumidor son suficientes para abordarlos. Sin embargo, el informe también destaca la necesidad de un "escrutinio continuo" cuando las empresas utilizan información confidencial de manera no transparente o de maneras que no están cubiertas por el marco regulatorio existente.

Este informe es una continuación de los esfuerzos de la Casa Blanca para estudiar el uso de "grandes datos" y precios discriminatorios en Internet, y las consecuencias resultantes para los consumidores estadounidenses. Anteriormente se informó que el Grupo de Trabajo de la Casa Blanca sobre Big Data publicó su informe sobre este tema en mayo de 2014. La Comisión Federal de Comercio (FTC) también consideró estos temas durante su taller de septiembre de 2014 sobre discriminación en relación con el uso de big data.

2014

Gartner desmitifica Big Data

Un resumen de política de otoño de 2014 de Gartner enumera y desacredita una serie de mitos comunes de Big Data entre los CIO.

  • Todos implementan sistemas de procesamiento de Big Data más rápido que nosotros

El interés en las tecnologías de Big Data está en su punto más alto, con el 73% de las organizaciones encuestadas por los analistas de Gartner este año ya invirtiendo o planeando hacerlo. Pero la mayoría de estas iniciativas aún se encuentran en sus primeras etapas, y solo el 13% de los encuestados ya han implementado tales soluciones. La parte más difícil es descubrir cómo monetizar Big Data y decidir por dónde empezar. Muchas organizaciones se quedan atrapadas en la fase piloto porque no pueden vincular la nueva tecnología a procesos comerciales específicos.

  • Tenemos tantos datos que no hay necesidad de preocuparse por pequeños errores en ellos.

Algunos CIO creen que las pequeñas fallas en los datos no afectan los resultados generales del análisis de grandes volúmenes. Cuando hay una gran cantidad de datos, cada error por separado realmente afecta menos el resultado, dicen los analistas, pero los errores en sí mismos se vuelven más grandes. Además, la mayoría de los datos analizados son externos, de estructura u origen desconocidos, por lo que aumenta la probabilidad de errores. Por lo tanto, en el mundo de Big Data, la calidad es mucho más importante.

  • Las tecnologías Big Data eliminarán la necesidad de integración de datos

Big Data promete la capacidad de procesar datos en su formato original con la generación automática de esquemas a medida que se leen. Se cree que esto permitirá el análisis de información de las mismas fuentes usando múltiples modelos de datos. Muchos creen que esto también permitirá a los usuarios finales interpretar cualquier conjunto de datos a su manera. En realidad, la mayoría de los usuarios a menudo desean el esquema tradicional listo para usar donde los datos tienen el formato adecuado y hay acuerdo sobre el nivel de integridad de la información y cómo debe relacionarse con el caso de uso.

  • No tiene sentido usar almacenes de datos para análisis complejos

Muchos administradores de sistemas de gestión de la información sienten que no tiene sentido dedicar tiempo a crear un almacén de datos, dado que los sistemas analíticos complejos utilizan nuevos tipos de datos. De hecho, muchos sistemas analíticos sofisticados usan información de un almacén de datos. En otros casos, los nuevos tipos de datos deben prepararse adicionalmente para el análisis en los sistemas de procesamiento de Big Data; se deben tomar decisiones sobre la idoneidad de los datos, los principios de agregación y el nivel de calidad requerido; dicha preparación puede tener lugar fuera del almacén.

  • Los almacenes de datos serán reemplazados por lagos de datos

En realidad, los proveedores engañan a los clientes al posicionar los lagos de datos como reemplazo del almacenamiento o como elementos críticos de una infraestructura analítica. Las tecnologías subyacentes de los lagos de datos carecen de la madurez y amplitud de funcionalidad que se encuentran en los almacenes de datos. Por lo tanto, los líderes responsables de la gestión de datos deberían esperar hasta que los lagos alcancen el mismo nivel de desarrollo, según Gartner.

Accenture: el 92% de los que implementaron sistemas de big data están satisfechos con el resultado

Entre las principales ventajas del big data, los encuestados mencionaron:

  • "búsqueda de nuevas fuentes de ingresos" (56%),
  • "mejorar la experiencia del cliente" (51%),
  • "nuevos productos y servicios" (50%) y
  • “afluencia de nuevos clientes y mantenimiento de la fidelidad de los antiguos” (47%).

Al introducir nuevas tecnologías, muchas empresas se han enfrentado a problemas tradicionales. Para el 51% el escollo fue la seguridad, para el 47% el presupuesto, para el 41% la falta de personal necesario y para el 35% las dificultades de integración con el sistema existente. Casi todas las empresas encuestadas (alrededor del 91%) planean resolver pronto el problema de escasez de personal y contratar especialistas en big data.

Las empresas son optimistas sobre el futuro de las tecnologías de big data. El 89% cree que cambiarán los negocios tanto como Internet. El 79% de los encuestados señaló que las empresas que no manejan big data perderán su ventaja competitiva.

Sin embargo, los encuestados no estuvieron de acuerdo sobre qué debería considerarse exactamente big data. El 65% de los encuestados cree que se trata de "archivos de datos de gran tamaño", el 60% está seguro de que se trata de "análisis y análisis avanzados" y el 50% de que se trata de "herramientas de visualización de datos".

Madrid gasta 14,7 millones de euros en gestión de big data

En julio de 2014 se supo que Madrid utilizaría tecnologías de big data para gestionar la infraestructura urbana. El coste del proyecto es de 14,7 millones de euros y las soluciones a implementar estarán basadas en tecnologías de análisis y gestión de big data. Con su ayuda, la administración de la ciudad gestionará el trabajo con cada proveedor de servicios y pagará en consecuencia, según el nivel de servicios.

Estamos hablando de contratistas de la administración que vigilan el estado de las calles, el alumbrado, el riego, los espacios verdes, sanean el territorio y retiran, además de procesar la basura. En el transcurso del proyecto, se desarrollaron 300 indicadores clave de desempeño de los servicios de la ciudad para inspectores especialmente asignados, sobre la base de los cuales se realizarán diariamente 1.500 controles y mediciones diferentes. Además, la ciudad comenzará a utilizar una innovadora plataforma tecnológica denominada Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Expertos: El pico de la moda para Big Data

Sin excepción, todos los proveedores del mercado de gestión de datos están desarrollando actualmente tecnologías para la gestión de Big Data. Esta nueva tendencia tecnológica también está siendo discutida activamente por la comunidad profesional, tanto desarrolladores como analistas de la industria y consumidores potenciales de este tipo de soluciones.

Como descubrió Datashift, a partir de enero de 2013, la ola de discusión en torno a " grandes datos"superó todas las dimensiones imaginables. Después de analizar la cantidad de menciones de Big Data en las redes sociales, Datashift calculó que en 2012 este término se usó unas 2 mil millones de veces en publicaciones creadas por alrededor de 1 millón de autores diferentes en todo el mundo. Esto equivale a 260 publicaciones por hora, con un pico de 3070 menciones por hora.

Gartner: Cada segundo CIO está listo para gastar dinero en Big data

Después de varios años de experimentos con tecnologías Big data y las primeras implementaciones en 2013, la adaptación de este tipo de soluciones aumentará significativamente, predice Gartner. Los investigadores encuestaron a los líderes de TI de todo el mundo y descubrieron que el 42 % de los encuestados ya ha invertido en tecnologías de Big Data o tiene previsto realizar dichas inversiones durante el próximo año (datos de marzo de 2013).

Las empresas se ven obligadas a gastar dinero en tecnologías de procesamiento grandes datos Dado que el panorama de la información está cambiando rápidamente, necesito nuevos enfoques para el procesamiento de la información. Muchas empresas ya se han dado cuenta de que el big data es crítico y trabajar con él le permite lograr beneficios que no están disponibles utilizando las fuentes tradicionales de información y los métodos para procesarla. Además, la constante exageración del tema de los "grandes datos" en los medios de comunicación alimenta el interés por las tecnologías pertinentes.

Frank Buytendijk, vicepresidente de Gartner, incluso instó a las empresas a bajar el tono, ya que a algunas les preocupa estar rezagadas con respecto a sus competidores en el dominio de los grandes datos.

“No hay necesidad de preocuparse, las posibilidades de materializar ideas basadas en tecnologías de big data son virtualmente ilimitadas”, dijo.

Gartner predice que para 2015, el 20% de las empresas Global 1000 tendrán un enfoque estratégico en la "infraestructura de la información".

Anticipándose a las nuevas oportunidades que traerán las tecnologías de procesamiento de big data, muchas organizaciones ya están organizando el proceso de recopilación y almacenamiento de diversos tipos de información.

Para las organizaciones educativas y gubernamentales, así como para las empresas de la industria, el mayor potencial de transformación comercial radica en la combinación de datos acumulados con los llamados datos oscuros (literalmente - "datos oscuros"), estos últimos incluyen mensajes de correo electrónico, multimedia y otros contenidos similares. Según Gartner, quienes aprendan a manejar una amplia variedad de fuentes de información ganarán la carrera de datos.

Encuesta de Cisco: Big Data ayudará a aumentar los presupuestos de TI

El Informe de tecnología del mundo conectado de Cisco (primavera de 2013) realizado en 18 países por la firma analista independiente InsightExpress encuestó a 1.800 estudiantes universitarios y una cantidad igual de jóvenes profesionales de 18 a 30 años. La encuesta se realizó para conocer el nivel de preparación de los departamentos de TI para la implementación de proyectos. grandes datos y obtener una comprensión de los desafíos asociados, las fallas tecnológicas y el valor estratégico de dichos proyectos.

La mayoría de las empresas recopilan, registran y analizan datos. Sin embargo, según el informe, muchas empresas se enfrentan a una serie de complejos desafíos empresariales y de tecnología de la información en relación con Big Data. Por ejemplo, el 60 por ciento de los encuestados reconoce que las soluciones de Big Data pueden mejorar los procesos de toma de decisiones y aumentar la competitividad, pero solo el 28 por ciento dijo que ya está obteniendo beneficios estratégicos reales de la información acumulada.

Más de la mitad de los CIO encuestados creen que los proyectos de Big Data ayudarán a aumentar los presupuestos de TI en sus organizaciones, ya que habrá una mayor demanda de tecnología, personal y habilidades profesionales. Al mismo tiempo, más de la mitad de los encuestados esperan que dichos proyectos aumenten los presupuestos de TI en sus empresas ya en 2012. El 57 por ciento confía en que Big Data aumentará sus presupuestos en los próximos tres años.

El 81 por ciento de los encuestados dijo que todos (o al menos algunos) los proyectos de Big Data requerirán el uso de computación en la nube. Por lo tanto, la difusión de las tecnologías en la nube puede afectar la velocidad de distribución de las soluciones de Big Data y el valor de estas soluciones para los negocios.

Las empresas recopilan y utilizan datos de varios tipos, tanto estructurados como no estructurados. Estas son las fuentes de las que los participantes de la encuesta reciben datos (Informe de tecnología del mundo conectado de Cisco):

Casi la mitad (48 por ciento) de los CIO predicen que la carga en sus redes se duplicará en los próximos dos años. (Esto es especialmente cierto en China, donde el 68 por ciento de los encuestados tienen este punto de vista, y en Alemania, el 60 por ciento). El 23 por ciento de los encuestados espera que el tráfico de la red se triplique en los próximos dos años. Al mismo tiempo, solo el 40 por ciento de los encuestados declaró estar preparado para un crecimiento explosivo en el tráfico de red.

El 27 por ciento de los encuestados admitió que necesita mejores políticas de TI y medidas de seguridad de la información.

El 21 por ciento necesita más ancho de banda.

Big Data abre nuevas oportunidades para que los departamentos de TI agreguen valor y establezcan relaciones cercanas con las unidades de negocios para aumentar los ingresos y fortalecer la posición financiera de la empresa. Los proyectos de Big Data hacen de los departamentos de TI un socio estratégico de los departamentos de negocio.

Según el 73 por ciento de los encuestados, es el departamento de TI el que se convertirá en el motor principal para implementar la estrategia Big Data. Al mismo tiempo, los encuestados creen que otros departamentos también estarán involucrados en la implementación de esta estrategia. En primer lugar, esto afecta a los departamentos de finanzas (mencionado por el 24 por ciento de los encuestados), investigación y desarrollo (20 por ciento), operaciones (20 por ciento), ingeniería (19 por ciento), así como marketing (15 por ciento) y ventas ( 14 por ciento).

Gartner: Se necesitan millones de nuevos puestos de trabajo para gestionar big data

El gasto mundial en TI alcanzará los 3700 millones de dólares en 2013, un 3,8 % más que el gasto en TI de 2012 (la previsión para fin de año es de 3600 millones de dólares). Segmento grandes datos(big data) evolucionará a un ritmo mucho más rápido, según un informe de Gartner.

Para 2015, se crearán 4,4 millones de puestos de trabajo de TI para servir Big Data, de los cuales 1,9 millones estarán en . Lo que es más, cada trabajo de este tipo generará tres trabajos adicionales no relacionados con TI, de modo que solo en los EE. UU., 6 millones de personas trabajarán para respaldar la economía de la información durante los próximos cuatro años.

Según los expertos de Gartner, el principal problema es que no hay suficiente talento en la industria para ello: tanto los sistemas educativos privados como los públicos, por ejemplo, en Estados Unidos, no son capaces de dotar a la industria de un número suficiente de personal cualificado. . Entonces, de los nuevos puestos de trabajo mencionados en TI, solo uno de cada tres contará con personal.

Los analistas creen que el papel de cultivar personal de TI calificado debe ser asumido directamente por las empresas que lo necesitan con urgencia, ya que dichos empleados se convertirán en un pase para ellos en la nueva economía de la información del futuro.

2012

Primer escepticismo sobre Big Data

Los analistas de Ovum y Gartner sugieren que para un tema de moda en 2012 grandes datos puede ser hora de dejar ir las ilusiones.

El término "Big Data" en este momento generalmente se refiere al volumen cada vez mayor de información que llega en línea desde las redes sociales, redes de sensores y otras fuentes, así como a la creciente gama de herramientas utilizadas para procesar datos e identificar negocios importantes a partir de ellos. -tendencias.

“Debido a (o a pesar de) la exageración que rodeaba la idea de big data, los fabricantes en 2012 observaron esta tendencia con gran esperanza”, dijo Tony Bayer, analista de Ovum.

Bayer dijo que DataSift realizó un análisis retrospectivo de referencias de big data en

En un momento, escuché el término "Big Data" de German Gref (director de Sberbank). Por ejemplo, ahora están trabajando activamente en la implementación, porque esto les ayudará a reducir el tiempo que trabajan con cada cliente.

La segunda vez que encontré este concepto fue en la tienda en línea del cliente, en la que trabajamos y aumentamos el surtido de un par de miles a un par de decenas de miles de artículos básicos.

La tercera vez vi que Yandex necesitaba un analista de big data. Entonces decidí profundizar más en este tema y, al mismo tiempo, escribir un artículo que le dirá qué tipo de término es el que excita las mentes de los gerentes TOP y el espacio de Internet.

VVV o VVVVV

Normalmente comienzo cualquiera de mis artículos con una explicación de qué tipo de término es. Este artículo no será una excepción.

Sin embargo, esto no se debe principalmente al deseo de mostrar lo inteligente que soy, sino a que el tema es realmente complejo y requiere una explicación cuidadosa.

Por ejemplo, puede leer qué son los grandes datos en Wikipedia, no entender nada y luego volver a este artículo para comprender la definición y la aplicabilidad para los negocios. Entonces, comencemos con una descripción y luego con ejemplos comerciales.

Los grandes datos son grandes datos. Increíble, ¿verdad? En realidad, del inglés se traduce como “big data”. Pero esta definición, se podría decir, es para tontos.

Importante. La tecnología de big data es un enfoque/método de procesamiento de más datos para obtener nueva información que es difícil de procesar de manera convencional.

Los datos se pueden procesar (estructurar) y fragmentar (es decir, no estructurar).

El término en sí apareció relativamente recientemente. En 2008, una revista científica predijo este enfoque como algo necesario para manejar una gran cantidad de información que crece exponencialmente.

Por ejemplo, cada año la información en Internet que necesita ser almacenada y, por supuesto, procesada, aumenta en un 40%. Otra vez. +40% cada año aparece nueva información en Internet.

Si los documentos impresos son comprensibles y las formas de procesarlos también son comprensibles (transferencia a formato electrónico, unión en una carpeta, numeración), entonces qué hacer con la información que se presenta en "portadores" completamente diferentes y otros volúmenes:

  • documentos de Internet;
  • blogs y redes sociales;
  • fuentes de audio/video;
  • aparatos de medición;

Existen características que hacen posible clasificar la información y los datos como big data.

Es decir, no todos los datos pueden ser adecuados para el análisis. Estas características contienen el concepto clave de big data. Todos caben en tres V.

  1. Volumen (del volumen en inglés). Los datos se miden en términos del volumen físico del “documento” a analizar;
  2. Velocidad (del inglés speed). Los datos no se detienen en su desarrollo, sino que crecen constantemente, por lo que necesitan ser procesados ​​rápidamente para obtener resultados;
  3. Variedad (del inglés variedad). Los datos pueden no ser uniformes. Es decir, pueden estar fragmentados, estructurados o parcialmente estructurados.

Sin embargo, de vez en cuando, a la VVV se le añade una cuarta V (veracidad - fiabilidad/credibilidad de los datos) e incluso una quinta V (en unos casos es viabilidad - viabilidad, en otros es valor).

En algún lugar incluso vi 7V, que caracterizan datos relacionados con big data. Pero en mi opinión, esto es de una serie (donde periódicamente se agregan Ps, aunque las 4 iniciales son suficientes para entender).

YA SOMOS MÁS DE 29.000 personas.
ENCENDER

¿Quién lo necesita?

Surge una pregunta lógica, ¿cómo se puede usar la información (en todo caso, los grandes datos son cientos y miles de terabytes)? Ni siquiera así.

Aquí está la información. Entonces, ¿por qué se les ocurrió el big data entonces? ¿Cuál es el uso de big data en marketing y negocios?

  1. Las bases de datos convencionales no pueden almacenar y procesar (ni siquiera estoy hablando de análisis ahora, sino simplemente almacenar y procesar) una gran cantidad de información.

    Big data resuelve este problema principal. Almacena y gestiona con éxito información con un gran volumen;

  2. Estructura la información proveniente de varias fuentes (video, imágenes, audio y documentos de texto) en una forma única, comprensible y digerible;
  3. Formación de análisis y creación de pronósticos precisos basados ​​​​en información estructurada y procesada.

Es complicado. En pocas palabras, cualquier vendedor que entienda que si estudia una gran cantidad de información (sobre usted, su empresa, sus competidores, su industria), puede obtener resultados muy decentes:

  • Comprensión completa de su empresa y su negocio desde el lado de los números;
  • Estudia a tus competidores. Y esto, a su vez, permitirá salir adelante dominándolos;
  • Conoce nueva información sobre tus clientes.

Y precisamente porque la tecnología de big data da los siguientes resultados, todo el mundo se apresura con ella.

Están tratando de meter este negocio en su empresa para obtener un aumento en las ventas y una disminución en los costos. Y para ser específicos, entonces:

  1. Aumentar las ventas cruzadas y las ventas adicionales a través de un mejor conocimiento de las preferencias de los clientes;
  2. Buscar productos populares y razones por las que se compran (y viceversa);
  3. Mejora del producto o servicio;
  4. Mejora en el nivel de servicio;
  5. Aumentar la lealtad y el enfoque en el cliente;
  6. Prevención del fraude (más relevante para el sector bancario);
  7. Reducción de los costes excesivos.

El ejemplo más común dado en todas las fuentes es, por supuesto, Apple, que recopila datos sobre sus usuarios (teléfono, reloj, computadora).

Es debido a la presencia del ecosistema que la corporación sabe tanto sobre sus usuarios y en el futuro lo usa para obtener ganancias.

Puedes leer estos y otros ejemplos de uso en cualquier otro artículo menos en este.

vamos al futuro

Te hablaré de otro proyecto. O mejor dicho, sobre una persona que construye el futuro utilizando soluciones de big data.

Se trata de Elon Musk y su empresa Tesla. Su principal sueño es hacer autos autónomos, es decir, te pones al volante, enciendes el piloto automático de Moscú a Vladivostok y... te duermes, porque no necesitas conducir un auto en absoluto, porque él lo hará. todo él mismo.

¿Te parecería fantástico? ¡Pero no! Es solo que Elon actuó mucho más sabiamente que Google, que controla los autos usando docenas de satélites. Y fue por el otro lado:

  1. Cada automóvil vendido está equipado con una computadora que recopila toda la información.

    Todo significa todo. Sobre el conductor, su estilo de conducción, las carreteras a su alrededor, el movimiento de otros coches. El volumen de dichos datos alcanza los 20-30 GB por hora;

  2. Además, esta información se transmite vía satélite a la computadora central, que procesa estos datos;
  3. Sobre la base de los grandes datos que procesa esta computadora, se construye un modelo de un vehículo no tripulado.

Por cierto, si a Google le está yendo bastante mal y sus autos tienen accidentes todo el tiempo, entonces Musk, debido al hecho de que está trabajando con big data, lo está haciendo mucho mejor, porque los modelos de prueba muestran muy buenos resultados.

Pero... Se trata de la economía. ¿Qué estamos todos sobre el beneficio, sí sobre el beneficio? Mucho de lo que pueden resolver los grandes datos no tiene ninguna relación con las ganancias y el dinero.

Las estadísticas de Google, basadas únicamente en grandes datos, muestran algo interesante.

Antes de que los médicos anuncien el comienzo de una epidemia de una enfermedad en una región, el número de consultas de búsqueda para el tratamiento de esta enfermedad aumenta significativamente en esta región.

Así, el correcto estudio de los datos y su análisis pueden formar previsiones y predecir la aparición de la epidemia (y, en consecuencia, su prevención) mucho más rápido que la opinión de las autoridades y sus actuaciones.

Aplicación en Rusia

Sin embargo, Rusia, como siempre, frena un poco. Entonces, la definición misma de big data en Rusia apareció hace no más de 5 años (ahora estoy hablando de empresas ordinarias).

Y esto a pesar de que este es uno de los mercados de más rápido crecimiento en el mundo (las drogas y las armas están humeando nerviosamente al margen), porque cada año el mercado de software para recopilar y analizar big data crece un 32%.

Para caracterizar el mercado de big data en Rusia, recuerdo un viejo chiste. La gran cita es como el sexo antes de los 18.

Todo el mundo está hablando de ello, hay mucha exageración a su alrededor y poca acción real, y todo el mundo se avergüenza de admitir que ellos mismos no están haciendo esto. De hecho, hay mucha publicidad en torno a esto, pero poca acción real.

Aunque la conocida empresa de investigación Gartner anunció ya en 2015 que el big data ya no es una tendencia en alza (como la inteligencia artificial, por cierto), sino herramientas completamente independientes para analizar y desarrollar tecnologías avanzadas.

Los nichos más activos donde se usa big data en Rusia son los bancos/seguros (no sin razón comencé el artículo con el jefe de Sberbank), las telecomunicaciones, el comercio minorista, los bienes raíces y… el sector público.

Por ejemplo, te contaré con más detalle sobre un par de sectores de la economía que utilizan algoritmos de big data.

Bancos

Comencemos con los bancos y la información que recopilan sobre nosotros y nuestras actividades. Por ejemplo, tomé el TOP-5 de bancos rusos que están invirtiendo activamente en big data:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Banco Alfa;
  5. Banco Tinkoff.

Es especialmente agradable ver a Alfa Bank entre los líderes rusos. Como mínimo, es bueno saber que el banco, cuyo socio oficial es usted, comprende la necesidad de introducir nuevas herramientas de marketing en su empresa.

Pero quiero mostrar ejemplos del uso y la implementación exitosa de big data en el banco, que me gusta por el aspecto y las acciones no estándar de su fundador.

Estoy hablando del Banco Tinkoff. Su tarea principal era desarrollar un sistema para analizar big data en tiempo real debido a una base de clientes demasiado grande.

Resultados: el tiempo de los procesos internos se redujo al menos 10 veces, y para algunos, más de 100 veces.

Bueno, un poco de distracción. ¿Sabes por qué comencé a hablar sobre las payasadas y acciones no estándar de Oleg Tinkov?

Es solo que, en mi opinión, fueron ellos quienes lo ayudaron a pasar de ser un hombre de negocios de clase media, de los cuales hay miles en Rusia, a uno de los empresarios más famosos y reconocibles. Para probarlo, mira este video inusual e interesante:

La propiedad

En el sector inmobiliario, las cosas son mucho más complicadas. Y este es exactamente el ejemplo que quiero darte para que entiendas la gran cita dentro del negocio normal. Datos iniciales:

  1. Gran volumen de documentación de texto;
  2. Fuentes abiertas (satélites privados que transmiten datos sobre el cambio de la tierra);
  3. La gran cantidad de información no controlada en Internet;
  4. Cambios constantes en fuentes y datos.

Y sobre esta base, es necesario preparar y evaluar el costo de un terreno, por ejemplo, debajo del pueblo de los Urales. Tomará una semana para un profesional.

La Sociedad Rusa de Tasadores y ROSEKO, que en realidad implementaron el análisis de big data con la ayuda de un software, no requerirán más de 30 minutos de trabajo pausado. Compare, una semana y 30 minutos. Colosal diferencia.

Pues para merendar

Por supuesto, grandes cantidades de información no se pueden almacenar y procesar en simples discos duros.

Y el software que estructura y analiza datos es generalmente propiedad intelectual y cada vez es desarrollo de un autor. Sin embargo, hay herramientas sobre la base de las cuales se crea todo este encanto:

  • Hadoop y MapReduce;
  • bases de datos NoSQL;
  • Herramientas de la clase Data Discovery.

Para ser honesto, no puedo explicarle claramente en qué se diferencian entre sí, ya que el conocimiento y el trabajo con estas cosas se enseñan en institutos físicos y matemáticos.

¿Por qué entonces comencé a hablar de eso si no puedo explicarlo? ¿Recuerdas en todas las películas que los ladrones entran en cualquier banco y ven una gran cantidad de todo tipo de piezas de hierro conectadas a los cables?

Lo mismo es cierto para los grandes datos. Por ejemplo, aquí tienes un modelo que actualmente es uno de los más punteros del mercado.

Herramienta para citas grandes

El costo en la configuración máxima alcanza los 27 millones de rublos por rack. Esta es, por supuesto, la versión de lujo. Me refiero a que pruebes con anticipación la creación de big data en tu negocio.

Brevemente sobre los principales

Quizás se pregunte por qué ustedes, las pequeñas y medianas empresas, trabajan con big data.

A esto te responderé con una cita de una persona: “En un futuro cercano, los clientes demandarán empresas que comprendan mejor su comportamiento, hábitos y les correspondan tanto como sea posible”.

Pero seamos realistas. Para implementar big data en una pequeña empresa, es necesario contar no solo con grandes presupuestos para el desarrollo e implementación de software, sino también para el mantenimiento de especialistas, al menos como un analista de big data y un administrador de sistemas.

Y ahora guardo silencio sobre el hecho de que debe tener dichos datos para su procesamiento.

ESTÁ BIEN. Para las pequeñas empresas, el tema casi no es aplicable. Pero esto no significa que deba olvidar todo lo que ha leído anteriormente.

Simplemente estudie no sus propios datos, sino los resultados del análisis de datos de conocidas empresas extranjeras y rusas.

Por ejemplo, la cadena minorista Target, utilizando análisis de big data, descubrió que las mujeres embarazadas antes del segundo trimestre del embarazo (de la semana 1 a la 12 del embarazo) están comprando activamente productos sin sabor.

Con estos datos les envían cupones de descuento para productos sin perfume con fecha de caducidad limitada.

¿Y si solo eres un café muy pequeño, por ejemplo? Sí, muy sencillo. Usa una aplicación de fidelización.

Y después de un tiempo y gracias a la información acumulada, podrá no solo ofrecer a los clientes platos relevantes para sus necesidades, sino también ver los platos más marginales y sin vender con solo un par de clics del mouse.

De ahí la conclusión. No vale la pena implementar big data para pequeñas empresas, pero es imprescindible utilizar los resultados y desarrollos de otras empresas.

La aceleración constante del crecimiento de los datos es una parte integral de las realidades actuales. Las redes sociales, los dispositivos móviles, los datos de los dispositivos de medición, la información comercial son solo algunos de los tipos de fuentes que pueden generar grandes cantidades de datos.

Actualmente, el término Big Data (Big data) se ha vuelto bastante común. Lejos de todo el mundo todavía es consciente de lo rápido y profundamente que las tecnologías para el procesamiento de grandes cantidades de datos están cambiando los más diversos aspectos de la sociedad. Se están produciendo cambios en diversos ámbitos, dando lugar a nuevos problemas y retos, incluso en el ámbito de la seguridad de la información, donde aspectos tan importantes como la confidencialidad, la integridad, la disponibilidad, etc. deben estar en primer plano.

Desafortunadamente, muchas empresas modernas recurren a la tecnología Big Data sin crear la infraestructura adecuada para ello, lo que podría garantizar un almacenamiento confiable de las enormes cantidades de datos que recopilan y almacenan. Por otro lado, actualmente se está desarrollando rápidamente la tecnología blockchain, que está diseñada para resolver este y muchos otros problemas.

¿Qué es Big Data?

De hecho, la definición del término se encuentra en la superficie: "big data" significa la gestión de cantidades muy grandes de datos, así como su análisis. Si mira más ampliamente, entonces esta es información que no puede ser procesada por métodos clásicos debido a sus grandes volúmenes.

El término Big Data en sí mismo (big data) apareció hace relativamente poco tiempo. Según el servicio Google Trends, el crecimiento activo de la popularidad del término cae a finales de 2011:

En 2010 comenzaron a aparecer los primeros productos y soluciones directamente relacionados con el procesamiento de big data. Para 2011, la mayoría de las empresas de TI más grandes, incluidas IBM, Oracle, Microsoft y Hewlett-Packard, utilizan activamente el término Big Data en sus estrategias comerciales. Poco a poco, los analistas del mercado de tecnología de la información comienzan una investigación activa sobre este concepto.

Actualmente, este término ha ganado una popularidad considerable y se usa activamente en una variedad de campos. Sin embargo, no se puede decir con certeza que Big Data sea una especie de fenómeno fundamentalmente nuevo; por el contrario, las grandes fuentes de datos existen desde hace muchos años. En marketing, pueden ser bases de datos de compras de clientes, historiales de crédito, estilos de vida y más. A lo largo de los años, los analistas han utilizado estos datos para ayudar a las empresas a predecir las necesidades futuras de los clientes, evaluar riesgos, dar forma a las preferencias de los consumidores y más.

Actualmente, la situación ha cambiado en dos aspectos:

— Han surgido herramientas y métodos más sofisticados para analizar y comparar diferentes conjuntos de datos;
— Las herramientas de análisis se han complementado con muchas nuevas fuentes de datos, impulsadas por la digitalización generalizada, así como con nuevos métodos de recopilación y medición de datos.

Los investigadores predicen que las tecnologías Big Data se utilizarán de forma más activa en la fabricación, la sanidad, el comercio, la administración pública y en otros campos e industrias muy diversos.

Big Data no es una matriz específica de datos, sino un conjunto de métodos para procesarlos. La característica definitoria de los grandes datos no es solo su volumen, sino también otras categorías que caracterizan los procesos intensivos en mano de obra de procesamiento y análisis de datos.

Los datos iniciales para el tratamiento pueden ser, por ejemplo:

— registros de comportamiento de los usuarios de Internet;
- Internet de las Cosas;
- medios de comunicación social;
— datos meteorológicos;
— libros digitalizados de las bibliotecas más grandes;
– Señales GPS de los vehículos;
— información sobre transacciones de clientes bancarios;
— datos sobre la ubicación de suscriptores de redes móviles;
— información sobre compras en grandes cadenas minoristas, etc.

Con el tiempo, la cantidad de datos y el número de sus fuentes crece constantemente y, en este contexto, aparecen nuevos métodos de procesamiento de información y se mejoran los métodos existentes de procesamiento de información.

Principios básicos de Big Data:

- Escalabilidad horizontal: las matrices de datos pueden ser enormes y esto significa que el sistema de procesamiento de big data debe expandirse dinámicamente a medida que aumentan sus volúmenes.
- Tolerancia a fallas: incluso si algunas piezas del equipo fallan, todo el sistema debe permanecer operativo.
— Localidad de los datos. En grandes sistemas distribuidos, los datos generalmente se distribuyen en una cantidad significativa de máquinas. Sin embargo, siempre que sea posible y con el fin de ahorrar recursos, los datos suelen procesarse en el mismo servidor en el que se almacenan.

Para el funcionamiento estable de los tres principios y, en consecuencia, la alta eficiencia de almacenamiento y procesamiento de big data, se necesitan nuevas tecnologías de vanguardia, como, por ejemplo, blockchain.

¿Para qué sirven los grandes datos?

El alcance de Big Data está en constante expansión:

— Los grandes datos se pueden utilizar en medicina. Así, es posible establecer un diagnóstico para un paciente no solo en base a los datos del análisis del historial médico, sino también teniendo en cuenta la experiencia de otros médicos, información sobre la situación ecológica del área de residencia del paciente. , y muchos otros factores.
— Las tecnologías Big Data se pueden utilizar para organizar el movimiento de vehículos no tripulados.
— Al procesar grandes cantidades de datos, es posible reconocer rostros en materiales fotográficos y de video.
- Las tecnologías de Big Data pueden ser utilizadas por los minoristas: las empresas comerciales pueden utilizar activamente conjuntos de datos de las redes sociales para configurar de manera efectiva sus campañas publicitarias, que pueden enfocarse al máximo en un segmento de consumidores en particular.
— Esta tecnología se utiliza activamente en la organización de campañas electorales, incluso para el análisis de las preferencias políticas de la sociedad.
— El uso de tecnologías Big Data es relevante para las soluciones de clase de aseguramiento de ingresos (RA), que incluyen herramientas para la detección de inconsistencias y análisis profundo de datos que permiten identificar oportunamente las pérdidas probables o distorsiones de la información que pueden conducir a una disminución en los resultados financieros .
— Los proveedores de telecomunicaciones pueden agregar macrodatos, incluidos datos de geolocalización; a su vez, esta información puede ser de interés comercial para las agencias de publicidad, que pueden utilizarla para mostrar publicidad dirigida y local, así como para minoristas y bancos.
“Los macrodatos pueden desempeñar un papel importante a la hora de decidir si abrir un punto de venta minorista en un lugar determinado en función de los datos sobre la presencia de un poderoso flujo de personas específico.

Así, la aplicación práctica más obvia de la tecnología Big Data se encuentra en el campo del marketing. Gracias al desarrollo de Internet y la proliferación de todo tipo de dispositivos de comunicación, los datos de comportamiento (como el número de llamadas, los hábitos de compra y las compras) están disponibles en tiempo real.

Las tecnologías de big data también se pueden usar de manera efectiva en finanzas, investigación sociológica y muchas otras áreas. Los expertos sostienen que todas estas posibilidades de uso del big data son solo la parte visible del iceberg, ya que estas tecnologías se utilizan en inteligencia y contrainteligencia, en asuntos militares, así como en todo lo que comúnmente se denomina guerra de la información, en mucha mayor medida. .

En términos generales, la secuencia de trabajo con Big Data consiste en recopilar datos, estructurar la información recibida mediante informes y cuadros de mando, y luego formular recomendaciones de acción.

Consideremos brevemente las posibilidades de utilizar tecnologías Big Data en marketing. Como sabe, para un especialista en marketing, la información es la herramienta principal para pronosticar y elaborar estrategias. El análisis de big data se ha utilizado con éxito durante mucho tiempo para determinar el público objetivo, los intereses, la demanda y la actividad de los consumidores. El análisis de big data, en particular, permite mostrar publicidad (basada en el modelo de subasta RTB - Real Time Bidding) solo a aquellos consumidores que están interesados ​​en un producto o servicio.

El uso de Big Data en marketing permite a los empresarios:

- reconozca mejor a sus consumidores, atraiga una audiencia similar en Internet;
- evaluar el grado de satisfacción del cliente;
— comprender si el servicio propuesto cumple con las expectativas y necesidades;
- encontrar e implementar nuevas formas de aumentar la confianza del cliente;
— crear proyectos que estén en demanda, etc.

Por ejemplo, el servicio Google.trends puede indicarle a un especialista en marketing un pronóstico de la actividad de la demanda estacional para un producto en particular, las fluctuaciones y la geografía de los clics. Si compara esta información con las estadísticas recopiladas por el complemento correspondiente en su propio sitio, puede hacer un plan para la distribución del presupuesto publicitario, indicando el mes, la región y otros parámetros.

Según muchos investigadores, es en la segmentación y uso del Big Data donde radica el éxito de la campaña de Trump. El equipo del futuro presidente de los EE. UU. pudo dividir correctamente a la audiencia, comprender sus deseos y mostrar exactamente el mensaje que los votantes quieren ver y escuchar. Entonces, según Irina Belysheva de Data-Centric Alliance, la victoria de Trump se debió en gran medida a un enfoque no estándar del marketing en Internet, que se basó en Big Data, análisis psicoconductual y publicidad personalizada.

Los tecnólogos políticos y especialistas en marketing de Trump utilizaron un modelo matemático especialmente desarrollado, que hizo posible analizar en profundidad los datos de todos los votantes de EE. UU. y sistematizarlos, haciendo una orientación ultraprecisa no solo por las características geográficas, sino también por las intenciones, intereses de los votantes, su psicotipo, características conductuales, etc. Para ello, los mercadólogos han organizado una comunicación personalizada con cada uno de los grupos de ciudadanos en función de sus necesidades, estados de ánimo, opiniones políticas, características psicológicas e incluso el color de la piel, utilizando un mensaje propio para casi todos los casos. votante individual.

En cuanto a Hillary Clinton, usó métodos “probados en el tiempo” basados ​​en datos sociológicos y marketing estándar en su campaña, dividiendo al electorado solo en grupos formalmente homogéneos (hombres, mujeres, afroamericanos, hispanos, pobres, ricos, etc.).

Como resultado, el ganador fue el que apreció el potencial de las nuevas tecnologías y métodos de análisis. En particular, el gasto de campaña de Hillary Clinton fue el doble que el de su oponente:

Datos: Pew Research

Los principales problemas del uso de Big Data

Además del alto costo, uno de los principales factores que dificultan la introducción de Big Data en diversas áreas es el problema de elegir los datos a procesar, es decir, determinar qué datos se deben extraer, almacenar y analizar y cuáles no debe tenerse en cuenta.

Otro problema del Big Data es el ético. En otras palabras, surge una pregunta natural: ¿se puede considerar tal recopilación de datos (especialmente sin el conocimiento del usuario) una violación de los límites de privacidad?

No es ningún secreto que la información almacenada en los motores de búsqueda de Google y Yandex permite a los gigantes de TI mejorar constantemente sus servicios, hacerlos fáciles de usar y crear nuevas aplicaciones interactivas. Para ello, los motores de búsqueda recopilan datos del usuario sobre la actividad del usuario en Internet, direcciones IP, datos de geolocalización, intereses y compras online, datos personales, mensajes de correo electrónico, etc. Todo ello permite mostrar publicidad contextualizada de acuerdo con el comportamiento del usuario en Internet. Al mismo tiempo, generalmente no se solicita el consentimiento de los usuarios para esto, y no se les da la opción de qué información sobre ellos mismos proporcionar. Es decir, por defecto, todo se recopila en Big Data, que luego se almacenará en los servidores de datos de los sitios.

De aquí sigue el siguiente tema importante relacionado con la seguridad del almacenamiento y uso de los datos. Por ejemplo, ¿es segura una plataforma de análisis con la que los consumidores comparten automáticamente sus datos? Además, muchos representantes comerciales notan una escasez de analistas y especialistas en marketing altamente calificados que puedan operar de manera efectiva grandes cantidades de datos y resolver problemas comerciales específicos con su ayuda.

A pesar de todas las dificultades con la implementación de Big Data, la empresa tiene la intención de aumentar las inversiones en esta área. Según un estudio de Gartner, los líderes de las industrias que invierten en Big Data son las empresas de medios, comercio minorista, telecomunicaciones, banca y servicios.

Perspectivas de interacción entre las tecnologías blockchain y Big Data

La integración con Big Data tiene un efecto sinérgico y abre una amplia gama de nuevas oportunidades para las empresas, que incluyen permitir:

— obtener acceso a información detallada sobre las preferencias de los consumidores, a partir de la cual puede crear perfiles analíticos detallados para proveedores, productos y componentes de productos específicos;
- integrar datos detallados sobre transacciones y estadísticas sobre el consumo de determinados grupos de bienes por diversas categorías de usuarios;
- obtener datos analíticos detallados sobre las cadenas de suministro y consumo, controlar las pérdidas de productos durante el transporte (por ejemplo, pérdida de peso debido a la contracción y evaporación de ciertos tipos de mercancías);
– contrarrestar los productos falsificados, aumentar la eficacia de la lucha contra el blanqueo de capitales y el fraude, etc.

El acceso a datos detallados sobre el uso y consumo de bienes desbloqueará en gran medida el potencial de la tecnología Big Data para optimizar los procesos comerciales clave, reducir los riesgos regulatorios y abrir nuevas oportunidades para la monetización y la creación de productos que satisfagan mejor las preferencias actuales de los consumidores.

Como saben, los representantes de las instituciones financieras más grandes ya están mostrando un gran interés en la tecnología blockchain, que incluye, etc. Según Oliver Bussmann, gerente de TI del holding financiero suizo UBS, la tecnología blockchain puede “reducir el tiempo de procesamiento de transacciones de varios días a varios días”. minutos”.

El potencial de análisis de la cadena de bloques utilizando la tecnología Big Data es enorme. La tecnología de registro distribuido garantiza la integridad de la información, así como el almacenamiento confiable y transparente de todo el historial de transacciones. Big Data, a su vez, proporciona nuevas herramientas para el análisis efectivo, la previsión, el modelado económico y, en consecuencia, abre nuevas oportunidades para tomar decisiones de gestión más informadas.

El tándem de blockchain y Big Data se puede utilizar con éxito en el cuidado de la salud. Como sabe, los datos imperfectos e incompletos sobre la salud del paciente a veces aumentan el riesgo de hacer un diagnóstico incorrecto y un tratamiento prescrito incorrectamente. Los datos críticos sobre la salud de los clientes de las instituciones médicas deben ser lo más seguros posible, tener propiedades de inmutabilidad, ser verificables y no estar sujetos a manipulación alguna.

La información en la cadena de bloques cumple con todos los requisitos anteriores y puede servir como fuente de datos confiable y de alta calidad para un análisis en profundidad utilizando nuevas tecnologías de Big Data. Además, al usar blockchain, las instituciones médicas podrían intercambiar datos confiables con compañías de seguros, autoridades judiciales, empleadores, instituciones académicas y otras organizaciones que necesitan información médica.

Big Data y seguridad de la información

En un sentido amplio, la seguridad de la información es la protección de la información y la infraestructura de soporte de impactos negativos accidentales o intencionales de naturaleza natural o artificial.

En el ámbito de la seguridad de la información, el Big Data se enfrenta a los siguientes retos:

— problemas de protección de datos y garantía de su integridad;
— el riesgo de interferencia externa y fuga de información confidencial;
— almacenamiento inadecuado de información confidencial;
- el riesgo de pérdida de información, por ejemplo, debido a las acciones maliciosas de alguien;
— el riesgo de uso indebido de datos personales por parte de terceros, etc.

Uno de los principales problemas del big data que la cadena de bloques está diseñada para resolver radica en el campo de la seguridad de la información. Asegurando el cumplimiento de todos sus principios básicos, la tecnología de registros distribuidos puede garantizar la integridad y confiabilidad de los datos, y debido a la ausencia de un punto único de falla, blockchain hace que los sistemas de información sean estables. La tecnología de registros distribuidos puede ayudar a resolver el problema de la confianza en los datos, así como brindar la posibilidad de un intercambio universal de datos.

La información es un activo valioso, lo que significa que los principales aspectos de la seguridad de la información deben estar a la vanguardia. Para sobrevivir en la competencia, las empresas deben mantenerse al día, lo que significa que no pueden ignorar las oportunidades y ventajas potenciales que contienen la tecnología blockchain y las herramientas Big Data.

Solo el vago no habla de Big data, pero apenas entiende qué es y cómo funciona. Comencemos con la terminología más simple. Hablando en ruso, Big data es una variedad de herramientas, enfoques y métodos para procesar datos estructurados y no estructurados con el fin de utilizarlos para tareas y propósitos específicos.

Los datos no estructurados son información que no tiene una estructura predeterminada o no está organizada en un orden particular.

El término "big data" fue acuñado por el editor de Nature, Clifford Lynch, en 2008 en un número especial sobre el crecimiento explosivo de los volúmenes de información en el mundo. Aunque, por supuesto, el big data en sí ya existía antes. Según los expertos, la mayoría de los flujos de datos de más de 100 GB por día pertenecen a la categoría Big data.

Lea también:

Hoy, este término simple esconde solo dos palabras: almacenamiento y procesamiento de datos.

Big data - en palabras simples

En el mundo moderno, Big data es un fenómeno socioeconómico, que se asocia con el hecho de que han aparecido nuevas oportunidades tecnológicas para analizar una gran cantidad de datos.

Lea también:

Para facilitar la comprensión, imagine un supermercado en el que todos los productos no están en el orden al que está acostumbrado. Pan junto a fruta, puré de tomate junto a una pizza congelada, líquido para encendedores junto a un estante de tampones que lleva aguacate, tofu o setas shiitake, entre otros. Big data pone todo en su lugar y lo ayuda a encontrar leche de nueces, averiguar el costo y la fecha de vencimiento, y también quién, además de usted, compra esa leche y cómo es mejor que la leche de vaca.

Kenneth Cookier: Los grandes datos son mejores datos

Gran tecnología de datos

Se procesan enormes cantidades de datos para que una persona pueda obtener resultados específicos y necesarios para su posterior aplicación efectiva.

Lea también:

De hecho, Big data es un solucionador de problemas y una alternativa a los sistemas tradicionales de gestión de datos.

Técnicas y métodos de análisis aplicables al Big data según McKinsey:

  • colaboración colectiva;

    Mezcla e integración de datos;

    Aprendizaje automático;

    Redes neuronales artificiales;

    Reconocimiento de patrones;

    análisis predictivo;

    modelado de simulación;

    Análisis espacial;

    Análisis estadístico;

  • Visualización de datos analíticos.

La escalabilidad horizontal que permite el procesamiento de datos es el principio básico del procesamiento de big data. Los datos se distribuyen a los nodos informáticos y el procesamiento se produce sin degradación del rendimiento. McKinsey también incluyó sistemas de gestión relacional y Business Intelligence en el contexto de aplicabilidad.

Tecnología:

  • NoSQL;
  • Mapa reducido;
  • hadoop;
  • Soluciones de hardware.

Lea también:

Para big data, existen características definitorias tradicionales desarrolladas por Meta Group en 2001, que se denominan “ tres v»:

  1. Volumen- el valor del volumen físico.
  2. Velocidad- tasa de crecimiento y la necesidad de procesamiento rápido de datos para obtener resultados.
  3. Variedad- la capacidad de procesar simultáneamente diferentes tipos de datos.

Big data: aplicación y oportunidades

Los volúmenes de información digital heterogénea y rápidamente entrante no pueden ser procesados ​​por herramientas tradicionales. El análisis de los datos en sí te permite ver ciertos patrones imperceptibles que una persona no puede ver. Esto nos permite optimizar todas las áreas de nuestras vidas, desde la administración pública hasta la fabricación y las telecomunicaciones.

Por ejemplo, algunas empresas hace unos años protegían a sus clientes del fraude, y cuidar el dinero del cliente es cuidar tu propio dinero.

Susan Atliger: ¿Qué pasa con los grandes datos?

Soluciones basadas en Big data: Sberbank, Beeline y otras empresas

Beeline tiene una gran cantidad de datos sobre suscriptores, que utilizan no solo para trabajar con ellos, sino también para crear productos analíticos, como consultoría externa o análisis de IPTV. Beeline segmentó la base de datos y protegió a los clientes contra el fraude monetario y los virus mediante el uso de HDFS y Apache Spark para el almacenamiento, y Rapidminer y Python para el procesamiento de datos.

Lea también:

O recuerde Sberbank con su antiguo caso llamado AS SAFI. Este es un sistema que analiza fotos para identificar a los clientes del banco y prevenir fraudes. El sistema se introdujo en 2014, el sistema se basa en comparar fotos de la base de datos que llegan desde cámaras web en bastidores gracias a la visión por computadora. La base del sistema es una plataforma biométrica. Gracias a esto, los casos de fraude se redujeron 10 veces.

Grandes datos en el mundo

Para 2020, según las previsiones, la humanidad formará entre 40 y 44 zettabytes de información. Y para 2025 crecerá 10 veces, según el informe The Data Age 2025, elaborado por analistas de IDC. El informe señala que la mayoría de los datos serán generados por las propias empresas, no por los consumidores comunes.

Los analistas del estudio creen que los datos se convertirán en un activo vital y la seguridad, una base fundamental en la vida. Además, los autores del trabajo confían en que la tecnología cambiará el panorama económico y el usuario promedio se comunicará con los dispositivos conectados unas 4800 veces al día.

Gran mercado de datos en Rusia

Por lo general, los grandes datos provienen de tres fuentes:

  • Internet (redes sociales, foros, blogs, medios y otros sitios);
  • Archivos corporativos de documentos;
  • Indicaciones de sensores, instrumentos y otros dispositivos.

Big data en los bancos

Además del sistema descrito anteriormente, en la estrategia de Sberbank para 2014-2018. habla sobre la importancia de analizar conjuntos de superdatos para un servicio al cliente de calidad, gestión de riesgos y optimización de costos. El banco ahora usa Big Data para administrar riesgos, combatir el fraude, segmentar y evaluar la solvencia de los clientes, administrar personal, predecir colas en sucursales, calcular bonos para empleados y otras tareas.

VTB24 utiliza big data para segmentar y administrar la rotación de clientes, generar estados financieros y analizar reseñas en redes sociales y foros. Para ello, utiliza las soluciones Teradata, SAS Visual Analytics y SAS Marketing Optimizer.

El término Big Data generalmente se refiere a cualquier cantidad de datos estructurados, semiestructurados y no estructurados. Sin embargo, el segundo y el tercero pueden y deben ser ordenados para el posterior análisis de la información. Big data no equivale a ningún volumen real, pero hablando de Big Data en la mayoría de los casos, nos referimos a terabytes, petabytes e incluso extrabytes de información. Esta cantidad de datos puede acumularse en cualquier negocio a lo largo del tiempo o, en los casos en que una empresa necesite recibir mucha información, en tiempo real.

Análisis de grandes datos

Hablando del análisis de Big Data, en primer lugar, nos referimos a la recopilación y almacenamiento de información de diversas fuentes. Por ejemplo, datos sobre clientes que realizaron compras, sus características, información sobre campañas publicitarias lanzadas y una evaluación de su efectividad, datos del centro de contacto. Sí, toda esta información se puede comparar y analizar. Es posible y necesario. Pero para ello necesitas montar un sistema que te permita recopilar y transformar información sin distorsionar la información, almacenarla y, finalmente, visualizarla. De acuerdo, con big data, las tablas impresas en varios miles de páginas no ayudarán mucho a la hora de tomar decisiones empresariales.

1. La llegada del big data

La mayoría de los servicios que recopilan información sobre las acciones del usuario tienen la capacidad de exportar. Para que ingresen a la empresa de forma estructurada, se utilizan varios, por ejemplo, Alteryx. Este software le permite recibir información automáticamente, procesarla y, lo que es más importante, convertirla en la forma y el formato deseados sin distorsionarla.

2. Almacenamiento y procesamiento de big data

Casi siempre, al recolectar grandes cantidades de información, surge el problema de su almacenamiento. De todas las plataformas que estudiamos, nuestra empresa prefiere Vertica. A diferencia de otros productos, Vertica es capaz de "dar" rápidamente la información almacenada en él. Las desventajas incluyen una grabación larga, pero durante el análisis de big data, la velocidad de retorno pasa a primer plano. Por ejemplo, si hablamos de compilar usando un petabyte de información, la velocidad de carga es una de las características más importantes.

3. Visualización de Big Data

Y finalmente, la tercera etapa del análisis de grandes cantidades de datos es . Esto requiere una plataforma que sea capaz de reflejar visualmente toda la información recibida en una forma conveniente. En nuestra opinión, solo un producto de software, Tableau, puede hacer frente a la tarea. Sin duda, una de las mejores soluciones de la actualidad que puede mostrar visualmente cualquier información, convirtiendo el trabajo de la empresa en un modelo tridimensional, reuniendo las acciones de todos los departamentos en una única cadena interdependiente (puedes leer más sobre las capacidades de Tableau).

En lugar de un resumen, notamos que casi cualquier empresa ahora puede generar su propio Big Data. El análisis de big data ya no es un proceso complejo y costoso. Ahora se requiere que la gerencia de la empresa formule preguntas correctamente a la información recopilada, mientras que prácticamente no hay áreas grises invisibles.

Descargar Tableau

Descargue la versión completa de Tableau Desktop GRATIS durante 14 días y obtenga materiales de capacitación de inteligencia comercial de Tableau como REGALO

Cuota