빅데이터 분석이란? 빅 데이터는 어떻게 사용됩니까? 빅 데이터 기술에 관한 최고의 책

2011년에 생성 및 복제된 전 세계 데이터의 총량은 약 1.8제타바이트(1.8조 기가바이트)로 2006년에 생성된 데이터의 약 9배가 될 것으로 예측되었습니다.

더 복잡한 정의

그럼에도` 빅 데이터` 방대한 양의 정보를 분석하는 것 이상을 포함합니다. 문제는 조직이 엄청난 양의 데이터를 생성한다는 것이 아니라 대부분이 웹 로그, 비디오, 텍스트 문서, 기계 코드 또는 예를 들어, 지리 공간 데이터 . 이 모든 것은 때로는 조직 외부의 다양한 저장소에 저장됩니다. 결과적으로 기업은 방대한 양의 데이터에 액세스할 수 있으며 이러한 데이터 간의 관계를 설정하고 의미 있는 결론을 도출하는 데 필요한 도구가 없습니다. 여기에 더하여 이제 데이터가 점점 더 자주 업데이트되고 기존의 정보 분석 방법으로는 지속적으로 업데이트되는 엄청난 양의 데이터를 따라잡을 수 없는 상황이 발생하여 궁극적으로 기술의 기반이 마련됩니다. 빅 데이터.

최고의 정의

본질적으로 개념 빅 데이터작업 효율성을 높이고 새로운 제품을 만들고 경쟁력을 높이기 위해 매우 자주 업데이트되고 다른 소스에 있는 방대한 양과 다양한 구성의 정보를 사용하는 작업이 포함됩니다. 컨설팅 회사 Forrester는 다음과 같이 간결하게 설명합니다. ` 빅 데이터실용성의 극한에서 데이터에서 의미를 추출하는 기술과 기술을 결합합니다.

비즈니스 인텔리전스와 빅 데이터의 차이는 얼마나 됩니까?

Fujitsu Australia의 최고 마케팅 책임자이자 최고 기술 책임자인 Craig Bathy는 비즈니스 분석은 주어진 시간 동안 비즈니스가 달성한 결과를 분석하는 기술적인 프로세스이며 처리 속도는 빅 데이터분석을 예측하고 미래에 대한 비즈니스 권장 사항을 제공할 수 있습니다. 또한 빅 데이터 기술을 사용하면 비즈니스 인텔리전스 도구보다 더 많은 유형의 데이터를 분석할 수 있으므로 구조화된 스토리지에만 집중할 수 있습니다.

O "Reilly Radar의 Matt Slocum은 빅 데이터및 비즈니스 인텔리전스는 동일한 목표(질문에 대한 답변 찾기)를 가지고 있지만 세 가지 측면에서 서로 다릅니다.

빅 데이터는 비즈니스 인텔리전스보다 더 많은 양의 정보를 처리하도록 설계되었으며 이는 물론 기존의 빅 데이터 정의에 맞습니다.
빅 데이터는 더 빠르고 빠르게 변화하는 정보를 처리하도록 설계되었으며, 이는 깊은 탐색과 상호 작용을 의미합니다. 어떤 경우에는 결과가 웹 페이지 로드보다 빠르게 생성됩니다.
빅 데이터는 비정형 데이터를 처리하도록 설계되었으며, 이 데이터를 수집하고 저장할 수 있게 된 이후에야 사용 방법을 탐색하기 시작했으며 이러한 배열에 포함된 추세를 더 쉽게 찾을 수 있도록 알고리즘과 대화가 필요합니다.

Oracle에서 발행한 Oracle Information Architecture: An Architect's Guide to Big Data 백서에 따르면 비즈니스 분석을 수행할 때와 빅 데이터로 작업할 때 정보에 접근하는 방식이 다릅니다.

빅 데이터로 작업하는 것은 알려진 값을 단순히 더하면 결과가 나오는 일반적인 비즈니스 인텔리전스 프로세스와 다릅니다. 빅데이터 작업 시 순차적 모델링을 통해 정리하는 과정에서 결과 도출 , 그리고 다음 것이 앞으로 제시됩니다. 이 과정에서 연구자는 시각적 의미를 해석하거나 대화형 지식 기반 쿼리를 만들거나 원하는 결과를 생성할 수 있는 적응형 '머신 러닝' 알고리즘을 개발해야 합니다. 더욱이 그러한 알고리즘의 수명은 매우 짧을 수 있습니다.

빅데이터 분석기법

통계 및 컴퓨터 과학(예: 기계 학습)에서 차용한 도구를 기반으로 하는 데이터 배열을 분석하는 방법에는 여러 가지가 있습니다. 목록이 완전하다고 주장하지는 않지만 다양한 산업 분야에서 가장 널리 사용되는 접근 방식을 반영합니다. 동시에 연구자들은 새로운 방법을 만들고 기존 방법을 개선하기 위해 계속 노력하고 있음을 이해해야 합니다. 또한 나열된 기술 중 일부는 반드시 대용량 데이터에만 적용할 수 있는 것은 아니며 더 작은 배열(예: A/B 테스트, 회귀 분석)에 성공적으로 사용할 수 있습니다. 물론 어레이가 더 방대하고 다양하게 분석될수록 출력에서 더 정확하고 관련성 있는 데이터를 얻을 수 있습니다.

A/B 테스트. 대조 샘플을 다른 샘플과 차례로 비교하는 기술입니다. 따라서 예를 들어 마케팅 제안에 대한 최상의 소비자 반응을 달성하기 위한 최적의 지표 조합을 식별하는 것이 가능합니다. 빅 데이터엄청난 수의 반복을 수행하여 통계적으로 유의미한 결과를 얻을 수 있습니다.

연관 규칙 학습. 관계를 식별하기 위한 일련의 기술, 즉 큰 데이터 배열의 변수 간의 연결 규칙. 에서 사용 데이터 수집.

분류. 특정 시장 부문(구매 결정, 이탈, 소비량 등)에서 소비자 행동을 예측할 수 있는 일련의 기술. 에서 사용 데이터 수집.

클러스터 분석. 사전에 알려지지 않은 공통의 특징을 식별하여 개체를 그룹으로 분류하는 통계적 방법입니다. 에서 사용 데이터 수집.

크라우드소싱. 많은 소스에서 데이터를 수집하는 기술입니다.

데이터 융합 및 데이터 통합. 소셜 네트워크 사용자의 댓글을 분석하고 실시간 판매 결과와 비교할 수 있는 일련의 기술입니다.

데이터 수집. 판촉된 제품 또는 서비스에 대해 가장 민감한 소비자 범주를 결정하고 가장 성공적인 직원의 특성을 식별하며 소비자의 행동 모델을 예측할 수 있게 해주는 일련의 기술입니다.

앙상블 학습. 이 방법은 예측 모델을 많이 사용하므로 예측 품질이 향상됩니다.

유전 알고리즘. 이 기술에서 가능한 솔루션은 결합 및 돌연변이가 가능한 '염색체'로 표시됩니다. 자연 진화의 과정에서 가장 적합한 개체가 살아남습니다.

기계 학습. 경험적 데이터 분석을 기반으로 자가 학습 알고리즘을 만드는 것을 목표로 하는 컴퓨터 과학(역사적으로 '인공 지능'이라는 이름이 할당됨)의 방향.

자연어 처리 (NLP). 컴퓨터 과학 및 언어학에서 차용한 일련의 자연어 인식 기술입니다.

네트워크 분석. 네트워크에서 노드 간의 링크를 분석하기 위한 일련의 기술입니다. 소셜 네트워크와 관련하여 개별 사용자, 회사, 커뮤니티 등의 관계를 분석할 수 있습니다.

최적화. 하나 이상의 지표를 개선하기 위해 복잡한 시스템과 프로세스를 재설계하는 일련의 수치적 방법. 시장에 출시된 제품군의 구성, 투자 분석 등의 전략적 의사 결정을 지원합니다.

패턴 인식. 소비자의 행동 모델을 예측하기 위한 자가 학습 요소가 포함된 일련의 기술입니다.

예측 모델링. 이벤트 개발을 위해 미리 결정된 가능한 시나리오의 수학적 모델을 생성할 수 있게 해주는 일련의 기술입니다. 예를 들어, 가입자가 공급자를 변경하도록 하는 가능한 조건에 대한 CRM 시스템 데이터베이스의 분석입니다.

회귀. 종속변수의 변화와 하나 이상의 독립변수 사이의 패턴을 식별하기 위한 일련의 통계적 방법. 예측 및 예측에 자주 사용됩니다. 데이터 마이닝에 사용됩니다.

감정 분석. 소비자 감정을 평가하는 기술은 인간의 자연어 인식 기술을 기반으로 합니다. 이를 통해 일반 정보 흐름에서 관심 주제(예: 소비자 제품)와 관련된 메시지를 분리할 수 있습니다. 다음으로 판단의 극성(긍정 또는 부정), 감정의 정도 등을 평가한다.

신호 처리. 무선 공학에서 차용한 일련의 기술로 잡음의 배경과 추가 분석에 대해 신호를 인식하는 것을 목표로 합니다.

공간 분석. 공간 데이터(지형 토폴로지, 지리 좌표, 물체의 기하학)를 분석하기 위해 통계에서 부분적으로 차용한 일련의 기술. 원천 빅 데이터이 경우 지리 정보 시스템(GIS)이 자주 작동합니다.

통계. 설문지 설계 및 실험 수행을 포함하여 데이터를 수집, 구성 및 해석하는 과학. 통계적 방법은 종종 특정 이벤트 간의 관계에 대한 가치 판단을 내리는 데 사용됩니다.

지도 학습. 분석된 데이터 세트에서 기능적 관계를 식별할 수 있도록 하는 기계 학습 기술을 기반으로 하는 일련의 기술입니다.

시뮬레이션. 복잡한 시스템의 동작 모델링은 계획할 때 다양한 시나리오를 예측, 예측 및 해결하는 데 자주 사용됩니다.

시계열 분석. 시간이 지남에 따라 반복되는 데이터 시퀀스를 분석하기 위해 통계 및 디지털 신호 처리에서 차용한 일련의 방법. 한 가지 분명한 용도는 주식 시장이나 환자의 발생률을 추적하는 것입니다.

비지도 학습. 분석된 데이터 세트에서 숨겨진 기능 관계를 식별할 수 있도록 하는 기계 학습 기술을 기반으로 하는 일련의 기술입니다. 와 공통된 기능을 가지고 있습니다. 클러스터 분석.

심상. 해석을 단순화하고 결과의 이해를 용이하게 하기 위해 빅데이터 분석 결과를 도표 또는 애니메이션 이미지 형태로 그래픽으로 표현하는 방법.

빅데이터 분석 결과를 시각적으로 표현하는 것은 해석에 있어 근본적으로 중요합니다. 인간의 인식이 제한적이라는 것은 비밀이 아니며 과학자들은 이미지, 다이어그램 또는 애니메이션의 형태로 데이터를 표시하는 현대적인 방법을 개선하는 분야에서 계속 연구를 수행하고 있습니다.

분석 도구

2011년에는 이전 하위 섹션에 나열된 접근 방식 중 일부 또는 이들의 특정 조합을 통해 빅 데이터 작업을 위한 분석 엔진을 실행할 수 있습니다. 무료 또는 비교적 저렴한 개방형 빅 데이터 분석 시스템 중에서 다음을 권장할 수 있습니다.

Revolution Analytics(수학적 통계를 위한 R 언어 기반).

이 목록에서 특히 흥미로운 것은 지난 5년 동안 대부분의 주식 추적기에서 데이터 분석기로 테스트한 오픈 소스 소프트웨어인 Apache Hadoop입니다. 야후가 오픈 소스 커뮤니티에 하둡 코드를 공개하자마자 IT 업계에서 하둡 기반 제품을 만드는 완전히 새로운 트렌드가 빠르게 나타났습니다. 거의 모든 최신 분석 도구 빅 데이터 Hadoop과의 통합을 제공합니다. 그들의 개발자는 신생 기업이자 잘 알려진 글로벌 기업입니다.

빅 데이터 관리 솔루션 시장

빅데이터 플랫폼(BDP, Big Data Platform)은 디지털 호딩을 방지하기 위한 수단입니다.

분석 능력 빅 데이터, 구어체로 빅 데이터라고 하는 데이터는 유익하고 모호하지 않게 인식됩니다. 하지만 정말 그렇습니까? 데이터의 무제한 축적은 무엇을 초래할 수 있습니까? 사람과 관련하여 국내 심리학자들이 병리학 적 저장, syllogomania 또는 비유적으로 "Plyushkin 증후군"이라고 부르는 것과 가장 비슷합니다. 영어로 모든 것을 수집하려는 악의적 열정을 호딩(hording)이라고 합니다. 정신 질환의 분류에 따르면 호딩은 정신 장애로 분류됩니다. 디지털 시대에 디지털(Digital Hoarding)이 기존의 재료 코드에 추가되어 개인은 물론 기업 전체와 조직() 모두가 고통을 겪을 수 있습니다.

세계와 러시아 시장

빅 데이터 환경 - 주요 제공업체

수집, 처리, 관리 및 분석 도구에 대한 관심 빅 데이터거의 모든 주요 IT 회사를 보여 주었고 이는 매우 자연 스럽습니다. 첫째, 자신의 사업에서 이러한 현상을 직접 경험하고, 둘째, 빅 데이터새로운 틈새 시장을 개발하고 새로운 고객을 유치할 수 있는 훌륭한 기회를 제공합니다.

엄청난 양의 데이터를 처리하는 사업을 하는 많은 스타트업이 시장에 등장했습니다. 그들 중 일부는 Amazon과 같은 대기업에서 제공하는 기성 클라우드 인프라를 사용합니다.

산업에서 빅데이터의 이론과 실천

개발의 역사

2017

TmaxSoft 예측: 빅 데이터의 다음 "파동"에는 DBMS 현대화가 필요합니다.

기업은 축적하는 엄청난 양의 데이터에 비즈니스와 고객에 대한 중요한 정보가 포함되어 있음을 알고 있습니다. 회사가 이 정보를 성공적으로 적용할 수 있다면 경쟁업체보다 상당한 이점을 갖게 될 것이며 경쟁업체보다 더 나은 제품과 서비스를 제공할 수 있을 것입니다. 그러나 많은 조직에서 여전히 효과적으로 사용하지 못하고 있습니다. 빅 데이터레거시 IT 인프라가 필요한 저장 용량, 데이터 교환 프로세스, 유틸리티 및 애플리케이션을 제공할 수 없다는 사실 때문에 TmaxSoft는 많은 비정형 데이터를 처리 및 분석하여 귀중한 정보를 추출하는 데 필요한 응용 프로그램을 제공합니다.

또한, 계속 증가하는 데이터 볼륨을 분석하는 데 필요한 처리 능력을 높이려면 조직의 레거시 IT 인프라에 상당한 투자와 새로운 애플리케이션 및 서비스를 개발하는 데 사용할 수 있는 추가 유지 관리 리소스가 필요할 수 있습니다.

2015년 2월 5일 백악관은 기업들이 " 빅 데이터다른 구매자에 대해 다른 가격을 설정하는 것 - "가격 차별" 또는 "차등 가격 책정"(개인화된 가격 책정)으로 알려진 관행. 보고서는 판매자와 구매자 모두에게 "빅 데이터"의 이점을 설명하고 빅 데이터와 차등 가격의 도래로 인해 제기되는 많은 문제가 기존의 차별 금지법 및 규정 내에서 해결될 수 있다고 결론지었습니다. .

보고서는 현재 기업들이 개인화 마케팅과 차별화된 가격 책정이라는 맥락에서 빅데이터를 어떻게 활용하고 있는지에 대한 일화적인 증거만 있다고 지적했다. 이 정보는 판매자가 세 가지 범주로 나눌 수 있는 가격 책정 방법을 사용함을 보여줍니다.

수요곡선 연구;
인구 통계를 기반으로 한 조정 및 차별화된 가격 책정 그리고
타겟 행동 마케팅(행동 타겟팅 - 행동 타겟팅) 및 개별화된 가격 책정.

수요곡선 연구: 수요를 이해하고 소비자 행동을 연구하기 위해 마케터는 종종 이 영역에서 실험을 수행하며, 그 동안 고객은 두 가지 가능한 가격 범주 중 하나를 무작위로 할당받습니다. "기술적으로 이러한 실험은 모든 고객이 더 높은 가격을 '칠' 기회가 동일하다는 의미에서 '비차별적'일지라도 고객에 대해 다른 가격을 초래하기 때문에 차등 가격 책정의 한 형태입니다."

조타: 특정 인구 집단에 속한 소비자에게 제품을 제시하는 관행입니다. 예를 들어, 컴퓨터 회사 웹사이트는 고객이 제공하는 정보에 따라 여러 유형의 고객에게 동일한 랩톱을 다양한 가격으로 제공할 수 있습니다(예: 사용자가 정부 기관, 과학 또는 상업 기관의 대표인지 또는 개인) 또는 지리적 위치(예: 컴퓨터의 IP 주소로 결정).

표적 행동 마케팅 및 맞춤형 가격 책정: 이 경우 구매자의 개인정보는 특정 상품의 타겟 광고 및 개별 가격 책정에 활용됩니다. 예를 들어, 온라인 광고주는 광고 네트워크에서 수집한 데이터와 인터넷에서의 사용자 활동에 대한 제3자 쿠키를 사용하여 광고 자료를 타겟팅합니다. 한편으로 이 접근 방식은 소비자가 관심 있는 상품 및 서비스에 대한 광고를 수신할 수 있도록 하지만 특정 유형의 개인 데이터(예: 의료 및 재정 문제) 동의 없이 만났습니다.

표적 행동 마케팅이 널리 퍼져 있지만 온라인 환경에서 개별화된 가격 책정에 대한 증거는 상대적으로 거의 없습니다. 보고서는 이것이 방법이 아직 개발 중이거나 기업이 개별 가격 책정을 채택하는 것을 꺼려하기 때문일 수 있으며 소비자의 반발을 두려워할 수 있다고 추측합니다.

보고서 작성자는 "개인 소비자의 경우 빅 데이터의 사용은 의심할 여지 없이 잠재적인 수익과 위험 모두와 관련이 있다"고 믿습니다. 보고서는 빅데이터를 사용할 때 투명성과 차별의 문제가 있음을 인정하면서도 기존의 차별금지법과 소비자보호법으로 충분히 해결할 수 있다고 주장한다. 그러나 보고서는 기업이 기밀 정보를 불투명한 방식으로 사용하거나 기존 규제 프레임워크에서 다루지 않는 방식으로 사용할 때 "지속적인 조사"의 필요성을 강조합니다.

이 보고서는 인터넷에서 "빅 데이터"의 사용과 차별적인 가격 책정, 그리고 그로 인한 미국 소비자의 결과를 연구하려는 백악관의 노력의 연속입니다. 백악관 빅데이터 워킹그룹은 2014년 5월 이 문제에 대한 보고서를 발표한 것으로 알려졌다. 연방거래위원회(FTC)는 2014년 9월 빅데이터 사용과 관련된 차별에 관한 워크숍에서도 이러한 문제를 고려했습니다.

2014

Gartner, 빅 데이터에 대한 이해

Gartner의 2014년 가을 정책 브리핑은 CIO 사이에서 빅 데이터에 대한 여러 일반적인 신화를 나열하고 폭로합니다.

모두가 우리보다 빠르게 빅 데이터 처리 시스템을 구현합니다.

빅 데이터 기술에 대한 관심은 사상 최고로, 올해 Gartner 분석가가 조사한 조직의 73%가 이미 투자했거나 그렇게 할 계획입니다. 그러나 이러한 이니셔티브의 대부분은 아직 초기 단계에 있으며 설문 조사 대상 중 13%만이 이미 그러한 솔루션을 구현했습니다. 가장 어려운 부분은 빅 데이터를 수익화하는 방법을 파악하고 어디서부터 시작할지 결정하는 것입니다. 많은 조직이 새로운 기술을 특정 비즈니스 프로세스에 연결할 수 없기 때문에 파일럿 단계에 갇히게 됩니다.

우리는 데이터가 너무 많아서 작은 오류에 대해 걱정할 필요가 없습니다.

일부 CIO는 데이터의 작은 결함이 방대한 양의 분석 결과에 영향을 미치지 않는다고 생각합니다. 데이터가 많을 때 각 오류가 개별적으로 결과에 미치는 영향은 적지만 오류 자체는 더 커진다고 분석가들은 말합니다. 또한 분석된 데이터의 대부분은 구조나 출처를 알 수 없는 외부 데이터이므로 오류 가능성이 높아집니다. 따라서 빅 데이터의 세계에서는 실제로 품질이 훨씬 더 중요합니다.

빅 데이터 기술은 데이터 통합의 필요성을 제거합니다.

빅 데이터는 데이터를 읽을 때 자동 스키마 생성을 통해 원래 형식으로 데이터를 처리할 수 있는 기능을 약속합니다. 이를 통해 여러 데이터 모델을 사용하여 동일한 소스의 정보를 분석할 수 있을 것으로 믿어집니다. 많은 사람들은 이것이 최종 사용자가 자신의 방식으로 모든 데이터 세트를 해석할 수 있게 해줄 것이라고 믿습니다. 실제로 대부분의 사용자는 데이터가 적절하게 형식화되고 정보 무결성 수준과 사용 사례와 어떻게 관련되어야 하는지에 대한 동의가 있는 기존의 즉시 사용 가능한 스키마를 원합니다.

데이터 웨어하우스는 복잡한 분석에 사용하기에 적합하지 않습니다.

많은 정보 관리 시스템 관리자는 복잡한 분석 시스템이 새로운 유형의 데이터를 사용한다는 점을 감안할 때 데이터 웨어하우스를 만드는 데 시간을 소비하는 것이 의미가 없다고 생각합니다. 실제로 많은 정교한 분석 시스템이 데이터 웨어하우스의 정보를 사용합니다. 다른 경우에는 빅 데이터 처리 시스템에서 분석을 위해 새로운 데이터 유형을 추가로 준비해야 합니다. 데이터의 적합성, 집계 원칙 및 필요한 품질 수준에 대해 결정을 내려야 합니다. 이러한 준비는 창고 외부에서 수행할 수 있습니다.

데이터 웨어하우스는 데이터 레이크로 대체될 것입니다.

실제로 공급업체는 데이터 레이크를 스토리지를 대체하거나 분석 인프라의 중요한 요소로 포지셔닝하여 고객을 오도합니다. 데이터 레이크의 기본 기술에는 데이터 웨어하우스에서 볼 수 있는 기능의 성숙도와 폭이 부족합니다. 따라서 데이터 관리를 담당하는 리더는 호수가 같은 수준의 개발에 도달할 때까지 기다려야 한다고 Gartner는 말합니다.

Accenture: 빅데이터 시스템을 구현한 사람들의 92%가 결과에 만족합니다.

빅 데이터의 주요 이점 중 응답자는 다음과 같이 말했습니다.

"새로운 수입원 찾기"(56%),
"고객 경험 개선"(51%),
"신제품 및 서비스"(50%) 및
"신규 고객의 유입과 기존 고객의 충성도 유지"(47%).

새로운 기술을 도입할 때 많은 기업이 전통적인 문제에 직면했습니다. 51%는 보안, 47%는 예산, 41%는 필요한 인력 부족, 35%는 기존 시스템과의 통합 어려움을 걸림돌로 꼽았다. 설문에 응한 거의 모든 기업(약 91%)이 인력 부족 문제를 곧 해결하고 빅데이터 전문가를 고용할 계획입니다.

기업들은 빅 데이터 기술의 미래에 대해 낙관적입니다. 89%는 인터넷만큼 비즈니스를 변화시킬 것이라고 믿습니다. 응답자의 79%는 빅데이터를 다루지 않는 기업은 경쟁력을 잃게 될 것이라고 말했습니다.

그러나 응답자들은 정확히 무엇을 빅데이터로 간주해야 하는지에 대해 동의하지 않았습니다. 응답자의 65%는 이것이 "대형 데이터 파일"이라고 믿고, 60%는 이것이 "고급 분석 및 분석"이라고 확신하고, 50%는 이것이 "데이터 시각화 도구"라고 생각합니다.

마드리드는 빅 데이터 관리에 1,470만 유로를 지출합니다.

2014년 7월, 마드리드가 도시 기반 시설을 관리하기 위해 빅 데이터 기술을 사용할 것이라는 사실이 알려졌습니다. 프로젝트 비용은 1,470만 유로이며, 구현될 솔루션은 빅데이터 분석 및 관리 기술을 기반으로 한다. 그들의 도움으로 시 행정부는 각 서비스 제공자와의 작업을 관리하고 서비스 수준에 따라 그에 따라 비용을 지불합니다.

우리는 거리, 조명, 관개, 녹지 상태를 모니터링하고 영토를 청소하고 쓰레기를 제거하고 처리하는 행정부 계약자에 대해 이야기하고 있습니다. 프로젝트 과정에서 특별히 지정된 검사관을 위해 300개의 도시 서비스 핵심 성과 지표가 개발되었으며 이를 기반으로 매일 150,000개의 다양한 점검 및 측정이 수행됩니다. 또한 이 도시는 Madrid iINTeliente(MiNT) - Smarter Madrid라는 혁신적인 기술 플랫폼을 사용하기 시작할 것입니다.

2013

전문가: 빅데이터를 위한 패션의 정점

예외 없이 데이터 관리 시장의 모든 벤더는 현재 빅 데이터 관리를 위한 기술을 개발하고 있습니다. 이 새로운 기술 동향은 전문가 커뮤니티, 개발자 및 산업 분석가 및 이러한 솔루션의 잠재적 소비자에 의해 적극적으로 논의됩니다.

Datashift는 2013년 1월 현재 " 빅 데이터"상상할 수 있는 모든 치수를 초과했습니다. Datashift는 소셜 네트워크에서 빅 데이터에 대한 언급 수를 분석한 후 2012년에 이 용어가 전 세계 약 100만 명의 다른 작성자가 작성한 게시물에서 약 20억 번 사용된 것으로 계산했습니다. 이는 시간당 260개의 게시물에 해당하며 시간당 최대 멘션은 3070개입니다.

Gartner: CIO는 1초마다 빅 데이터에 돈을 쓸 준비가 되어 있습니다.

2013년에 빅 데이터 기술에 대한 몇 년간의 실험과 첫 번째 구현 후에 이러한 솔루션의 적응이 크게 증가할 것이라고 Gartner는 예측합니다. 연구원들이 전 세계 IT 리더들을 대상으로 설문조사를 실시한 결과 설문 응답자의 42%가 이미 빅데이터 기술에 투자했거나 내년에 투자할 계획인 것으로 나타났습니다(2013년 3월 데이터).

기업은 처리 기술에 돈을 써야 합니다. 빅 데이터정보 환경이 빠르게 변화함에 따라 정보 처리에 대한 새로운 접근 방식이 필요합니다. 많은 회사에서 빅 데이터가 중요하다는 것을 이미 인식하고 있으며 빅 데이터를 사용하면 기존의 정보 소스 및 처리 방법으로는 얻을 수 없었던 이점을 얻을 수 있습니다. 또한 미디어에서 '빅 데이터'라는 주제가 끊임없이 과장되면서 관련 기술에 대한 관심이 높아지고 있습니다.

Gartner의 부사장인 Frank Buytendijk는 빅 데이터 개발에서 경쟁업체에 뒤처지는 것을 우려하는 기업이 있기 때문에 기업에 열정을 자제할 것을 촉구하기도 했습니다.

그는 “걱정할 필요가 없다. 빅데이터 기술을 기반으로 아이디어를 실현할 가능성은 사실상 무궁무진하다”고 말했다.

Gartner는 2015년까지 글로벌 1000대 기업 중 20%가 "정보 인프라"에 전략적 초점을 맞출 것으로 예측합니다.

빅 데이터 처리 기술이 가져올 새로운 기회를 예상하여 많은 조직에서 이미 다양한 종류의 정보를 수집하고 저장하는 프로세스를 구성하고 있습니다.

교육 기관 및 정부 기관 및 업계 기업의 경우 비즈니스 혁신의 가장 큰 잠재력은 축적된 데이터와 소위 다크 데이터(문자 그대로 - "다크 데이터")의 조합에 있으며, 후자는 이메일 메시지, 멀티미디어를 포함합니다. 및 기타 유사한 콘텐츠. Gartner에 따르면 다양한 정보 소스를 다루는 방법을 배우는 사람들이 데이터 경쟁에서 승리할 것입니다.

Cisco 여론 조사: 빅 데이터는 IT 예산을 늘리는 데 도움이 될 것입니다.

Cisco Connected World Technology Report(2013년 봄)는 독립 분석 회사 InsightExpress가 18개국에서 1,800명의 대학생과 18세에서 30세 사이의 동일한 수의 젊은 전문가를 대상으로 설문 조사를 실시했습니다. IT 부서의 프로젝트 수행 준비 정도를 알아보기 위해 설문 조사를 실시했습니다. 빅 데이터관련 과제, 기술적 결함 및 그러한 프로젝트의 전략적 가치에 대한 이해를 얻습니다.

대부분의 회사는 데이터를 수집, 기록 및 분석합니다. 그러나 보고서에 따르면 많은 기업이 빅 데이터와 관련하여 다양한 복잡한 비즈니스 및 정보 기술 문제에 직면해 있습니다. 예를 들어, 설문 응답자의 60%는 빅 데이터 솔루션이 의사 결정 프로세스를 개선하고 경쟁력을 높일 수 있다고 인정했지만, 28%만이 축적된 정보로부터 이미 실질적인 전략적 이점을 얻고 있다고 말했습니다.

설문에 응한 CIO의 절반 이상이 빅 데이터 프로젝트가 기술, 직원 및 전문 기술에 대한 수요가 증가함에 따라 조직의 IT 예산을 늘리는 데 도움이 될 것이라고 믿습니다. 동시에 응답자의 절반 이상이 이러한 프로젝트가 이미 2012년에 회사의 IT 예산을 증가시킬 것으로 예상합니다. 57%는 빅 데이터가 향후 3년 동안 예산을 늘릴 것이라고 확신합니다.

응답자의 81%는 모든(또는 적어도 일부) 빅 데이터 프로젝트에 클라우드 컴퓨팅을 사용해야 한다고 말했습니다. 따라서 클라우드 기술의 확산은 빅 데이터 솔루션의 배포 속도와 이러한 솔루션의 비즈니스 가치에 영향을 미칠 수 있습니다.

기업은 정형 및 비정형 데이터 유형을 모두 수집하고 사용합니다. 다음은 설문 참여자가 데이터를 받는 소스입니다(Cisco Connected World Technology Report).

CIO의 거의 절반(48%)이 향후 2년 동안 네트워크 부하가 두 배로 증가할 것으로 예측합니다. (이는 설문조사 응답자의 68%가 이 관점을 갖고 있는 중국과 60%가 독일에서 특히 그렇습니다.) 응답자의 23%는 네트워크 트래픽이 향후 2년 동안 3배 증가할 것으로 예상합니다. 동시에 응답자의 40%만이 네트워크 트래픽의 폭발적인 증가에 대한 준비가 되어 있다고 밝혔습니다.

설문 조사 응답자의 27%는 더 나은 IT 정책과 정보 보안 조치가 필요하다고 인정했습니다.

21%는 더 많은 대역폭이 필요합니다.

빅 데이터는 IT 부서가 가치를 창출하고 사업부와 긴밀한 관계를 구축하여 수익을 늘리고 회사의 수익을 강화할 수 있는 새로운 기회를 제공합니다. 빅 데이터 프로젝트는 IT 부서를 비즈니스 부서의 전략적 파트너로 만듭니다.

응답자의 73%에 따르면 빅 데이터 전략을 구현하는 주요 엔진이 될 IT 부서입니다. 동시에 응답자들은 다른 부서도 이 전략의 구현에 참여할 것이라고 믿습니다. 우선, 이는 재무(응답자의 24%), 연구 개발(20%), 운영(20%), 엔지니어링(19%), 마케팅(15%) 및 영업(15%) 부서와 관련이 있습니다. 14%).

Gartner: 빅 데이터에는 수백만 개의 새로운 일자리가 필요합니다

글로벌 IT 지출은 2013년까지 37억 달러에 이를 것이며, 이는 2012년 IT 지출보다 3.8% 증가한 수치입니다(연말 예측은 36억 달러). 분절 빅 데이터 Gartner 보고서에 따르면 (빅 데이터)는 훨씬 더 빠른 속도로 진화할 것입니다.

2015년까지 빅 데이터를 제공하기 위해 440만 개의 IT 일자리가 생성될 것이며 그 중 190만 개는 . 더욱이 그러한 각 직업은 3개의 추가 비IT 직업을 생성하여 미국에서만 향후 4년 동안 6백만 명이 정보 경제를 지원하기 위해 일하게 될 것입니다.

Gartner 전문가에 따르면 주요 문제는 업계에 이를 위한 인재가 충분하지 않다는 것입니다. 예를 들어 미국의 사립 및 공립 교육 시스템은 충분한 수의 자격을 갖춘 인력을 업계에 공급할 수 없습니다. . 따라서 언급된 IT 분야의 새로운 일자리 중 3개 중 1개만 인력이 제공될 것입니다.

분석가들은 자격을 갖춘 IT 인력을 양성하는 역할을 절실히 필요로 하는 기업이 직접 맡아야 한다고 생각합니다. 그러한 직원은 미래의 새로운 정보 경제로 들어가는 통로가 될 것이기 때문입니다.

2012

빅 데이터에 대한 첫 번째 회의론

Ovum과 Gartner의 분석가들은 2012년의 최신 유행 주제에 대해 다음과 같이 제안합니다. 빅 데이터환상을 버려야 할 때일 수 있습니다.

현재 "빅 데이터"라는 용어는 일반적으로 소셜 미디어, 센서 네트워크 및 기타 소스에서 온라인으로 유입되는 점점 증가하는 정보의 양과 데이터를 처리하고 데이터에서 중요한 비즈니스를 식별하는 데 사용되는 도구의 증가 범위를 나타냅니다. - 경향.

Ovum의 분석가인 Tony Byer는 "빅 데이터에 대한 아이디어를 둘러싼 과대 광고 때문에(또는 그럼에도 불구하고) 2012년 제조업체는 큰 희망을 가지고 이 추세를 바라보고 있었습니다.

Bayer는 DataSift가 빅 데이터 참조에 대한 소급 분석을 수행했다고 말했습니다.

한번은 독일 Gref(Sberbank의 책임자)로부터 "빅 데이터"라는 용어를 들었습니다. 마찬가지로, 그들은 현재 구현에 적극적으로 노력하고 있습니다. 그래야 각 클라이언트와 작업하는 시간을 줄이는 데 도움이 되기 때문입니다.

내가 이 개념을 두 번째로 접한 것은 고객의 온라인 상점에서였습니다. 거기서 우리는 일했고 상품 품목의 범위를 수만 개에서 수만 개까지 늘렸습니다.

나는 Yandex에 빅 데이터 분석가가 필요하다는 것을 세 번째로 보았습니다. 그런 다음 나는 이 주제에 대해 더 깊이 파고드는 동시에 TOP 관리자와 인터넷 공간의 마음을 흥분시키는 용어가 무엇인지 알려주는 기사를 작성하기로 결정했습니다.

VVV 또는 VVVVV

나는 일반적으로 그것이 어떤 종류의 용어인지에 대한 설명으로 기사를 시작합니다. 이 기사도 예외는 아닙니다.

그러나 이것은 내가 얼마나 똑똑한지 보여주고 싶은 욕망 때문이 아니라 주제가 정말 복잡하고 세심한 설명이 필요하기 때문입니다.

예를 들어 Wikipedia에서 빅 데이터가 무엇인지 읽고 아무것도 이해하지 못한 다음 이 기사로 돌아와 비즈니스에 대한 정의와 적용 가능성을 이해할 수 있습니다. 이제 설명으로 시작한 다음 비즈니스 예를 살펴보겠습니다.

빅 데이터는 빅 데이터입니다. 놀랍죠? 사실 영어로는 '빅데이터'로 번역된다. 그러나 이 정의는 인형을 위한 것이라고 말할 수 있습니다.

중요한. 빅 데이터 기술은 기존 방식으로 처리하기 어려운 새로운 정보를 얻기 위해 더 많은 데이터를 처리하는 접근 방식/방법입니다.

데이터는 처리(구조화)되고 단편화(즉, 구조화되지 않음)될 수 있습니다.

용어 자체는 비교적 최근에 나타났습니다. 2008년 과학 저널은 이 접근 방식을 기하급수적으로 증가하는 방대한 정보를 처리하는 데 필요한 것으로 예측했습니다.

예를 들어, 매년 인터넷에 저장하고 처리해야 하는 정보는 40%씩 증가합니다. 다시. 매년 새로운 정보가 인터넷에 40% 증가합니다.

인쇄된 문서를 이해할 수 있고 처리 방법도 이해할 수 있는 경우(전자 형식으로 전송, 하나의 폴더에 스티치, 번호 매기기) 완전히 다른 "캐리어" 및 기타 볼륨에 제공된 정보를 어떻게 처리해야 할까요?

인터넷 문서;
블로그 및 소셜 네트워크;
오디오/비디오 소스;
측정 장치;

정보와 데이터를 빅데이터로 분류할 수 있는 특징이 있습니다.

즉, 모든 데이터가 분석에 적합하지 않을 수 있습니다. 이러한 특성에는 빅데이터의 핵심 개념이 포함되어 있습니다. 모두 3V에 맞습니다.

볼륨(영어 볼륨에서). 데이터는 분석할 "문서"의 물리적 볼륨으로 측정됩니다.
속도(영어 속도에서). 데이터는 개발 단계에 있지 않고 지속적으로 증가하므로 결과를 얻기 위해 신속하게 처리해야 합니다.
다양성 (영어 다양성에서). 데이터가 균일하지 않을 수 있습니다. 즉, 단편화되거나 구조화되거나 부분적으로 구조화될 수 있습니다.

그러나 때때로 네 번째 V(진실성 - 데이터의 신뢰성/신뢰도)와 다섯 번째 V가 VVV에 추가됩니다(어떤 경우에는 실행 가능성 - 실행 가능성, 다른 경우에는 가치 - 가치).

빅데이터와 관련된 데이터를 특징짓는 7V도 어디선가 본 적이 있다. 그러나 제 생각에는 이것은 시리즈에서 나온 것입니다(Ps가 주기적으로 추가되지만 초기 4는 이해하기에 충분합니다).

우리는 이미 29,000명 이상입니다.
켜다

누가 필요합니까?

정보를 어떻게 사용할 수 있습니까(빅 데이터는 수백, 수천 테라바이트임)라는 논리적인 질문이 제기됩니다. 그런 것도 아닙니다.

여기 정보가 있습니다. 그렇다면 그들은 왜 빅 데이터를 생각해 냈을까요? 마케팅 및 비즈니스에서 빅 데이터의 용도는 무엇입니까?

기존의 데이터베이스는 엄청난 양의 정보를 저장하고 처리할 수 없습니다.
빅 데이터는 이 주요 문제를 해결합니다. 대용량 정보를 성공적으로 저장하고 관리합니다.
다양한 소스(비디오, 이미지, 오디오 및 텍스트 문서)에서 오는 정보를 하나의 이해하기 쉽고 소화 가능한 형태로 구조화합니다.
구조화되고 처리된 정보를 기반으로 분석을 형성하고 정확한 예측을 생성합니다.

복잡하다. 간단히 말해서, 당신이 많은 양의 정보(당신, 당신의 회사, 당신의 경쟁자, 당신의 산업에 관한)를 연구한다면 매우 괜찮은 결과를 얻을 수 있다는 것을 이해하는 모든 마케터는:

숫자 측면에서 회사와 비즈니스에 대한 완전한 이해
경쟁자를 연구하십시오. 그리고 이것은 차례로 그들을 지배함으로써 앞서가는 것을 가능하게 할 것입니다.
고객에 대한 새로운 정보를 알아보세요.

그리고 빅데이터 기술은 다음과 같은 결과를 낳기 때문에 모두가 서두른다.

그들은 매출을 늘리고 비용을 줄이기 위해 이 사업을 회사에 집어넣으려 합니다. 그리고 구체적으로 말하자면:

고객 선호도에 대한 더 나은 지식을 통해 교차 판매 및 상향 판매 증가
인기 있는 제품과 구매 이유를 검색합니다(반대의 경우도 마찬가지).
제품 또는 서비스 개선
서비스 수준 향상
충성도 및 고객 중심 향상
사기 방지(은행 부문과 더 관련됨);
초과 비용 절감.

모든 소스에서 제공되는 가장 일반적인 예는 물론 사용자(전화, 시계, 컴퓨터)에 대한 데이터를 수집하는 Apple입니다.

기업이 사용자에 대해 너무 많이 알고 미래에 이를 사용하여 이익을 얻는 것은 생태계의 존재 때문입니다.

이 기사를 제외한 다른 기사에서 이러한 사용 예와 다른 사용 예를 읽을 수 있습니다.

미래로 가자

다른 프로젝트에 대해 말씀드리겠습니다. 또는 빅 데이터 솔루션을 사용하여 미래를 건설하는 사람에 대한 것입니다.

이것은 Elon Musk와 그의 회사 Tesla입니다. 그의 주요 꿈은 자동차를 자율적으로 만드는 것입니다. 즉, 운전대를 잡고 모스크바에서 블라디보스토크까지 자동 조종 장치를 켜고 ... 잠에 드는 것입니다. 왜냐하면 그가 할 것이기 때문에 차를 운전할 필요가 전혀 없기 때문입니다. 자신의 모든 것.

환상적일 것 같죠? 하지만! 수십 개의 위성으로 자동차를 조종하는 구글보다 엘론이 훨씬 현명하게 행동했을 뿐입니다. 그리고 다른 방향으로 갔다:

판매되는 각 자동차에는 모든 정보를 수집하는 컴퓨터가 장착되어 있습니다.
모든 것은 모든 것을 의미합니다. 운전자, 운전 스타일, 주변 도로, 다른 자동차의 움직임에 대해. 이러한 데이터의 양은 시간당 20-30GB에 이릅니다.
또한 이 정보는 위성을 통해 이 데이터를 처리하는 중앙 컴퓨터로 전송됩니다.
이 컴퓨터가 처리하는 빅데이터를 기반으로 무인자동차 모델을 구축한다.

그건 그렇고, 구글의 실적이 좋지 않고 자동차가 항상 사고를 당한다면 머스크는 빅 데이터로 작업하고 있기 때문에 테스트 모델이 매우 좋은 결과를 보여주기 때문에 훨씬 더 잘하고 있습니다.

하지만... 경제에 관한 모든 것입니다. 우리는 이익에 대해 무엇을 알고 있습니까? 예, 이익에 대해 무엇입니까? 빅 데이터가 해결할 수 있는 많은 것은 수입과 돈과 전혀 관련이 없습니다.

빅데이터에 기반한 구글 통계는 흥미로운 사실을 보여준다.

의사가 한 지역에서 질병의 전염병의 시작을 알리기 전에 이 질병의 치료에 대한 검색 쿼리 수가 이 지역에서 크게 증가합니다.

따라서 데이터와 분석에 대한 올바른 연구는 예측을 형성하고 당국의 의견과 조치보다 훨씬 빠르게 전염병의 발병(및 그에 따른 예방)을 예측할 수 있습니다.

러시아에서의 신청

그러나 러시아는 항상 그렇듯이 속도가 약간 느려집니다. 따라서 러시아의 빅 데이터에 대한 정의는 5년 전에 나타났습니다(지금 일반 회사에 대해 이야기하고 있습니다).

그리고 이것은 매년 빅 데이터 수집 및 분석용 소프트웨어 시장이 32%씩 성장하기 때문에 이것이 세계에서 가장 빠르게 성장하는 시장 중 하나라는 사실에도 불구하고(마약과 무기는 신경을 곤두세우고 있습니다).

러시아 빅데이터 시장의 특징을 설명하자면 옛날 농담이 생각납니다. 빅데이트는 18세 이전의 섹스와 같다.

모두가 그것에 대해 이야기하고, 그것에 대해 많은 과대 광고와 실제 행동이 거의 없으며, 모두가 자신이 이것을 하지 않는다는 것을 인정하는 것을 부끄럽게 생각합니다. 실제로 이것에 대한 과장된 소문은 많이 나지만 실제 행동은 거의 없습니다.

잘 알려진 연구 회사 Gartner는 이미 2015년에 빅 데이터가 더 이상 증가 추세(인공 지능과 같은)가 아니라 고급 기술을 분석하고 개발하기 위한 완전히 독립적인 도구라고 발표했습니다.

러시아에서 빅 데이터가 사용되는 가장 활발한 틈새 시장은 은행/보험(Sberbank 책임자와 함께 기사를 시작한 이유가 없음), 통신, 소매, 부동산 및 ... 공공 부문입니다.

예를 들어 빅 데이터 알고리즘을 사용하는 경제의 몇 가지 부문에 대해 더 자세히 알려 드리겠습니다.

은행

은행과 은행이 우리와 우리의 활동에 대해 수집하는 정보부터 시작하겠습니다. 예를 들어 빅 데이터에 적극적으로 투자하는 러시아 은행 TOP-5를 예로 들어 보겠습니다.

스베르방크;
가스프롬뱅크;
VTB 24;
알파 은행;
팅코프 은행.

러시아 지도자들 사이에서 알파 뱅크를 만나는 것은 특히 즐겁습니다. 최소한 귀하가 공식 파트너인 은행이 귀하의 회사에 새로운 마케팅 도구를 도입해야 할 필요성을 이해하고 있다는 사실을 알게 되어 기쁩니다.

그러나 나는 설립자의 비표준 모양과 행동을 좋아하는 은행에서 빅 데이터의 사용과 성공적인 구현의 예를 보여주고 싶습니다.

나는 Tinkoff Bank에 대해 이야기하고 있습니다. 그들의 주요 임무는 과도한 고객 기반으로 인해 실시간으로 빅 데이터를 분석하는 시스템을 개발하는 것이 었습니다.

결과: 내부 프로세스 시간이 최소 10배, 일부는 100배 이상 단축되었습니다.

글쎄, 약간의 산만. 내가 Oleg Tinkov의 비표준 익살과 행동에 대해 이야기하기 시작한 이유를 알고 있습니까?

제 생각에는 러시아에 수천 명이 있는 중산층 사업가에서 가장 유명하고 인정받는 기업가 중 한 명으로 그를 도운 사람들이었습니다. 그것을 증명하기 위해 이 독특하고 흥미로운 비디오를 시청하십시오.

속성

부동산에서는 상황이 훨씬 더 복잡합니다. 그리고 이것이 바로 제가 여러분에게 일반적인 비즈니스의 빅데이트를 이해하기 위해 보여주고 싶은 예입니다. 초기 데이터:

대량의 텍스트 문서
오픈 소스(지구 변화 데이터를 전송하는 개인 위성);
인터넷상의 통제되지 않은 방대한 양의 정보;
소스 및 데이터의 지속적인 변경.

그리고 이것을 기반으로 Ural 마을과 같은 토지 계획의 비용을 준비하고 평가할 필요가 있습니다. 전문가의 경우 일주일이 걸립니다.

실제로 소프트웨어를 활용한 빅데이터 분석을 구현한 러시아 감정평가사 로세코(ROSEKO)는 30분 정도 여유롭게 작업할 예정이다. 일주일과 30분을 비교해 보세요. 엄청난 차이.

음, 간식으로

물론 방대한 양의 정보를 단순한 하드 드라이브에 저장하고 처리할 수는 없습니다.

그리고 데이터를 구조화하고 분석하는 소프트웨어는 일반적으로 지적 재산이며 매번 작성자의 개발입니다. 그러나이 모든 매력이 만들어지는 도구가 있습니다.

하둡 및 맵리듀스
NoSQL 데이터베이스;
Data Discovery 클래스의 도구입니다.

솔직히 말해서, 이것들에 대한 친분과 작업은 물리 및 수학 기관에서 가르치기 때문에 서로 어떻게 다른지 명확하게 설명 할 수 없습니다.

설명할 수 없으면서 왜 이야기를 시작했을까요? 모든 영화에서 강도가 은행에 가서 전선에 연결된 수많은 종류의 철 조각을 본 것을 기억하십니까?

빅데이터도 마찬가지입니다. 예를 들어, 다음은 현재 시장에서 가장 선도적인 모델 중 하나입니다.

빅 데이트 도구

최대 구성 비용은 랙당 2,700만 루블에 이릅니다. 물론 이것은 디럭스 버전입니다. 비즈니스에서 빅 데이터 생성을 미리 시도한다는 의미입니다.

주요 내용에 대해 간단히

중소기업에서 빅 데이터를 사용하는 이유가 무엇인지 물을 수 있습니다.

이에 대해 한 사람의 말을 인용해 답하겠습니다. "가까운 장래에 고객은 자신의 행동과 습관을 더 잘 이해하고 가능한 한 이에 상응하는 기업을 요구하게 될 것입니다."

하지만 직면하자. 소기업에서 빅데이터를 구현하기 위해서는 소프트웨어 개발 및 구현을 위한 막대한 예산이 필요할 뿐만 아니라, 빅데이터 분석가, 시스템 관리자 등의 전문 인력 유지를 위한 막대한 예산이 필요하다.

그리고 이제 처리를 위해 그러한 데이터가 있어야 한다는 사실에 대해 침묵합니다.

확인. 중소기업의 경우 주제가 거의 적용되지 않습니다. 그러나 이것이 위에서 읽은 모든 것을 잊어 버릴 필요가 있음을 의미하지는 않습니다.

자신의 데이터가 아니라 잘 알려진 외국 및 러시아 기업의 데이터 분석 결과를 연구하십시오.

예를 들어, 빅 데이터 분석을 사용하는 Target 소매 체인은 임신 2기 이전(임신 1주차부터 12주차까지) 임산부가 무향 제품을 적극적으로 구매하고 있음을 발견했습니다.

이 데이터로 유통기한이 제한된 무향 제품에 대한 할인 쿠폰을 보냅니다.

예를 들어 아주 작은 카페라면? 예, 매우 간단합니다. 로열티 앱을 사용하세요.

그리고 시간이 지나면 축적된 정보 덕분에 고객의 요구에 맞는 요리를 제공할 수 있을 뿐만 아니라 몇 번의 마우스 클릭으로 가장 많이 팔리지 않고 가장 부족한 요리를 볼 수 있습니다.

따라서 결론. 소기업에 빅데이터를 구현하는 것은 거의 가치가 없지만 다른 기업의 결과와 발전을 활용하는 것은 필수입니다.

데이터 증가의 지속적인 가속화는 오늘날 현실에서 없어서는 안될 부분입니다. 소셜 네트워크, 모바일 장치, 측정 장치의 데이터, 비즈니스 정보는 엄청난 양의 데이터를 생성할 수 있는 소스 유형의 일부일 뿐입니다.

현재 빅데이터(Big Data)라는 용어가 상당히 보편화되었습니다. 많은 양의 데이터를 처리하기 위한 기술이 사회의 가장 다양한 측면을 얼마나 빠르고 깊이 있게 변화시키고 있는지 모두는 아직 잘 모릅니다. 기밀성, 무결성, 가용성 등과 같은 중요한 측면이 전면에 있어야 하는 정보 보안 분야를 포함하여 다양한 영역에서 변화가 일어나고 있으며 새로운 문제와 도전을 야기하고 있습니다.

불행히도 많은 현대 기업은 수집 및 저장하는 엄청난 양의 데이터를 안정적으로 저장할 수 있는 적절한 인프라를 구축하지 않고 빅 데이터 기술에 의존하고 있습니다. 한편, 블록체인 기술은 현재 빠르게 발전하고 있으며, 이는 이를 비롯한 많은 문제를 해결하도록 설계되었습니다.

빅 데이터란 무엇입니까?

사실, 용어의 정의는 표면에 있습니다. "빅 데이터"는 분석뿐만 아니라 매우 많은 양의 데이터 관리를 의미합니다. 좀 더 넓게 보면 방대한 양으로 인해 고전적인 방법으로는 처리할 수 없는 정보입니다.

빅데이터(Big Data)라는 용어는 비교적 최근에 등장했다. Google 트렌드 서비스에 따르면 2011년 말에 이 용어의 인기가 활발하게 증가했습니다.

2010년에는 빅데이터 처리와 직접적으로 관련된 최초의 제품과 솔루션이 등장하기 시작했습니다. 2011년까지 IBM, Oracle, Microsoft 및 Hewlett-Packard를 포함한 대부분의 대규모 IT 회사는 비즈니스 전략에서 빅 데이터라는 용어를 적극적으로 사용하고 있습니다. 점차적으로, 정보 기술 시장 분석가들은 이 개념에 대한 적극적인 연구를 시작합니다.

현재 이 용어는 상당한 인기를 얻고 있으며 다양한 분야에서 활발히 사용되고 있습니다. 그러나 빅 데이터가 일종의 근본적으로 새로운 현상이라고 확실히 말할 수는 없습니다. 반대로 대용량 데이터 소스는 수년 동안 존재해 왔습니다. 마케팅에서 데이터는 고객 구매, 신용 기록, 라이프스타일 등의 데이터베이스가 될 수 있습니다. 수년에 걸쳐 분석가는 이 데이터를 사용하여 기업이 미래의 고객 요구를 예측하고, 위험을 평가하고, 소비자 선호도를 형성하는 데 도움을 줍니다.

현재 상황은 두 가지 측면에서 변경되었습니다.

— 다양한 데이터 세트를 분석하고 비교하기 위해 보다 정교한 도구와 방법이 등장했습니다.
— 광범위한 디지털화와 데이터 수집 및 측정의 새로운 방법으로 인해 많은 새로운 데이터 소스가 분석 도구를 보완했습니다.

연구원들은 빅 데이터 기술이 제조, 의료, 무역, 공공 행정 및 기타 매우 다양한 분야와 산업에서 가장 활발히 사용될 것으로 예측합니다.

빅 데이터는 특정 데이터 배열이 아니라 데이터를 처리하는 일련의 방법입니다. 빅 데이터를 정의하는 특징은 데이터의 양뿐만 아니라 노동 집약적인 데이터 처리 및 분석 프로세스를 특징짓는 다른 범주이기도 합니다.

처리를 위한 초기 데이터는 예를 들면 다음과 같습니다.

— 인터넷 사용자 행동 로그
— 사물 인터넷
- 소셜 미디어;
— 기상 데이터;
— 가장 큰 도서관의 디지털 도서;
– 차량의 GPS 신호
— 은행 고객의 거래에 대한 정보
— 모바일 네트워크 가입자의 위치에 대한 데이터;
— 대형 소매 체인 등에서의 구매에 대한 정보

시간이 지남에 따라 데이터의 양과 출처의 수는 지속적으로 증가하고 있으며 이러한 배경에 대해 새로운 정보 처리 방법이 나타나고 기존 정보 처리 방법이 개선됩니다.

빅 데이터의 기본 원칙:

- 수평적 확장성 - 데이터 어레이는 거대할 수 있으며 이는 빅 데이터 처리 시스템이 볼륨이 증가함에 따라 동적으로 확장되어야 함을 의미합니다.
- 내결함성 - 일부 장비에 장애가 발생하더라도 전체 시스템은 계속 작동해야 합니다.
— 데이터 지역. 대규모 분산 시스템에서 데이터는 일반적으로 상당한 수의 시스템에 분산됩니다. 그러나 가능하면 리소스를 절약하기 위해 데이터가 저장된 것과 동일한 서버에서 처리되는 경우가 많습니다.

세 가지 원칙이 모두 안정적으로 작동하고 그에 따라 빅 데이터의 저장 및 처리 효율성이 높기 위해서는 블록체인과 같은 새로운 획기적인 기술이 필요합니다.

빅데이터는 무엇을 위한 것인가?

빅 데이터의 범위는 지속적으로 확장되고 있습니다.

— 빅 데이터는 의료에 사용될 수 있습니다. 따라서 병력 분석 데이터뿐만 아니라 다른 의사의 경험, 환자가 거주하는 지역의 생태적 상황에 대한 정보를 고려하여 환자에 대한 진단을 수립하는 것이 가능합니다. 및 기타 여러 요인이 있습니다.
— 빅 데이터 기술을 사용하여 무인 차량의 이동을 구성할 수 있습니다.
— 방대한 양의 데이터를 처리하여 사진 및 비디오 자료에서 얼굴 인식이 가능합니다.
- 소매업체는 빅 데이터 기술을 사용할 수 있습니다. - 무역 회사는 소셜 네트워크의 데이터 배열을 적극적으로 사용하여 특정 소비자 세그먼트에 최대한 집중할 수 있는 광고 캠페인을 효과적으로 설정할 수 있습니다.
— 이 기술은 사회의 정치적 선호도 분석을 포함하여 선거 운동 조직에 적극적으로 사용됩니다.
— 빅 데이터 기술의 사용은 불일치를 감지하는 도구와 재무 결과의 감소로 이어질 수 있는 정보의 왜곡 또는 손실 가능성을 적시에 식별할 수 있는 심층 데이터 분석을 위한 도구를 포함하는 소득 보장(RA) 등급 솔루션과 관련이 있습니다. .
— 통신 제공업체는 지리적 위치 데이터를 포함한 빅 데이터를 집계할 수 있습니다. 결과적으로 이 정보는 소매업체와 은행은 물론 타겟 및 지역 광고를 표시하는 데 사용할 수 있는 광고 대행사의 상업적 관심이 될 수 있습니다.
“빅 데이터는 강력한 타겟 유동 인구의 존재에 대한 데이터를 기반으로 특정 위치에 소매점을 열 것인지 여부를 결정하는 데 중요한 역할을 할 수 있습니다.

따라서 빅데이터 기술의 가장 확실한 실용화는 마케팅 분야에 있다. 인터넷의 발달과 각종 통신기기의 보급으로 통화수, 쇼핑 습관, 구매 등의 행동 데이터가 실시간으로 제공되고 있다.

빅 데이터 기술은 금융, 사회학 연구 및 기타 여러 분야에서도 효과적으로 사용될 수 있습니다. 전문가들은 빅 데이터를 사용할 수 있는 이러한 모든 가능성은 빙산의 가시적인 부분일 뿐이라고 주장합니다. 왜냐하면 이러한 기술은 첩보 및 방첩, 군사 업무는 물론 일반적으로 정보 전쟁이라고 하는 모든 분야에서 훨씬 더 광범위하게 사용되기 때문입니다. .

일반적으로 빅 데이터 작업의 순서는 데이터 수집, 보고서 및 대시보드를 사용하여 수신된 정보 구성, 조치 권장 사항 공식화로 구성됩니다.

마케팅에 빅 데이터 기술을 사용할 수 있는 가능성에 대해 간단히 살펴보겠습니다. 아시다시피, 마케터에게 정보는 예측 및 전략 수립을 위한 주요 도구입니다. 빅 데이터 분석은 대상 고객, 관심 분야, 수요 및 소비자 활동을 결정하는 데 오랫동안 성공적으로 사용되었습니다. 특히 빅데이터 분석을 통해 제품이나 서비스에 관심이 있는 소비자에게만 광고(RTB 경매 모델 - 실시간 입찰 기반)를 표시할 수 있습니다.

마케팅에 빅 데이터를 사용하면 사업가는 다음을 수행할 수 있습니다.

- 소비자를 더 잘 인식하고 인터넷에서 유사한 청중을 끌어들입니다.
- 고객 만족도를 평가합니다.
— 제안된 서비스가 기대치와 요구 사항을 충족하는지 이해합니다.
- 고객의 신뢰를 높일 수 있는 새로운 방법을 찾고 구현합니다.
— 수요가 많은 프로젝트 등을 만듭니다.

예를 들어, Google.trends 서비스는 마케팅 담당자에게 특정 제품에 대한 계절적 수요 활동, 변동 및 클릭 지역에 대한 예측을 알려줄 수 있습니다. 이 정보를 자신의 사이트에서 해당 플러그인에서 수집한 통계와 비교하면 월, 지역 및 기타 매개변수를 나타내는 광고 예산 분배 계획을 세울 수 있습니다.

많은 연구자들에 따르면 트럼프 캠페인의 성공은 빅 데이터의 세분화와 활용에 있습니다. 미래 미국 대통령의 팀은 청중을 올바르게 구분하고 그들의 욕망을 이해하고 유권자가보고 듣고 싶어하는 메시지를 정확하게 보여줄 수있었습니다. 따라서 Data-Centric Alliance의 Irina Belysheva에 따르면 Trump의 승리는 주로 빅 데이터, 심리 행동 분석 및 개인화된 광고를 기반으로 하는 인터넷 마케팅에 대한 비표준 접근 방식 때문이라고 합니다.

트럼프의 정치 기술자와 마케터는 특별히 개발된 수학적 모델을 사용하여 모든 미국 유권자의 데이터를 심층 분석하고 체계화하여 지리적 특징뿐만 아니라 유권자의 의도, 관심, 이를 위해 마케터는 거의 모든 사람들에게 자신의 메시지를 사용하여 필요, 기분, 정치적 견해, 심리적 특성 및 피부색에 따라 각 시민 그룹과 개인화 된 의사 소통을 조직했습니다. 개인 유권자.

힐러리 클린턴의 경우, 그녀는 선거 운동에서 사회학적 데이터와 표준 마케팅에 기반한 "시간 검증된" 방법을 사용하여 유권자를 공식적으로 동질적인 그룹(남성, 여성, 아프리카계 미국인, 히스패닉, 빈곤층, 부자 등)으로만 나누었습니다.

결과적으로 승자는 새로운 기술과 분석 방법의 잠재력을 높이 평가한 사람이었습니다. 특히, 힐러리 클린턴의 선거운동 지출액은 상대 후보의 두 배였습니다.

데이터: 퓨 리서치

빅 데이터 사용의 주요 문제

높은 비용 외에도 다양한 분야에서 빅데이터 도입을 가로막는 주요 요인 중 하나는 처리할 데이터를 선택하는 문제, 즉 어떤 데이터를 추출, 저장, 분석해야 하고, 어떤 데이터를 어떤 데이터에 저장해야 하는지를 결정하는 문제다. 고려해서는 안됩니다.

빅 데이터의 또 다른 문제는 윤리적입니다. 다시 말해, 이러한 데이터 수집(특히 사용자가 모르는 상태에서)이 개인 정보 보호 경계 위반으로 간주될 수 있는지에 대한 자연스러운 질문이 발생합니다.

Google 및 Yandex 검색 엔진에 저장된 정보를 통해 IT 거물이 서비스를 지속적으로 개선하고 사용자 친화적으로 만들고 새로운 대화형 애플리케이션을 만들 수 있다는 것은 비밀이 아닙니다. 이를 위해 검색 엔진은 인터넷에서의 사용자 활동, IP 주소, 지리적 위치 데이터, 관심사 및 온라인 구매, 개인 데이터, 이메일 메시지 등에 대한 사용자 데이터를 수집합니다. 이 모든 것을 통해 인터넷에서의 사용자 행동에 따라 상황별 광고를 표시할 수 있습니다. 이와 동시에 이용자의 동의를 구하지 않는 경우가 많으며, 본인에 대한 정보를 제공할 것인지에 대한 선택권도 부여하지 않습니다. 즉, 기본적으로 모든 것이 빅 데이터에 수집되어 사이트의 데이터 서버에 저장됩니다.

이것으로부터 데이터의 저장 및 사용의 보안에 관한 다음 중요한 문제가 따릅니다. 예를 들어 소비자가 자동으로 데이터를 보안과 공유하는 분석 플랫폼이 있습니까? 또한 많은 비즈니스 담당자는 많은 양의 데이터를 효과적으로 운영하고 도움을 받아 특정 비즈니스 문제를 해결할 수 있는 우수한 분석가와 마케터가 부족하다고 지적합니다.

빅 데이터 구현의 모든 어려움에도 불구하고 비즈니스는 이 분야에 대한 투자를 늘릴 계획입니다. Gartner 연구에 따르면 빅 데이터에 투자하는 산업의 리더는 미디어, 소매, 통신, 은행 및 서비스 회사입니다.

블록체인 기술과 빅데이터의 상호작용 전망

빅 데이터와의 통합은 시너지 효과를 가져오고 다음을 포함하여 비즈니스에 다양한 새로운 기회를 제공합니다.

— 특정 공급자, 제품 및 제품 구성 요소에 대한 자세한 분석 프로필을 작성할 수 있는 기반으로 소비자 선호도에 대한 자세한 정보에 액세스합니다.
- 다양한 범주의 사용자가 특정 그룹의 상품 소비에 대한 거래 및 통계에 대한 자세한 데이터를 통합합니다.
- 공급 및 소비 사슬에 대한 자세한 분석 데이터를 얻고 운송 중 제품 손실을 제어합니다(예: 특정 유형의 제품 수축 및 증발로 인한 중량 감소).
– 모조품 대응, 자금 세탁 및 사기 근절 등의 효율성 증대

상품의 사용 및 소비에 대한 세부 데이터에 액세스하면 주요 비즈니스 프로세스를 최적화하고 규제 위험을 줄이며 현재 소비자 선호도에 가장 잘 맞는 제품을 만들고 수익을 창출할 수 있는 새로운 기회를 열어주는 빅 데이터 기술의 잠재력을 크게 발휘할 것입니다.

아시다시피, 가장 큰 금융 기관의 대표자들은 이미 블록체인 기술 등에 상당한 관심을 보이고 있습니다. 스위스 금융 지주 UBS의 IT 관리자 Oliver Bussmann에 따르면 블록체인 기술은 "거래 처리 시간을 며칠에서 몇 일로 단축할 수 있습니다. 분” .

빅 데이터 기술을 사용한 블록체인의 분석 가능성은 엄청납니다. 분산 레지스트리 기술은 정보의 무결성은 물론 전체 거래 내역의 안정적이고 투명한 저장을 보장합니다. 결과적으로 빅 데이터는 효과적인 분석, 예측, 경제 모델링을 위한 새로운 도구를 제공하고 이에 따라 보다 정보에 입각한 관리 결정을 내릴 수 있는 새로운 기회를 열어줍니다.

블록체인과 빅 데이터의 탠덤은 의료에서 성공적으로 사용될 수 있습니다. 아시다시피, 환자의 건강에 대한 불완전하고 불완전한 데이터는 때때로 잘못된 진단과 잘못된 처방의 위험을 높입니다. 의료기관 고객의 건강에 대한 중요한 데이터는 가능한 한 안전해야 하고, 불변의 속성을 가지고 있어야 하며, 검증 가능해야 하며 어떠한 조작의 대상이 되지 않아야 합니다.

블록체인의 정보는 위의 모든 요구 사항을 충족하며 새로운 빅 데이터 기술을 사용하여 심층 분석을 위한 고품질의 신뢰할 수 있는 소스 데이터 역할을 할 수 있습니다. 또한 의료 기관은 블록체인을 사용하여 의료 정보가 필요한 보험 회사, 사법 당국, 고용주, 학술 기관 및 기타 조직과 신뢰할 수 있는 데이터를 교환할 수 있습니다.

빅데이터 및 정보보안

넓은 의미에서 정보 보안은 자연적 또는 인공적 성격의 우발적 또는 의도적 부정적인 영향으로부터 정보 및 지원 기반 시설을 보호하는 것입니다.

정보 보안 분야에서 빅 데이터는 다음과 같은 과제에 직면해 있습니다.

— 데이터 보호 및 무결성 보장 문제
— 외부 간섭 및 기밀 정보 누출의 위험;
— 기밀 정보의 부적절한 저장;
- 예를 들어 누군가의 악의적인 행동으로 인한 정보 손실 위험;
— 제3자 등에 의한 개인 데이터의 오용 위험

블록체인이 해결하고자 하는 빅데이터의 주요 문제 중 하나는 정보보안 분야에 있다. 모든 기본 원칙의 준수를 보장하는 분산 원장 기술은 데이터의 무결성과 신뢰성을 보장할 수 있으며 단일 실패 지점이 없기 때문에 블록체인은 정보 시스템을 안정적으로 만듭니다. 분산 원장 기술은 데이터에 대한 신뢰 문제를 해결하는 데 도움이 될 뿐만 아니라 보편적인 데이터 교환 가능성을 제공할 수 있습니다.

정보는 귀중한 자산이므로 정보 보안의 주요 측면이 최전선에 있어야 합니다. 경쟁에서 살아남기 위해 기업은 시대에 뒤쳐지지 않아야 합니다. 즉, 블록체인 기술과 빅 데이터 도구가 포함하는 잠재적인 기회와 이점을 무시할 수 없습니다.

게으른 사람만이 빅 데이터에 대해 이야기하지 않지만 빅 데이터가 무엇인지, 어떻게 작동하는지 거의 이해하지 못합니다. 가장 간단한 용어부터 시작하겠습니다. 러시아어로 말하면 빅 데이터는 특정 작업과 목적에 사용하기 위해 정형 및 비정형 데이터를 모두 처리하는 다양한 도구, 접근 방식 및 방법입니다.

비정형 데이터는 미리 정해진 구조가 없거나 특정 순서로 구성되지 않은 정보입니다.

"빅 데이터"라는 용어는 2008년 Nature의 편집자인 Clifford Lynch가 세계 정보량의 폭발적인 성장에 관한 특별호에서 처음 사용했습니다. 물론 빅 데이터 자체는 이전에도 존재했지만. 전문가들에 따르면 하루에 100GB가 넘는 데이터 흐름의 대부분은 빅 데이터 범주에 속합니다.

더 읽어보기:

오늘날 이 간단한 용어는 데이터 저장과 처리라는 두 단어만 숨깁니다.

빅 데이터 - 간단히 말해서

현대사회에서 빅데이터는 사회경제적 현상으로 방대한 양의 데이터를 분석할 수 있는 새로운 기술적 기회가 등장한 것과 관련이 있다.

더 읽어보기:

이해의 편의를 위해 모든 상품이 익숙한 순서가 아닌 슈퍼마켓을 상상해 보십시오. 과일 옆에 빵, 냉동 피자 옆에 토마토 페이스트, 아보카도, 두부 또는 표고버섯 등이 들어 있는 탐폰 랙 옆에 가벼운 액체. 빅 데이터는 모든 것을 제자리에 놓고 견과류 우유를 찾고, 비용과 유통 기한을 알아내고, 당신 외에 누가 그런 우유를 구입하는지, 우유가 우유보다 얼마나 좋은지 알 수 있도록 도와줍니다.

Kenneth Cookier: 빅 데이터는 더 나은 데이터입니다.

빅데이터 기술

엄청난 양의 데이터가 처리되어 개인이 더 효과적인 적용을 위해 구체적이고 필요한 결과를 얻을 수 있습니다.

더 읽어보기:

실제로 빅 데이터는 문제 해결사이자 기존 데이터 관리 시스템의 대안입니다.

McKinsey에 따르면 빅 데이터에 적용 가능한 분석 기법 및 방법:

크라우드소싱;

혼합 및 데이터 통합

기계 학습;

인공 신경망;

패턴 인식;

예측 분석;

시뮬레이션 모델링;

공간 분석;

통계 분석;
분석 데이터의 시각화.

데이터 처리를 가능하게 하는 수평적 확장성은 빅데이터 처리의 기본 원칙이다. 데이터는 컴퓨팅 노드에 분산되며 성능 저하 없이 처리됩니다. McKinsey는 또한 적용 가능성의 맥락에서 관계형 관리 시스템과 비즈니스 인텔리전스를 포함했습니다.

기술:

NoSQL;
맵리듀스;
하둡;
하드웨어 솔루션.

더 읽어보기:

빅 데이터의 경우 2001년에 Meta Group이 개발한 전통적인 정의 특성이 있습니다. 쓰리 V»:

용량- 물리적 볼륨의 값.
속도- 성장률 및 결과를 얻기 위한 빠른 데이터 처리의 필요성.
다양성- 서로 다른 유형의 데이터를 동시에 처리하는 기능.

빅 데이터: 애플리케이션 및 기회

이질적이고 빠르게 유입되는 디지털 정보의 양은 기존 도구로 처리할 수 없습니다. 데이터 자체를 분석하면 사람이 볼 수 없는 특정하고 감지할 수 없는 패턴을 볼 수 있습니다. 이를 통해 우리는 공공 행정에서 제조 및 통신에 이르기까지 우리 삶의 모든 영역을 최적화할 수 있습니다.

예를 들어, 몇 년 전에 일부 회사는 사기로부터 고객을 보호했으며 고객의 돈을 돌보는 것은 자신의 돈을 돌보는 것입니다.

Susan Atliger: 빅 데이터는 어떻습니까?

빅 데이터 기반 솔루션: Sberbank, Beeline 및 기타 회사

Beeline은 가입자에 대한 방대한 양의 데이터를 보유하고 있으며, 가입자와 협력할 뿐만 아니라 외부 컨설팅 또는 IPTV 분석과 같은 분석 제품을 만드는 데도 사용합니다. Beeline은 스토리지에 HDFS 및 Apache Spark를 사용하고 데이터 처리에 Rapidminer 및 Python을 사용하여 데이터베이스를 세분화하고 금전 사기 및 바이러스로부터 고객을 보호했습니다.

더 읽어보기:

또는 AS SAFI라는 오래된 케이스로 Sberbank를 기억하십시오. 사진을 분석하여 은행 고객을 식별하고 사기를 방지하는 시스템입니다. 이 시스템은 2014년에 도입되었으며 컴퓨터 비전 덕분에 랙에 있는 웹캠에서 가져온 데이터베이스의 사진을 비교하는 것을 기반으로 합니다. 시스템의 기본은 생체 인식 플랫폼입니다. 덕분에 사기 건수도 10배나 줄었다.

세계의 빅 데이터

예측에 따르면 2020년까지 인류는 40-44제타바이트의 정보를 형성할 것입니다. IDC 분석가들이 작성한 데이터 시대 2025 보고서에 따르면 2025년까지 10배 성장할 것입니다. 보고서에 따르면 대부분의 데이터는 일반 소비자가 아닌 기업 자체에서 생성됩니다.

이 연구의 분석가들은 데이터가 중요한 자산이 되고 보안이 삶의 중요한 기반이 될 것이라고 믿습니다. 또한 이 작업의 저자는 이 기술이 경제 환경을 바꿀 것이며 일반 사용자는 하루에 약 4800번 연결된 장치와 통신할 것이라고 확신합니다.

러시아의 빅 데이터 시장

일반적으로 빅 데이터는 세 가지 소스에서 나옵니다.

인터넷(소셜 네트워크, 포럼, 블로그, 미디어 및 기타 사이트)
문서의 기업 아카이브;
센서, 기기 및 기타 장치의 표시.

은행의 빅 데이터

위에서 설명한 시스템 외에도 2014-2018년 Sberbank의 전략에서. 고품질 고객 서비스, 위험 관리 및 비용 최적화를 위한 슈퍼 데이터 세트 분석의 중요성에 대해 이야기합니다. 은행은 이제 빅 데이터를 사용하여 위험 관리, 사기 방지, 고객 신용도 분류 및 평가, 직원 관리, 지점 대기열 예측, 직원 보너스 계산 및 기타 작업을 수행합니다.

VTB24는 빅 데이터를 사용하여 고객 이탈을 분류 및 관리하고 재무 제표를 생성하고 소셜 네트워크 및 포럼에서 리뷰를 분석합니다. 이를 위해 그는 Teradata, SAS Visual Analytics 및 SAS Marketing Optimizer 솔루션을 사용합니다.

빅 데이터라는 용어는 일반적으로 모든 양의 정형, 반정형 및 비정형 데이터를 나타냅니다. 그러나 두 번째와 세 번째는 후속 정보 분석을 위해 주문할 수 있고 또 주문해야 합니다. 빅 데이터는 실제 볼륨과 동일하지 않지만 대부분의 경우 빅 데이터는 테라바이트, 페타바이트, 심지어 엑스트라 바이트의 정보를 의미합니다. 이 양의 데이터는 시간이 지남에 따라 모든 비즈니스에 누적되거나 회사에서 많은 정보를 실시간으로 받아야 하는 경우 축적될 수 있습니다.

빅데이터 분석

빅데이터 분석에 대해 말하자면, 먼저 다양한 출처에서 정보를 수집하고 저장하는 것을 의미합니다. 예를 들어, 구매한 고객에 대한 데이터, 고객의 특성, 시작된 광고 캠페인에 대한 정보 및 효과 평가, 컨택 센터 데이터. 예, 이 모든 정보를 비교하고 분석할 수 있습니다. 가능하고 필요합니다. 그러나 이를 위해서는 정보를 왜곡하지 않고 정보를 수집 및 변환하고, 저장하고, 마지막으로 시각화할 수 있는 시스템을 설정해야 합니다. 빅 데이터의 경우 수천 페이지에 인쇄된 표가 비즈니스 의사 결정에 큰 도움이 되지 않을 것이라는 데 동의합니다.

1. 빅데이터의 도래

사용자 작업에 대한 정보를 수집하는 대부분의 서비스에는 내보내기 기능이 있습니다. 그들이 구조화 된 형태로 회사에 들어가기 위해 Alteryx와 같은 다양한 것들이 사용됩니다. 이 소프트웨어를 사용하면 정보를 자동으로 수신하고 처리할 수 있지만 가장 중요한 것은 왜곡 없이 원하는 형식과 형식으로 변환하는 것입니다.

2. 빅데이터의 저장 및 처리

거의 항상 많은 양의 정보를 수집할 때 저장 문제가 발생합니다. 우리가 연구한 모든 플랫폼 중에서 우리 회사는 Vertica를 선호합니다. 다른 제품과 달리 Vertica는 저장된 정보를 신속하게 "제공"할 수 있습니다. 단점으로는 긴 기록이 있지만 빅데이터 분석을 하다보면 복귀 속도가 눈에 띈다. 예를 들어 페타바이트의 정보를 사용하여 컴파일하는 경우 업로드 속도가 가장 중요한 특성 중 하나입니다.

3. 빅데이터의 시각화

그리고 마지막으로 대용량 데이터 분석의 세 번째 단계는 . 이를 위해서는 수신된 모든 정보를 편리한 형태로 시각적으로 반영할 수 있는 플랫폼이 필요합니다. 우리 생각에는 단 하나의 소프트웨어 제품인 Tableau만이 작업에 대처할 수 있습니다. 의심할 여지 없이 모든 정보를 시각적으로 표시할 수 있는 오늘날 최고의 솔루션 중 하나이며 회사의 작업을 3차원 모델로 전환하고 모든 부서의 작업을 상호 의존적인 단일 체인으로 수집합니다(Tableau의 기능에 대해 자세히 읽을 수 있음).

요약 대신 거의 모든 회사에서 이제 자체 빅 데이터를 생성할 수 있습니다. 빅 데이터 분석은 더 이상 복잡하고 비용이 많이 드는 프로세스가 아닙니다. 회사 경영진은 이제 수집된 정보에 대한 질문을 올바르게 공식화해야 하며 실제로 보이지 않는 회색 영역이 없습니다.

Tableau 다운로드