빅데이터 빅데이터 분석. 단순함이 성공의 열쇠

연구 및 동향에 따르면

빅 데이터, "빅 데이터"는 이제 몇 년 동안 IT 및 마케팅 언론의 화두가 되었습니다. 그리고 분명한 사실은 디지털 기술이 현대인의 삶에 스며들었습니다. "모든 것이 기록되어 있습니다". 삶의 다양한 측면에 대한 데이터의 양이 증가하는 동시에 정보를 저장할 수 있는 가능성도 커지고 있습니다.

정보 저장을 위한 글로벌 기술

출처: Hilbert 및 Lopez, `정보를 저장, 통신 및 계산하는 세계의 기술 능력`, Science, 2011 Global.

대부분의 전문가들은 데이터 증가를 가속화하는 것이 객관적인 현실이라는 데 동의합니다. 소셜 네트워크, 모바일 장치, 측정 장치의 데이터, 비즈니스 정보는 엄청난 양의 정보를 생성할 수 있는 몇 가지 유형의 소스에 불과합니다. 조사에 따르면 IDC디지털 유니버스, 2012년에 발표된, 앞으로 8년 동안 전 세계의 데이터 양은 40Zb(제타바이트)에 이를 것이며, 이는 지구 인구 1인당 5200GB에 해당합니다.

미국에서 수집된 디지털 정보의 성장

출처: IDC

정보의 상당 부분은 사람이 만드는 것이 아니라 로봇이 서로 상호 작용하고 다른 데이터 네트워크(예: 센서 및 스마트 장치)와 상호 작용하여 생성됩니다. 연구원들에 따르면 이러한 성장률로 전 세계의 데이터 양이 매년 두 배로 증가할 것이라고 합니다. 새로운 데이터 센터의 확장 및 생성으로 인해 전 세계의 가상 및 물리적 서버의 수는 10배 증가할 것입니다. 이와 관련하여 이 데이터의 효과적인 사용 및 수익화에 대한 요구가 증가하고 있습니다. 빅데이터를 비즈니스에 활용하려면 상당한 투자가 필요하기 때문에 상황에 대한 명확한 이해가 필요하다. 그리고 본질적으로 간단합니다. 비용을 줄이거나 매출을 늘려 비즈니스 효율성을 높일 수 있습니다.

빅 데이터는 무엇을 위한 것입니까?

빅 데이터 패러다임은 세 가지 주요 유형의 작업을 정의합니다.

기존의 관계형 데이터베이스가 효율적으로 사용할 수 없는 수백 테라바이트 또는 페타바이트의 데이터를 저장하고 관리합니다.
텍스트, 이미지, 비디오 및 기타 유형의 데이터로 구성된 비정형 정보의 구성.
비정형 정보로 작업하는 방법, 분석 보고서 생성 및 예측 모델 구현에 대한 질문을 제기하는 빅 데이터 분석.

빅데이터 프로젝트 시장은 2012년 전문가들에 따르면 전 세계적으로 약 1,000억 달러에 달하는 비즈니스 인텔리전스(BA) 시장과 교차합니다. 여기에는 네트워크 기술, 서버, 소프트웨어 및 기술 서비스의 구성 요소가 포함됩니다.

또한 빅 데이터 기술의 사용은 기업의 활동을 자동화하도록 설계된 소득 보장(RA)급 솔루션과 관련이 있습니다. 최신 소득 보장 시스템에는 불일치를 감지하는 도구와 재무 결과의 감소로 이어질 수 있는 정보의 손실 또는 왜곡 가능성을 적시에 감지할 수 있는 심층 데이터 분석이 포함됩니다. 이러한 배경에서 러시아 기업들은 국내 빅데이터 기술 수요를 확인하면서 러시아 빅데이터 발전을 촉진하는 요인은 데이터의 성장, 경영의사결정의 가속화, 품질.

빅 데이터 작업을 방해하는 요소

오늘날 빅데이터 급의 분석 솔루션을 사용하여 해결할 수 있는 산업 전반의 과제가 객관적으로 있음에도 불구하고 축적된 디지털 데이터의 0.5%만 분석됩니다. 선진 IT 시장은 빅 데이터의 축적 및 처리와 관련된 기대치를 평가하는 데 사용할 수 있는 결과를 이미 가지고 있습니다.

높은 비용과 함께 빅 데이터 프로젝트의 구현을 지연시키는 주요 요인 중 하나는 다음과 같습니다. 처리할 데이터를 선택하는 문제: 즉, 어떤 데이터를 추출, 저장 및 분석해야 하고 어떤 데이터를 고려하지 않아야 하는지에 대한 정의입니다.

많은 비즈니스 담당자는 빅 데이터 프로젝트 구현의 어려움이 마케터 및 분석가와 같은 전문가의 부족과 관련이 있다는 점에 주목합니다. 빅 데이터에 대한 투자 수익률은 심층적이고 예측적인 분석에 참여하는 직원의 작업 품질에 직접적으로 의존합니다. 조직에 이미 존재하는 데이터의 엄청난 잠재력은 구식 비즈니스 프로세스나 내부 규정으로 인해 마케터 스스로 효과적으로 사용할 수 없는 경우가 많습니다. 따라서 빅 데이터 프로젝트는 구현뿐만 아니라 결과, 즉 수집된 데이터의 가치를 평가하는 데에도 어려운 것으로 기업에서 인식하는 경우가 많습니다. 데이터 작업의 세부 사항으로 인해 마케터와 분석가는 기술 및 보고에서 특정 비즈니스 문제 해결로 관심을 전환해야 합니다.

대량의 데이터 흐름과 빠른 속도로 인해 데이터 수집 프로세스에는 실시간 ETL 절차가 포함됩니다. 참고로:ETL - 에서영어발췌, 변환, 짐- 말 그대로 "추출, 변환, 로딩") - 관리의 주요 프로세스 중 하나 다음을 포함하는 데이터 웨어하우스: 외부 소스에서 데이터 추출, 변환 및 필요에 맞는 청소 ETL은 한 응용 프로그램에서 다른 응용 프로그램으로 데이터를 전송하는 프로세스일 뿐만 아니라 분석을 위해 데이터를 준비하는 도구로 간주되어야 합니다.

그리고 외부 소스에서 오는 데이터의 보안을 보장하는 문제에는 수집된 정보의 양에 해당하는 솔루션이 있어야 합니다. 빅 데이터 분석 방법은 데이터 양이 증가한 후에야 개발되기 때문에 새로운 데이터 준비 및 집계 방법을 사용할 수 있는 분석 플랫폼의 능력이 중요한 역할을 합니다. 이는 예를 들어 잠재적 구매자에 대한 데이터나 온라인 상점 사이트에 대한 클릭 이력이 있는 대규모 데이터 웨어하우스가 다양한 문제를 해결하는 데 흥미로울 수 있음을 시사합니다.

어려움은 멈추지 않는다

빅 데이터 구현의 모든 어려움에도 불구하고 비즈니스는 이 분야에 대한 투자를 늘릴 계획입니다. Gartner 데이터에 따르면 2013년에 세계 최대 기업의 64%가 비즈니스를 위한 빅 데이터 기술 배포에 이미 투자했거나 투자할 계획이 있는 반면 2012년에는 그러한 기업의 58%가 있었습니다. Gartner 연구에 따르면 빅 데이터에 투자하는 산업의 리더는 미디어 회사, 통신 회사, 은행 부문 및 서비스 회사입니다. 빅 데이터 구현의 성공적인 결과는 RFID 도구, 물류 및 재배치 시스템(영어에서 유래)을 사용하여 얻은 데이터를 사용하는 측면에서 소매 업계의 많은 주요 업체에 의해 이미 달성되었습니다. 채움- 축적, 보충 - R&T) 및 로열티 프로그램에서. 성공적인 소매 경험은 다른 시장 부문이 빅 데이터를 수익화하는 새롭고 효과적인 방법을 찾도록 자극하여 분석을 비즈니스 개발에 유용한 리소스로 전환합니다. 이 덕분에 전문가들에 따르면 2020년까지 데이터 1GB당 관리 및 저장에 대한 투자는 2달러에서 0.2달러로 줄어들지만 빅 데이터의 기술적 속성에 대한 연구 및 분석은 40%만 증가할 것이라고 합니다. %.

빅데이터 분야의 다양한 투자 프로젝트에서 제시되는 비용은 성격이 다릅니다. 비용 항목은 특정 결정에 따라 선택되는 제품 유형에 따라 다릅니다. 전문가들에 따르면 투자 프로젝트 비용의 가장 큰 부분은 데이터 수집, 구조화, 정리 및 정보 관리와 관련된 제품입니다.

완료 방법

소셜 미디어 및 모바일 애플리케이션에서 비즈니스 데이터 마이닝 및 시각화에 이르기까지 다양한 비즈니스 분야에 효과적인 빅 데이터 솔루션을 생성할 수 있는 소프트웨어와 하드웨어의 조합이 많이 있습니다. 빅 데이터의 중요한 이점은 비즈니스에서 널리 사용되는 데이터베이스와 새로운 도구의 호환성이며, 이는 다채널 판매 및 고객 지원 구성과 같은 학제 간 프로젝트를 수행할 때 특히 중요합니다.

빅 데이터 작업의 순서는 데이터 수집, 보고서 및 대시보드(대시보드)를 사용하여 수신된 정보 구성, 통찰력 및 컨텍스트 생성, 조치 권장 사항 공식화로 구성됩니다. 빅데이터로 작업한다는 것은 데이터를 수집하는 데 많은 비용이 들며, 그 처리 결과를 미리 알 수 없기 때문에 주요 과제는 데이터의 가용 양이 아니라 데이터의 용도를 명확히 이해하는 것입니다. 이 경우 데이터 수집은 특정 문제를 해결하는 데 매우 필요한 정보를 얻는 과정으로 바뀝니다.

예를 들어, 통신 제공업체는 지속적으로 업데이트되는 지리적 위치를 포함하여 엄청난 양의 데이터를 집계합니다. 이 정보는 소매업체와 은행은 물론 타겟 및 현지화된 광고를 제공하는 데 사용할 수 있는 광고 대행사의 상업적 관심이 될 수 있습니다. 이러한 데이터는 강력한 표적 유동인구의 존재에 대한 데이터를 기반으로 특정 위치에 소매점을 개설할지 여부를 결정하는 데 중요한 역할을 할 수 있습니다. 런던의 옥외 광고판에 광고 효과를 측정한 사례가 있습니다. 이제 그러한 광고의 범위는 행인을 계산하는 특수 장치로 광고 구조물 근처에 사람들을 배치해야만 측정할 수 있습니다. 이러한 유형의 광고 효과 측정과 비교할 때 이동 통신 사업자는 가입자의 위치를 정확히 알고 인구 통계 학적 특성, 성별, 연령, 결혼 여부 등을 알고 있습니다.

이러한 데이터를 기반으로 미래에 잠재 고객은 광고판을 지나가는 특정 사람의 선호도를 사용하여 광고 메시지의 내용을 변경할 수 있습니다. 데이터에 지나가는 사람이 많이 여행하는 것으로 표시되면 리조트 광고가 표시될 수 있습니다. 축구 경기의 주최자는 경기에 올 때만 팬 수를 추정할 수 있습니다. 그러나 그들이 모바일 운영자에게 경기 전 1시간, 하루 또는 한 달 전에 방문자가 어디에 있었는지에 대한 정보를 요청할 수 있다면 주최자는 다음 경기를 광고할 장소를 계획할 기회를 줄 것입니다.

또 다른 예는 은행이 사기를 방지하기 위해 빅 데이터를 사용하는 방법입니다. 고객이 카드 분실신고를 하고 이를 이용하여 구매시 은행은 거래가 발생한 구매지역에서 고객의 휴대폰 위치를 실시간으로 확인하여 고객의 거래내역서 정보를 확인할 수 있습니다. 그가 그를 속이려 했는지 여부. 또는 반대의 경우, 고객이 상점에서 구매할 때 은행은 거래가 발생한 카드와 고객의 전화가 같은 장소에 있는 것을 보고 카드 소유자가 카드를 사용하고 있다고 결론을 내릴 수 있습니다. . 이러한 빅 데이터의 장점 덕분에 기존 데이터 웨어하우스가 부여받은 경계가 확장되고 있습니다.

기업이 빅데이터 솔루션을 성공적으로 구현하기 위해서는 투자 케이스를 계산해야 하며, 이는 알려지지 않은 많은 구성 요소로 인해 큰 어려움을 초래합니다. 이러한 경우 분석의 역설은 종종 누락되는 정보를 바탕으로 미래를 예측하는 것입니다. 이 경우 중요한 요소는 초기 조치에 대한 명확한 계획입니다.

첫째, 빅 데이터 기술이 사용될 하나의 특정 비즈니스 문제를 정의해야 하며, 이 작업은 선택한 개념의 정확성을 결정하는 핵심이 될 것입니다. 이 특정 작업과 관련된 데이터 수집에 집중해야 하며, 개념 증명 중에 미래에 보다 정보에 입각한 결정을 내릴 수 있도록 하는 다양한 도구, 프로세스 및 관리 방법을 사용할 수 있습니다.
둘째, 데이터 분석 기술과 경험이 없는 기업은 빅데이터 프로젝트를 성공적으로 수행하기 어렵다. 필요한 지식은 항상 데이터 작업 품질에 영향을 미치는 주요 요인인 분석에 대한 이전 경험에서 비롯됩니다. 정보의 분석은 종종 비즈니스에 대한 냉혹한 진실을 드러내기 때문에 데이터를 사용하는 문화가 중요한 역할을 하고, 이러한 진실을 받아들이고 작업하기 위해서는 개발된 데이터 작업 방법이 필요합니다.
셋째, 빅 데이터 기술의 가치는 통찰력을 제공하는 데 있습니다.훌륭한 분석가는 시장에서 공급이 부족합니다. 데이터의 상업적 의미를 깊이 이해하고 올바르게 적용하는 방법을 알고 있는 전문가라고 합니다. 데이터 분석은 비즈니스 목표를 달성하기 위한 수단이며, 빅데이터의 가치를 이해하기 위해서는 적절한 행동 모델과 행동에 대한 이해가 필요합니다. 이 경우 빅 데이터는 소비자에 대한 많은 유용한 정보를 제공하여 유용한 비즈니스 결정을 내릴 수 있습니다.

러시아 빅 데이터 시장이 이제 막 형성되기 시작했음에도 불구하고 이 분야의 일부 프로젝트는 이미 성공적으로 구현되고 있습니다. 그들 중 일부는 Federal Tax Service 및 Tinkoff Credit Systems를 위한 프로젝트와 같은 데이터 수집 분야에서 성공했으며 다른 일부는 데이터 분석 및 결과의 실제 적용 측면에서 성공했습니다. 이것이 Synqera 프로젝트입니다.

Tinkoff Credit Systems Bank는 대규모 병렬 컴퓨팅을 위한 도구인 EMC2 Greenplum 플랫폼을 구현하는 프로젝트를 구현했습니다. 최근 들어 은행은 높은 신용카드 이용자 증가율로 인해 축적된 정보의 처리 속도와 실시간 데이터 분석에 대한 요구를 높이고 있다. AfDB는 특히 비정형 데이터를 처리하고 다양한 출처에서 얻은 기업 정보를 다루는 데 빅 데이터 기술의 사용을 확대할 계획이라고 발표했다.

러시아 연방 세금 서비스는 현재 연방 데이터 웨어하우스의 분석 계층을 만들고 있습니다. 이를 기반으로 통계 및 분석 처리를 위해 세금 데이터에 액세스할 수 있는 단일 정보 공간과 기술이 만들어지고 있습니다. 프로젝트를 구현하는 동안 연방 세무 서비스의 지역 수준에서 1200개 이상의 소스를 사용하여 분석 정보를 중앙 집중화하는 작업이 수행되고 있습니다.

실시간 빅데이터 분석의 또 다른 흥미로운 예는 Simplate 플랫폼을 개발한 러시아 스타트업 Synqera입니다. 이 솔루션은 대용량 데이터 배열 처리를 기반으로 하며 프로그램은 고객, 구매 내역, 연령, 성별 및 기분에 대한 정보를 분석합니다. 화장품 매장 네트워크의 금전 등록기에는 고객의 감정을 인식하는 센서가 있는 터치 스크린이 설치되었습니다. 이 프로그램은 사람의 기분을 결정하고 그에 대한 정보를 분석하고 시간을 결정하고 매장의 할인 데이터베이스를 스캔한 후 프로모션 및 특별 제안에 대한 대상 메시지를 구매자에게 보냅니다. 이 솔루션은 고객 충성도를 높이고 소매업체 매출을 높입니다.

외국의 성공사례를 이야기하자면 그런 면에서 실시간 데이터를 활용해 상품을 판매하는 던킨도너츠에서 빅데이터 기술을 활용한 경험이 흥미롭다. 매장의 디지털 디스플레이는 시간과 제품 가용성에 따라 1분마다 변경되는 제안을 표시합니다. 현금 영수증에 따르면 회사는 구매자로부터 가장 큰 응답을 받은 제안에 대한 데이터를 받습니다. 이 데이터 처리 방식을 통해 창고에 있는 상품의 수익과 회전율을 높일 수 있었습니다.

빅 데이터 프로젝트를 구현한 경험에서 알 수 있듯이 이 영역은 현대 비즈니스 문제를 성공적으로 해결하도록 설계되었습니다. 동시에 빅 데이터로 작업할 때 상업적 목표를 달성하는 데 있어 중요한 요소는 올바른 전략을 선택하는 것입니다. 여기에는 소비자 요구를 식별하는 분석과 빅 데이터 분야의 혁신적인 기술 사용이 포함됩니다.

Econsultancy와 Adobe가 2012년부터 매년 기업 마케터를 대상으로 실시한 글로벌 설문 조사에 따르면 인터넷에서 사람들의 행동을 특징짓는 "빅 데이터"는 많은 것을 할 수 있습니다. 그들은 오프라인 비즈니스 프로세스를 최적화하고, 모바일 장치 소유자가 정보를 검색하기 위해 모바일 장치를 사용하는 방법을 이해하거나 단순히 "마케팅을 개선"할 수 있습니다. 더 효율적입니다. 또한 마지막 기능은 다이어그램에서 볼 수 있듯이 해가 갈수록 인기를 얻고 있습니다.

고객 관계 측면에서 인터넷 마케터의 주요 업무 영역

원천: Econsultancy 및 Adobe, 출판emarketer.com

응답자의 국적은 그다지 중요하지 않습니다. 2013년 KPMG에서 실시한 설문조사에 따르면 "낙관주의자" 즉, 비즈니스 전략을 수립할 때 빅 데이터를 사용하는 사람들의 비율은 56%이고 지역별 변동이 작습니다. 북미 국가의 63%에서 EMEA의 50%입니다.

세계 여러 지역의 빅데이터 활용

원천: KPMG, 출판emarketer.com

한편, 그러한 "패션 트렌드"에 대한 마케터의 태도는 잘 알려진 일화를 다소 연상시킵니다.

말해봐, 바노, 토마토 좋아하니?
- 먹는 것을 좋아하지만 먹지 않습니다.

마케터들이 빅 데이터를 "사랑"하고 심지어 사용하는 것처럼 보이지만 사실 소셜 네트워크에서 진심 어린 애착에 대해 글을 쓸 때 "모든 것이 복잡합니다".

Circle Research가 2014년 1월 유럽 마케터를 대상으로 실시한 설문 조사에 따르면 응답자 5명 중 4명은 빅 데이터를 사용하지 않습니다(물론 "좋아하지만"). 이유는 다릅니다. 열렬한 회의론자는 거의 없습니다 - 17% 및 그들의 대척점과 정확히 같은 숫자입니다. 자신있게 "예"라고 대답하는 사람들. 나머지는 주저하고 의심하는 "늪"입니다. 그들은 "아직은 아니지만 곧" 또는 "다른 사람들이 시작할 때까지 기다릴 것"과 같은 그럴듯한 핑계로 직접적인 대답을 피합니다.

마케터의 빅 데이터 사용, 유럽, 2014년 1월

원천:dnx, 출판 -이마케터.com

무엇이 그들을 혼란스럽게 합니까? 말도 안되는 소리. 일부(정확히 절반)는 이 데이터를 믿지 않습니다. 다른 사람들(55%)은 "데이터"와 "사용자" 집합을 서로 연관시키는 것이 어렵다고 생각합니다. 누군가(정치적으로 옳게 말하자)는 회사 내부에 혼란이 있습니다. 데이터는 마케팅 부서와 IT 구조 사이를 소유자 없이 이동합니다. 다른 사람들에게는 소프트웨어가 작업 유입에 대처할 수 없습니다. 등. 전체 지분이 100%를 훨씬 상회하기 때문에 "다중 장벽"의 상황이 드문 일이 아님은 분명합니다.

마케팅에서 빅 데이터 사용을 가로막는 장벽

원천:dnx, 출판 -이마케터.com

따라서 우리는 지금까지 "빅 데이터"가 여전히 사용해야 하는 큰 잠재력이라고 말해야 합니다. 그건 그렇고, 우리가 이미 언급한 Econsultancy 회사에서 수행한 설문 조사 데이터에서 알 수 있듯이 이것이 빅 데이터가 "패션 트렌드" 후광을 잃는 이유일 수 있습니다.

2013-2014년 디지털 마케팅의 가장 중요한 트렌드

원천: 컨설팅 및 어도비

그들은 또 다른 왕 - 콘텐츠 마케팅으로 대체되고 있습니다. 얼마나 오래?

빅데이터는 근본적으로 새로운 현상이라고 할 수 없습니다. 빅 데이터 소스는 고객 구매, 신용 기록, 라이프스타일 데이터베이스와 같은 수년간 존재해 왔습니다. 그리고 수년 동안 과학자들은 이 데이터를 사용하여 기업이 위험을 평가하고 미래의 고객 요구를 예측하는 데 도움을 주었습니다. 그러나 오늘날 상황은 두 가지 측면에서 바뀌었습니다.

다양한 데이터 세트를 분석하고 결합하기 위해 보다 정교한 도구와 방법이 등장했습니다.

이러한 분석 도구는 거의 모든 데이터 수집 및 측정 방법의 디지털화로 인해 발생하는 새로운 데이터 소스로 보완됩니다.

이용 가능한 정보의 범위는 구조화된 연구 환경에서 자란 연구자에게 영감을 주기도 하고 위협하기도 합니다. 소비자 감정은 웹사이트와 모든 종류의 소셜 미디어에 의해 포착됩니다. 광고를 본 사실은 셋톱박스뿐만 아니라 TV와 통신하는 디지털 태그와 모바일 기기를 통해서도 기록된다.

행동 데이터(예: 통화 수, 쇼핑 습관 및 구매)는 이제 실시간으로 제공됩니다. 따라서 이전에는 연구를 통해 학습할 수 있었던 대부분이 이제 빅 데이터 소스를 통해 학습할 수 있습니다. 그리고 이러한 모든 정보 자산은 연구 프로세스에 관계없이 끊임없이 생성됩니다. 이러한 변화로 인해 빅 데이터가 기존 시장 조사를 대체할 수 있는지 궁금합니다.

데이터에 관한 것이 아니라 질문과 답변에 관한 것입니다

고전 연구를 위한 죽음의 신호를 주문하기 전에 우리는 데이터 자산의 존재 여부가 아니라 결정적인 다른 무엇인가가 존재한다는 사실을 스스로에게 상기시켜야 합니다. 정확히 무엇? 질문에 답하는 우리의 능력이 바로 그것입니다. 빅 데이터의 새로운 세계에 대한 재미있는 점은 새로운 데이터 자산의 결과가 더 많은 질문을 낳고 이러한 질문에 대한 답은 전통적인 연구를 통해 가장 잘 해결되는 경향이 있다는 것입니다. 따라서 빅 데이터가 성장함에 따라 빅 데이터 세계의 질문에 대한 답을 제공할 수 있는 "스몰 데이터"에 대한 가용성과 수요가 동시에 증가하는 것을 봅니다.

한 대형 광고주가 매장의 트래픽과 판매량을 실시간으로 지속적으로 모니터링하는 상황을 고려해 보겠습니다. 기존 연구 방법론(연구 패널 참가자에게 판매 시점에서의 구매 동기 및 행동에 대해 질문)은 특정 고객 세그먼트를 더 잘 타겟팅하는 데 도움이 됩니다. 이러한 방법론은 빅데이터가 수동적 관찰 및 연구의 수단이 되는 지점까지 더 넓은 범위의 빅데이터 자산을 포함하도록 확장될 수 있으며, 연구를 필요로 하는 변화나 사건에 대한 지속적이고 협소한 조사 방법입니다. 이것이 빅 데이터가 연구를 불필요한 일상에서 해방시킬 수 있는 방법입니다. 1차 연구는 더 이상 무슨 일이 일어나고 있는지에 초점을 맞추어서는 안 됩니다(빅 데이터는 그럴 것입니다). 대신 1차 연구는 특정 경향이나 경향에서 벗어난 이유를 설명하는 데 집중할 수 있습니다. 연구원은 데이터를 얻는 것에 대해 덜 생각하고 그것을 분석하고 사용하는 방법에 대해 더 많이 생각할 수 있습니다.

동시에 우리는 빅 데이터가 우리의 가장 큰 문제 중 하나인 지나치게 긴 연구의 문제를 해결하고 있음을 알고 있습니다. 연구 자체를 조사한 결과 지나치게 부풀려진 연구 도구가 데이터 품질에 부정적인 영향을 미치는 것으로 나타났습니다. 많은 전문가들이 오랫동안 이 문제를 인정했지만 “하지만 고위 경영진에게 이 정보가 필요합니다.”라는 문구로 한결같이 대답했고 긴 인터뷰가 계속되었습니다.

수동적 관찰을 통해 정량적 지표를 얻을 수 있는 빅데이터의 세계에서 이 문제는 무의미해진다. 다시, 이 모든 소비 연구를 다시 생각해 봅시다. 빅데이터가 소극적인 관찰을 통해 소비에 대한 통찰력을 준다면 설문조사 형식의 1차 연구는 더 이상 이런 정보를 수집할 필요가 없고 마침내 짧은 설문조사의 비전을 좋은 희망으로 뒷받침할 수 있을 뿐만 아니라 뭔가 진짜.

빅 데이터는 당신의 도움이 필요합니다

마지막으로 "빅"은 빅 데이터의 특성 중 하나일 뿐입니다. "큰" 특성은 데이터의 크기와 규모를 나타냅니다. 물론 이 데이터의 양이 이전에 작업한 모든 것의 범위를 넘어서기 때문에 이것이 주요 특징입니다. 그러나 이러한 새로운 데이터 스트림의 다른 특성도 중요합니다. 형식이 잘못 지정되고 구조화되지 않고(또는 기껏해야 부분적으로 구조화됨) 불확실성이 가득합니다. 적절하게 "엔티티 분석"으로 명명된 데이터 관리의 새로운 분야는 빅 데이터의 노이즈를 극복하는 문제를 해결하는 것을 목표로 합니다. 그 임무는 이러한 데이터 세트를 분석하고 동일한 사람에 대한 관찰이 얼마나 많은지, 어떤 관찰이 최신인지, 그리고 그 중 어떤 것이 사용 가능한지 알아내는 것입니다.

이러한 종류의 데이터 정리는 크거나 작은 데이터 자산으로 작업할 때 노이즈나 잘못된 데이터를 제거하는 데 필요하지만 충분하지 않습니다. 또한 이전 경험, 분석 및 범주 지식을 기반으로 빅 데이터 자산에 대한 컨텍스트를 생성해야 합니다. 실제로 많은 분석가들은 빅 데이터에 내재된 불확실성을 관리하는 능력이 더 나은 의사 결정을 가능하게 하므로 경쟁 우위의 원천으로 지적합니다.

빅데이터 덕분에 1차 연구가 일상에서 해방될 뿐만 아니라 빅데이터 내에서 콘텐츠 생성 및 분석에 기여하는 곳이기도 하다.

이것의 대표적인 예는 우리의 새로운 브랜드 자산 프레임워크를 소셜 미디어에 적용하는 것입니다. (우리는 에서 개발된 것에 대해 이야기하고 있습니다.밀워드 갈색브랜드 가치 측정에 대한 새로운 접근그만큼 의미있게 다른 뼈대- "중요한 차이의 패러다임"-아르 자형 & 티 ). 이 모델은 특정 시장 내에서 행동 테스트를 거쳐 표준 기반으로 구현되었으며 다른 마케팅 분야 및 의사 결정 지원 정보 시스템에 쉽게 적용할 수 있습니다. 즉, 설문 조사(설문 조사뿐만 아니라)를 기반으로 하는 당사의 브랜드 자산 모델은 빅 데이터의 비정형, 단절 및 불확실한 특성을 극복하는 데 필요한 모든 속성을 가지고 있습니다.

소셜 미디어에서 제공하는 소비자 감정 데이터를 고려하십시오. 원시 형태에서 소비자 감정의 최고점과 최저점은 브랜드 자산 및 행동의 오프라인 측정과 거의 상관 관계가 없는 경우가 많습니다. 데이터에 너무 많은 노이즈가 있습니다. 그러나 우리는 소비자 의미, 브랜드 차별화, 역학 및 정체성 모델을 원시 소비자 감정 데이터에 적용하여 이러한 소음을 줄일 수 있습니다. 이는 이러한 차원을 따라 소셜 미디어 데이터를 처리하고 집계하는 방법입니다.

데이터가 프레임워크 모델에 따라 구성되면 식별된 추세는 일반적으로 오프라인에서 얻은 브랜드 자산 및 행동 측정과 일치합니다. 사실, 소셜 미디어 데이터는 그 자체로 말할 수 없습니다. 이러한 목적으로 사용하려면 브랜드를 중심으로 구축된 경험과 모델이 필요합니다. 소셜 미디어가 소비자가 브랜드를 설명하는 데 사용하는 언어로 표현된 고유한 정보를 제공할 때 1차 조사를 훨씬 더 효과적으로 만들기 위해 조사를 생성할 때 해당 언어를 사용해야 합니다.

면제 연구의 이점

이것은 빅 데이터가 연구를 대신하는 것이 아니라 연구를 자유롭게 해준다는 사실을 다시 상기시킵니다. 연구자들은 각각의 새로운 사례에 대해 새로운 연구를 생성해야 하는 부담을 덜게 될 것입니다. 계속 증가하는 빅 데이터 자산은 다양한 연구 주제에 사용될 수 있으므로 후속 1차 연구에서 주제를 더 깊이 파고들어 격차를 채울 수 있습니다. 연구자들은 지나치게 부풀려진 설문조사에 의존하지 않아도 됩니다. 대신 짧은 설문조사를 사용하고 가장 중요한 매개변수에 집중할 수 있으므로 데이터 품질이 향상됩니다.

이번 릴리스를 통해 연구원들은 확립된 원칙과 통찰력을 사용하여 빅 데이터 자산에 정확성과 의미를 추가하여 설문 조사 연구의 새로운 영역으로 이어질 수 있습니다. 이 주기는 다양한 전략적 문제에 대한 더 깊은 이해로 이어져 궁극적으로 브랜드 및 커뮤니케이션 결정의 품질을 알리고 개선하는 우리의 주요 목표가 되어야 하는 방향으로 나아가야 합니다.

"빅 데이터"라는 용어는 오늘날 인식할 수 있지만 실제로 의미하는 바에 대해서는 여전히 약간의 혼란이 있습니다. 사실, 이 개념은 인공 지능, 데이터 과학, 사물 인터넷을 포함하여 계속되는 많은 디지털 혁신의 원동력으로 남아 있기 때문에 끊임없이 진화하고 재정의되고 있습니다. 그러나 빅 데이터 기술은 무엇이며 우리 세상을 어떻게 변화시키고 있습니까? 빅데이터 기술의 본질과 그 의미를 간단한 단어로 이해해 봅시다.

이 모든 것은 디지털 시대가 시작된 이래로 생성된 데이터 양의 "폭발"로 시작되었습니다. 이것은 주로 컴퓨터, 인터넷 및 우리 주변 세계에서 데이터를 "훔칠" 수 있는 기술의 발달로 인한 것입니다. 데이터 자체는 새로운 발명품이 아닙니다. 컴퓨터와 데이터베이스 시대 이전에도 데이터인 종이 거래 기록, 고객 기록, 아카이브 파일을 사용했습니다. 컴퓨터, 특히 스프레드시트와 데이터베이스 덕분에 우리는 대규모 데이터를 쉽게 저장하고 구성할 수 있습니다. 갑자기 마우스를 클릭하면 정보가 제공됩니다.

그러나 우리는 원래 테이블과 데이터베이스에서 먼 길을 왔습니다. 오늘날 우리는 처음부터 2000년까지 받은 만큼의 데이터를 이틀마다 생성합니다. 맞습니다. 이틀에 한 번입니다. 그리고 우리가 생성하는 데이터의 양은 계속해서 급증하고 있습니다. 2020년까지 사용 가능한 디지털 정보의 양이 약 5제타바이트에서 20제타바이트로 증가할 것입니다.

오늘날 우리가 취하는 거의 모든 행동은 흔적을 남깁니다. 우리는 인터넷에 접속할 때, 검색 엔진이 탑재된 스마트폰을 들고 다닐 때, 소셜 네트워크나 채팅 등을 통해 지인과 대화할 때마다 데이터를 생성합니다. 또한 머신 생성 데이터의 양도 빠르게 증가하고 있습니다. 스마트 홈 장치가 서로 또는 홈 서버와 통신할 때 데이터가 생성되고 공유됩니다. 공장 및 공장의 산업 장비에는 데이터를 축적하고 전송하는 센서가 점점 더 많이 장착되고 있습니다.

"빅 데이터"라는 용어는 이 모든 데이터의 수집과 비즈니스를 포함한 광범위한 영역에서 이를 유리하게 사용할 수 있는 능력을 의미합니다.

빅 데이터 기술은 어떻게 작동합니까?

빅 데이터는 원칙에 따라 작동합니다. 특정 주제 또는 현상에 대해 더 많이 알수록 더 확실하게 새로운 이해를 달성하고 미래에 일어날 일을 예측할 수 있습니다. 더 많은 데이터 요소를 비교함으로써 이전에 숨겨져 있던 관계가 나타나고 이러한 관계를 통해 우리는 더 나은 결정을 내리고 더 나은 결정을 내릴 수 있습니다. 이것은 우리가 수집할 수 있는 데이터에서 모델을 구축한 다음 매번 데이터 포인트의 값을 조정하고 결과에 미치는 영향을 확인하는 시뮬레이션을 실행하는 프로세스를 통해 가장 자주 수행됩니다. 이 프로세스는 자동화되어 있습니다. 최신 분석 기술은 수백만 건의 시뮬레이션을 실행하여 작업 중인 문제를 해결하는 데 도움이 되는 모델 또는 아이디어를 찾을 때까지 가능한 모든 변수를 조정합니다.

빌 게이츠는 한 장의 CD 종이 내용 위에 매달려 있습니다.

최근까지 데이터는 스프레드시트나 데이터베이스로 제한되었으며 모든 것이 매우 체계적이고 깔끔했습니다. 행과 열로 쉽게 구성할 수 없는 것은 작업하기에 너무 복잡한 것으로 간주되어 무시되었습니다. 그러나 저장 및 분석의 발전은 다양한 유형의 대용량 데이터를 캡처, 저장 및 처리할 수 있음을 의미합니다. 결과적으로 오늘날 "데이터"는 데이터베이스에서 사진, 비디오, 녹음, 서면 텍스트 및 센서 데이터에 이르기까지 모든 것을 의미할 수 있습니다.

이 모든 지저분한 데이터를 이해하기 위해 빅 데이터 기반 프로젝트는 종종 인공 지능 및 기계 학습을 사용하는 최첨단 분석을 사용합니다. 예를 들어 패턴 인식이나 자연어 처리를 통해 특정 데이터가 무엇인지 결정하도록 컴퓨터를 교육함으로써 우리는 컴퓨터가 우리보다 훨씬 빠르고 안정적으로 패턴을 식별하도록 가르칠 수 있습니다.

빅 데이터는 어떻게 사용됩니까?

센서 데이터, 텍스트, 음성, 사진 및 비디오 데이터에 대한 정보의 계속 증가하는 흐름은 이제 몇 년 전만 해도 상상할 수 없었던 방식으로 데이터를 사용할 수 있음을 의미합니다. 이는 거의 모든 산업에서 비즈니스 세계에 혁신적인 변화를 가져옵니다. 오늘날 기업은 어떤 특정 범주의 고객이 인수를 원할 것인지, 언제 인수할지 믿을 수 없을 정도로 정확하게 예측할 수 있습니다. 빅 데이터는 또한 기업이 훨씬 더 효율적으로 활동을 수행하는 데 도움이 됩니다.

비즈니스 외부에서도 빅 데이터 프로젝트는 이미 다양한 방식으로 세상을 변화시키는 데 도움을 주고 있습니다.

의료 개선 – 데이터 기반 의학은 질병을 조기에 감지하고 신약을 개발하는 데 도움이 될 수 있는 모델에 대한 방대한 양의 의료 정보와 이미지를 분석할 수 있습니다.
자연재해와 인공재해를 예측하고 대응합니다. 센서 데이터를 분석하여 지진이 발생할 수 있는 위치를 예측할 수 있으며 인간의 행동 패턴은 조직이 생존자를 지원하는 데 도움이 되는 단서를 제공합니다. 빅 데이터 기술은 또한 전 세계 전쟁 지역에서 난민의 흐름을 추적하고 보호하는 데 사용됩니다.
범죄 예방. 경찰은 자원을 더 잘 활용하고 필요한 경우 대응 조치를 취하기 위해 자체 정보와 공개 영역 정보를 통합하는 데이터 기반 전략을 점점 더 많이 사용하고 있습니다.

빅 데이터 기술에 관한 최고의 책

모두가 거짓말을 합니다. 검색 엔진, 빅 데이터 및 인터넷은 귀하에 대한 모든 것을 알고 있습니다.
빅 데이터. 모든 기술을 한 책에 담았습니다.
행복산업. 빅 데이터와 신기술이 상품과 서비스에 감성을 더하는 방법.
분석의 혁명. 빅 데이터 시대에 운영 분석으로 비즈니스를 개선하는 방법.

빅 데이터의 문제

빅 데이터는 전례 없는 통찰력과 기회를 제공하지만 해결해야 할 문제와 질문도 제기합니다.

데이터 개인 정보 보호 – 오늘날 우리가 생성하는 빅 데이터에는 개인 생활에 대한 많은 정보가 포함되어 있으며 이를 비공개로 유지할 권리가 있습니다. 점점 더 자주, 우리는 우리가 공개하는 개인 데이터의 양과 빅 데이터 사용을 기반으로 하는 애플리케이션 및 서비스가 제공하는 편리함 사이에서 균형을 유지해야 합니다.
데이터 보호 - 누군가가 특정 목적을 위해 우리의 데이터를 가지고 있다고 생각하더라도 우리의 데이터를 안전하게 보호할 수 있다고 믿을 수 있습니까?
데이터 차별 - 모든 정보가 알려지면 개인 생활의 데이터를 기반으로 사람들을 차별하는 것이 허용됩니까? 우리는 이미 신용 점수를 사용하여 돈을 빌릴 수 있는 사람을 결정하고 있으며, 보험 역시 데이터 중심적입니다. 우리는 더 자세히 분석되고 평가될 것으로 예상해야 하지만 이것이 자원이 적고 정보에 대한 접근이 제한된 사람들의 삶을 복잡하게 만들지 않도록 주의해야 합니다.

이러한 작업을 수행하는 것은 빅 데이터의 중요한 부분이며 이러한 데이터를 사용하려는 조직에서 해결해야 합니다. 그렇게 하지 않으면 기업의 평판뿐만 아니라 법적, 재정적으로도 취약해질 수 있습니다.

미래를 내다보며

데이터는 전례 없는 속도로 세상과 삶을 변화시키고 있습니다. 빅 데이터가 오늘 이 모든 것을 할 수 있다면 내일은 어떤 것이 가능할지 상상해 보십시오. 우리가 사용할 수 있는 데이터의 양은 점점 늘어날 것이며 분석 기술은 더욱 발전될 것입니다.

기업의 경우 빅 데이터를 적용하는 능력은 향후 몇 년 동안 점점 더 중요해질 것입니다. 데이터를 전략적 자산으로 여기는 기업만이 살아남고 번창할 것입니다. 이 혁명을 무시하는 사람들은 뒤처질 위험이 있습니다.

한번은 독일 Gref(Sberbank의 책임자)로부터 "빅 데이터"라는 용어를 들었습니다. 마찬가지로, 그들은 현재 구현에 적극적으로 노력하고 있습니다. 그래야 각 클라이언트와 작업하는 시간을 줄이는 데 도움이 되기 때문입니다.

내가 이 개념을 두 번째로 접한 것은 고객의 온라인 상점에서였습니다. 거기서 우리는 일했고 상품 품목의 범위를 수만 개에서 수만 개까지 늘렸습니다.

나는 Yandex에 빅 데이터 분석가가 필요하다는 것을 세 번째로 보았습니다. 그런 다음 이 주제에 대해 더 깊이 파고드는 동시에 TOP 관리자와 인터넷 공간의 마음을 설레게 하는 용어가 무엇인지 알려주는 기사를 작성하기로 결정했습니다.

VVV 또는 VVVVV

나는 일반적으로 그것이 어떤 종류의 용어인지에 대한 설명으로 기사를 시작합니다. 이 기사도 예외는 아닙니다.

그러나 이것은 내가 얼마나 똑똑한지 보여주고 싶은 욕망 때문이 아니라 주제가 정말 복잡하고 세심한 설명이 필요하기 때문입니다.

예를 들어 Wikipedia에서 빅 데이터가 무엇인지 읽고 아무것도 이해하지 못한 다음 이 문서로 돌아와 비즈니스에 대한 정의와 적용 가능성을 계속 이해할 수 있습니다. 이제 설명으로 시작한 다음 비즈니스 예를 살펴보겠습니다.

빅 데이터는 빅 데이터입니다. 놀랍죠? 사실 영어로는 '빅데이터'로 번역된다. 그러나 이 정의는 인형을 위한 것이라고 말할 수 있습니다.

중요한. 빅 데이터 기술은 기존 방식으로 처리하기 어려운 새로운 정보를 얻기 위해 더 많은 데이터를 처리하는 접근 방식/방법입니다.

데이터는 처리(구조화)되고 단편화(즉, 구조화되지 않음)될 수 있습니다.

용어 자체는 비교적 최근에 나타났습니다. 2008년 과학 저널은 이 접근 방식을 기하급수적으로 증가하는 방대한 정보를 처리하는 데 필요한 것으로 예측했습니다.

예를 들어, 매년 인터넷에 저장하고 처리해야 하는 정보는 40%씩 증가합니다. 다시. 매년 새로운 정보가 인터넷에 40% 증가합니다.

인쇄된 문서를 이해할 수 있고 처리 방법도 이해할 수 있는 경우(전자 형식으로 전송, 하나의 폴더에 스티치, 번호 매기기) 완전히 다른 "캐리어" 및 기타 볼륨에 제공된 정보를 어떻게 처리해야 할까요?

인터넷 문서;
블로그 및 소셜 네트워크;
오디오/비디오 소스;
측정 장치;

정보와 데이터를 빅데이터로 분류할 수 있는 특징이 있습니다.

즉, 모든 데이터가 분석에 적합하지 않을 수 있습니다. 이러한 특성에는 빅데이터의 핵심 개념이 포함되어 있습니다. 모두 3V에 맞습니다.

볼륨(영어 볼륨에서). 데이터는 분석할 "문서"의 물리적 볼륨으로 측정됩니다.
속도(영어 속도에서). 데이터는 개발 단계에 있지 않고 지속적으로 증가하므로 결과를 얻기 위해 신속하게 처리해야 합니다.
다양성(영어 다양성에서). 데이터가 균일하지 않을 수 있습니다. 즉, 단편화되거나 구조화되거나 부분적으로 구조화될 수 있습니다.

그러나 때때로 네 번째 V(진실성 - 데이터의 신뢰성/신뢰도)와 다섯 번째 V가 VVV에 추가됩니다(어떤 경우에는 실행 가능성 - 실행 가능성, 다른 경우에는 가치 - 가치).

빅데이터와 관련된 데이터를 특징짓는 7V도 어디선가 본 적이 있다. 그러나 제 생각에는 이것은 시리즈에서 나온 것입니다(Ps가 주기적으로 추가되지만 초기 4는 이해하기에 충분합니다).

우리는 이미 29,000명 이상입니다.
켜다

누가 필요합니까?

정보를 어떻게 사용할 수 있습니까(빅 데이터는 수백, 수천 테라바이트임)라는 논리적인 질문이 제기됩니다. 그런 것도 아닙니다.

여기 정보가 있습니다. 그렇다면 그들은 왜 빅 데이터를 생각해 냈을까요? 마케팅 및 비즈니스에서 빅 데이터의 용도는 무엇입니까?

기존 데이터베이스는 엄청난 양의 정보를 저장하고 처리할 수 없습니다.
빅 데이터는 이 주요 문제를 해결합니다. 대용량 정보를 성공적으로 저장하고 관리합니다.
다양한 소스(비디오, 이미지, 오디오 및 텍스트 문서)에서 오는 정보를 하나의 이해하기 쉽고 소화 가능한 형태로 구조화합니다.
구조화되고 처리된 정보를 기반으로 분석을 형성하고 정확한 예측을 생성합니다.

복잡하다. 간단히 말해서, 당신이 많은 양의 정보(당신, 당신의 회사, 당신의 경쟁자, 당신의 산업에 관한)를 연구한다면 매우 괜찮은 결과를 얻을 수 있다는 것을 이해하는 모든 마케터는:

숫자 측면에서 회사와 비즈니스에 대한 완전한 이해
경쟁자를 연구하십시오. 그리고 이것은 차례로 그들을 지배함으로써 앞서가는 것을 가능하게 할 것입니다.
고객에 대한 새로운 정보를 알아보세요.

그리고 빅데이터 기술은 다음과 같은 결과를 낳기 때문에 모두가 서두른다.

그들은 매출을 늘리고 비용을 줄이기 위해 이 사업을 회사에 집어넣으려 합니다. 그리고 구체적으로 말하자면:

고객 선호도에 대한 더 나은 지식을 통해 교차 판매 및 상향 판매 증가
인기 있는 제품과 구매 이유를 검색합니다(반대의 경우도 마찬가지).
제품 또는 서비스 개선
서비스 수준 향상
충성도 및 고객 중심 향상
사기 방지(은행 부문과 더 관련됨);
초과 비용 절감.

모든 출처에서 제공되는 가장 일반적인 예는 물론 사용자(전화, 시계, 컴퓨터)에 대한 데이터를 수집하는 Apple입니다.

기업이 사용자에 대해 너무 많이 알고 미래에 이를 이익을 위해 사용하는 것은 생태계의 존재 때문입니다.

이 기사를 제외한 다른 기사에서 이러한 사용 예와 다른 사용 예를 읽을 수 있습니다.

미래로 가자

다른 프로젝트에 대해 말씀드리겠습니다. 또는 빅 데이터 솔루션을 사용하여 미래를 건설하는 사람에 대한 것입니다.

이것은 Elon Musk와 그의 회사 Tesla입니다. 그의 주요 꿈은 자동차를 자율적으로 만드는 것입니다. 즉, 운전대를 잡고 모스크바에서 블라디보스토크까지 자동 조종 장치를 켜고 ... 잠에 드는 것입니다. 왜냐하면 그가 할 것이기 때문에 차를 운전할 필요가 전혀 없기 때문입니다. 자신의 모든 것.

환상적일 것 같죠? 하지만! 수십 개의 위성으로 자동차를 조종하는 구글보다 엘론이 훨씬 현명하게 행동했을 뿐입니다. 그리고 다른 방향으로 갔다:

판매되는 각 자동차에는 모든 정보를 수집하는 컴퓨터가 장착되어 있습니다.
모든 것은 모든 것을 의미합니다. 운전자, 운전 스타일, 주변 도로, 다른 자동차의 움직임에 대해. 이러한 데이터의 양은 시간당 20-30GB에 이릅니다.
또한 이 정보는 위성을 통해 이 데이터를 처리하는 중앙 컴퓨터로 전송됩니다.
이 컴퓨터가 처리하는 빅데이터를 기반으로 무인자동차 모델을 구축한다.

그건 그렇고, 구글이 꽤 나쁜 일을 하고 있고 그들의 차가 항상 사고를 당한다면, 머스크는 그가 빅 데이터로 작업하고 있다는 사실 때문에 훨씬 더 잘하고 있습니다. 테스트 모델이 매우 좋은 결과를 보여주기 때문입니다.

하지만... 경제에 관한 모든 것입니다. 우리는 이익에 대해 무엇을 알고 있습니까? 예, 이익에 대해 무엇입니까? 빅 데이터가 해결할 수 있는 많은 것은 수입과 돈과 전혀 관련이 없습니다.

빅데이터에 기반한 구글 통계는 흥미로운 사실을 보여준다.

의사가 한 지역에서 질병의 전염병의 시작을 알리기 전에 이 질병의 치료에 대한 검색 쿼리 수가 이 지역에서 크게 증가합니다.

따라서 데이터에 대한 올바른 연구와 분석은 당국의 의견과 조치보다 훨씬 빠르게 예측을 형성하고 전염병의 발병(및 그에 따른 예방)을 예측할 수 있습니다.

러시아에서의 신청

그러나 러시아는 항상 그렇듯이 속도가 약간 느려집니다. 따라서 러시아의 빅 데이터에 대한 정의는 5년 전에 나타났습니다(지금 일반 회사에 대해 이야기하고 있습니다).

그리고 이것은 이것이 세계에서 가장 빠르게 성장하는 시장 중 하나라는 사실에도 불구하고(마약과 무기는 옆에서 신경질적으로 피우고 있음) 빅 데이터 수집 및 분석을 위한 소프트웨어 시장이 매년 32%씩 성장하기 때문입니다.

러시아 빅데이터 시장의 특징을 설명하자면 옛날 농담이 생각납니다. 빅데이트는 18세 이전의 섹스와 같다.

모두가 그것에 대해 이야기하고 있고, 그것에 대해 많은 과대 광고가 있고 실제 행동은 거의 없으며 모두가 자신이 이것을 하지 않는다는 것을 인정하는 것을 부끄럽게 생각합니다. 실제로 이것에 대한 과장된 소문은 많이 나지만 실제 행동은 거의 없습니다.

잘 알려진 연구 회사 Gartner는 이미 2015년에 빅 데이터가 더 이상 증가 추세(인공 지능과 같은)가 아니라 고급 기술을 분석하고 개발하기 위한 완전히 독립적인 도구라고 발표했습니다.

러시아에서 빅 데이터가 사용되는 가장 활발한 틈새 시장은 은행/보험(Sberbank 책임자와 함께 기사를 시작한 이유가 없음), 통신, 소매, 부동산 및 ... 공공 부문입니다.

예를 들어 빅 데이터 알고리즘을 사용하는 경제의 몇 가지 부문에 대해 더 자세히 알려 드리겠습니다.

은행

은행과 은행이 우리와 우리의 행동에 대해 수집하는 정보부터 시작하겠습니다. 예를 들어 빅 데이터에 적극적으로 투자하는 러시아 은행 TOP-5를 예로 들어 보겠습니다.

스베르방크;
가스프롬뱅크;
VTB 24;
알파 은행;
팅코프 은행.

러시아 지도자들 사이에서 알파 뱅크를 만나는 것은 특히 즐겁습니다. 최소한 귀하가 공식 파트너인 은행이 귀하의 회사에 새로운 마케팅 도구를 도입해야 할 필요성을 이해하고 있다는 사실을 알게 되어 기쁩니다.

그러나 나는 설립자의 비표준 모양과 행동을 좋아하는 은행에서 빅 데이터의 사용과 성공적인 구현의 예를 보여주고 싶습니다.

나는 Tinkoff Bank에 대해 이야기하고 있습니다. 그들의 주요 임무는 과도한 고객 기반으로 인해 실시간으로 빅 데이터를 분석하는 시스템을 개발하는 것이 었습니다.

결과: 내부 프로세스 시간이 최소 10배, 일부는 100배 이상 단축되었습니다.

글쎄, 약간의 산만. 내가 Oleg Tinkov의 비표준 익살과 행동에 대해 이야기하기 시작한 이유를 알고 있습니까?

제 생각에는 러시아에 수천 명이 있는 중산층 사업가에서 가장 유명하고 인정받는 기업가 중 한 명이 되도록 그를 도운 사람들이었습니다. 그것을 증명하기 위해 이 독특하고 흥미로운 비디오를 시청하십시오.

속성

부동산에서는 상황이 훨씬 더 복잡합니다. 그리고 이것이 바로 제가 여러분에게 일반적인 비즈니스의 빅데이트를 이해하기 위해 보여주고 싶은 예입니다. 초기 데이터:

대량의 텍스트 문서
오픈 소스(지구 변화 데이터를 전송하는 개인 위성);
인터넷상의 통제되지 않은 방대한 양의 정보;
소스 및 데이터의 지속적인 변경.

그리고 이것을 기반으로 Ural 마을과 같은 토지 계획의 비용을 준비하고 평가할 필요가 있습니다. 전문가의 경우 일주일이 걸립니다.

실제로 소프트웨어를 활용한 빅데이터 분석을 구현한 러시아 감정평가사 로세코(ROSEKO)는 30분 정도 여유롭게 작업할 예정이다. 일주일과 30분을 비교해 보세요. 엄청난 차이.

음, 간식으로

물론 방대한 양의 정보를 단순한 하드 드라이브에 저장하고 처리할 수는 없습니다.

그리고 데이터를 구조화하고 분석하는 소프트웨어는 일반적으로 지적 재산이며 매번 작성자의 개발입니다. 그러나이 모든 매력이 만들어지는 도구가 있습니다.

하둡 및 맵리듀스
NoSQL 데이터베이스;
Data Discovery 클래스의 도구입니다.

솔직히 말해서, 이것들에 대한 친분과 작업은 물리 및 수학 기관에서 가르치기 때문에 서로 어떻게 다른지 명확하게 설명 할 수 없습니다.

설명할 수 없으면서 왜 이야기를 시작했을까요? 모든 영화에서 강도가 은행에 가서 전선에 연결된 수많은 종류의 철 조각을 본 것을 기억하십니까?

빅데이터도 마찬가지입니다. 예를 들어, 다음은 현재 시장에서 가장 선도적인 모델 중 하나입니다.

빅 데이트 도구

최대 구성 비용은 랙당 2,700만 루블에 이릅니다. 물론 이것은 디럭스 버전입니다. 비즈니스에서 빅 데이터 생성을 미리 시도한다는 의미입니다.

주요 내용에 대해 간단히

중소기업에서 빅 데이터를 사용하는 이유가 무엇인지 물을 수 있습니다.

이에 대해 한 사람의 말을 인용해 답하겠습니다. "가까운 장래에 고객은 자신의 행동과 습관을 더 잘 이해하고 가능한 한 이에 상응하는 기업을 요구하게 될 것입니다."

하지만 직면하자. 소기업에서 빅데이터를 구현하기 위해서는 소프트웨어 개발 및 구현을 위한 막대한 예산이 필요할 뿐만 아니라, 빅데이터 분석가, 시스템 관리자 등의 전문 인력 유지를 위한 막대한 예산이 필요하다.

그리고 이제 처리를 위해 그러한 데이터가 있어야 한다는 사실에 대해 침묵합니다.

확인. 중소기업의 경우 주제가 거의 적용되지 않습니다. 그러나 이것이 위에서 읽은 모든 것을 잊어 버릴 필요가 있음을 의미하지는 않습니다.

자신의 데이터가 아니라 잘 알려진 외국 및 러시아 기업의 데이터 분석 결과를 연구하십시오.

예를 들어, Target 소매 체인은 빅 데이터 분석을 사용하여 임신 2기 이전(임신 1~12주) 임산부가 무향 제품을 적극적으로 구매하고 있음을 발견했습니다.

이 데이터로 유통기한이 제한된 무향 제품 할인 쿠폰을 보낸다.

예를 들어 아주 작은 카페라면? 예, 매우 간단합니다. 로열티 앱을 사용하세요.

그리고 얼마 후 축적된 정보 덕분에 고객의 요구에 맞는 요리를 제공할 수 있을 뿐만 아니라 몇 번의 마우스 클릭으로 가장 많이 팔리지 않은 요리와 가장 부족한 요리를 볼 수 있습니다.

따라서 결론. 소기업에 빅데이터를 구현하는 것은 거의 가치가 없지만 다른 기업의 결과와 발전을 활용하는 것은 필수입니다.

각 산업 혁명에는 철과 증기, 철강과 대량 생산, 폴리머와 전자 제품과 같은 상징이 있었고 다음 혁명은 복합 재료와 데이터로 표시될 것입니다. 빅 데이터 - 잘못된 길인가, 아니면 업계의 미래인가?

2011년 12월 20일 Leonid Chernyak

1차 산업혁명의 상징은 주철과 증기, 2차 산업혁명은 철강과 인라인 생산, 3차 산업혁명은 고분자 소재, 알루미늄과 전자였다. 다음 혁명은 복합소재와 데이터라는 기호 아래 있을 것이다. 빅데이터는 잘못된 길인가, 아니면 산업의 미래인가?

3년이 넘는 시간 동안 많은 이야기와 글이 쓰여졌습니다. 빅 데이터(빅 데이터) "문제"라는 단어와 결합하여이 주제의 신비를 강화합니다. 이 기간 동안 "문제"는 해결책을 찾는 데 기대를 걸고 대다수의 대규모 제조업체의 관심의 초점이 되었으며 많은 신생 기업이 만들어지고 있으며 모든 주요 산업 분석가는 작업 능력이 얼마나 중요한지 나팔을 불고 있습니다. 이제 많은 양의 데이터로 경쟁력을 확보해야 합니다. 이처럼 합리적이지 않은 매스컴은 반대를 불러일으키고, 같은 주제에 대해 회의적인 발언을 많이 볼 수 있고, 빅데이터에 '청어'라는 소명까지 적용되는 경우도 있다. , 산만한 기동).

그렇다면 빅데이터란 무엇인가? 빅데이터를 아무데도 없이 갑자기 무너진 데이터의 눈사태로 상상하거나, 정보 환경을 근본적으로 변화시키는 신기술로 문제를 축소하거나, 빅데이터와 함께 우리는 기술의 또 다른 단계를 경험하고 있다고 상상하는 것이 가장 쉽습니다. 혁명? 아마도 그와 다른 것, 세 번째, 그리고 여전히 알려지지 않은 것입니다. 빅 데이터라는 문구가 포함된 웹상의 400만 페이지 이상 중 100만 페이지에 정의라는 단어도 포함되어 있다는 사실은 의미심장합니다. 이러한 대중적 관심은 빅데이터에 일반의식이 추구하는 것과 질적으로 다른 무언가가 있을 가능성이 높다는 사실을 증명한다.

배경

빅 데이터에 대한 대부분의 참조가 어떻게든 비즈니스와 관련되어 있다는 사실이 오해의 소지가 있습니다. 사실 이 용어는 기업 환경에서 태어난 것이 아니라 분석가가 과학 출판물에서 차용한 것입니다. 빅 데이터는 생년월일이 완전히 신뢰할 수 있는 몇 안 되는 타이틀 중 하나입니다. 2008년 9월 3일, 영국에서 가장 오래된 과학 저널인 네이처의 특별호가 "어떻게 기술을 열 수 있습니까?"라는 질문에 대한 답을 찾는 데 전념했습니다. 대용량 작업의 가능성이 과학의 미래에 영향을 미칠까요?" 데이터?" 특별호는 일반적으로 과학과 특히 e-과학에서 데이터의 역할에 대한 이전 논의를 요약합니다.

과학에서 데이터의 역할은 오랫동안 논의의 주제였습니다. 영국의 천문학자인 Thomas Simpson은 18세기에 "천문 관측에서 숫자 사용의 이점"에서 데이터 처리에 대해 처음으로 저술했습니다. , 그러나 지난 세기 말에야 이 주제에 대한 관심이 눈에 띄게 되었고, 컴퓨터 방법이 고고학에서 과학에 이르기까지 거의 모든 과학에 적용될 수 있다는 것이 발견된 지난 세기 말에 데이터 처리가 전면에 나타났습니다. 핵 물리학. 결과적으로 과학적 방법 자체가 눈에 띄게 변화하고 있습니다. 도서관(library)과 연구실(laboratory)이라는 단어가 합쳐진 신조어 libratory가 등장한 것은 연구의 결과라고 할 수 있는 것에 대한 생각에 대한 변화를 반영한 것입니다. 지금까지는 원시 실험 데이터가 아닌 최종 결과만을 동료의 판단에 맡겼지만, 이제는 다양한 데이터를 '숫자'로 변환할 수 있게 되면서 다양한 디지털 미디어를 이용할 수 있게 되면 대상이 출판의 대상은 다양한 측정 데이터가 될 수 있으며, 특히 중요한 것은 이전에 축적된 데이터를 도서관에서 재가공할 수 있는 가능성이다. 그리고 과학 데이터 축적 과정이 지속적으로 가속화되는 긍정적 인 피드백이 있습니다. 그렇기 때문에 클리포드 린치(Clifford Lynch) 네이처지의 편집자는 다가오는 변화의 규모를 깨닫고 Big Reft, Big Ore 등의 은유로 비유하여 그가 선택한 새로운 패러다임 Big Data에 대한 특별한 이름을 제안했습니다. 양이 아니라 질로의 양의 전환입니다.

빅 데이터 및 비즈니스

1년도 채 되지 않아 빅 데이터라는 용어가 주요 비즈니스 출판물의 페이지에 등장했지만 완전히 다른 은유가 사용되었습니다. 빅 데이터는 숨겨진 정보의 소스로서의 데이터의 역할을 강조하는 광물 자원 - new oil(new oil), goldrush(goldrush), data mining(data development)과 비교됩니다. 자연 재해와 함께 - 데이터 토네이도(데이터 허리케인), 데이터 홍수(데이터 홍수), 데이터 해일(데이터 홍수)을 위협으로 간주합니다. 산업 생산과의 연결 캡처 - 데이터 배출(데이터 릴리스), 소방호스(데이터 호스), 산업 혁명(산업 혁명). 비즈니스와 과학 분야에서 빅 데이터는 완전히 새로운 것은 아닙니다. 예를 들어 RFID(Radio Frequency Identification) 및 소셜 네트워크의 확산과 관련하여 빅 데이터 작업의 필요성이 오랫동안 논의되어 왔습니다. 과학과 마찬가지로, 무슨 일이 일어나고 있는지 정의하는 생생한 은유만 부족했습니다. 그렇기 때문에 2010 년에 빅 데이터 범주에 속한다고 주장하는 첫 번째 제품이 등장했습니다. 이미 존재하는 것에 적합한 이름이 발견되었습니다. 새로운 기술의 상태와 전망을 특징짓는 2011년 하이프 사이클 버전에서 Gartner 분석가가 빅 데이터와 극한 정보 처리 및 관리를 두 위치에서 해당 솔루션의 대량 구현 기간을 추정하여 한 가지 더 소개한 것은 중요합니다. 5년으로.

빅데이터가 왜 문제인가?

빅데이터라는 용어가 등장한 지 3년이 지났지만 과학에서 모든 것이 다소 명확해진다면 비즈니스에서 빅데이터의 위치는 여전히 불확실하다. ”, 문제뿐만 아니라 다른 모든 것에 대해서도 잘 정의되어 있지 않습니다. 종종 문제는 무어의 법칙처럼 단순하게 해석되지만 이 경우에는 연간 데이터 양이 두 배로 늘어나는 현상을 다루고 있다는 유일한 차이점이 있습니다. 어떤 면에서. 실제로 점점 더 많은 데이터가 있지만 이 모든 것은 문제가 결코 외부적인 것이 아니라는 사실을 간과하고 있습니다. 붕괴된 엄청난 양의 데이터 때문이 아니라 기존 방법이 대처할 수 없기 때문입니다. 새로운 볼륨, 그리고 가장 중요한 것은 우리가 스스로 만든 것입니다. 이상한 불균형이 있습니다. 데이터를 생성하는 능력은 데이터를 처리하는 능력보다 더 강력합니다. 이러한 편향의 이유는 65년의 컴퓨터 역사 동안 우리가 데이터가 무엇이며 처리 결과와 어떤 관련이 있는지 이해하지 못했기 때문일 가능성이 큽니다. 이상하게도 수세기 동안 수학자들은 수와 수 체계와 같은 과학의 기본 개념을 다루며 여기에 철학자들을 포함시켰고, 우리의 경우 데이터와 정보는 결코 사소한 것이 아니라 방치되어 자비를 베풀었습니다. 직관적 인식. 그래서 이 65년 동안 데이터 처리 기술 자체는 놀라운 속도로 발전해 왔고, 사이버네틱스와 정보 이론은 거의 발전하지 않아 튜브 컴퓨터가 계산에만 사용되었던 50년대 수준에 머물렀습니다. 실제로 현재 관찰되고 있는 빅데이터를 둘러싼 소란은 세심한 주의를 기울이고 있어 회의적인 웃음을 자아낸다.

확장 및 계층화

클라우드, 빅 데이터, 분석 - 현대 IT의 이 세 가지 요소는 서로 연결되어 있을 뿐만 아니라 오늘날에는 서로 없이는 존재할 수 없습니다. 빅 데이터 작업은 클라우드 스토리지 및 클라우드 컴퓨팅 없이는 불가능합니다. 아이디어의 형태뿐만 아니라 이미 완료 및 구현된 프로젝트의 형태로 클라우드 기술의 출현은 증가하는 새로운 나선형을 시작하는 방아쇠가 되었습니다. 빅데이터 분석에 대한 관심. 업계 전체에 미치는 영향에 대해 이야기하면 오늘날 스토리지 시스템 확장에 대한 요구 사항이 증가하는 것이 분명해졌습니다. 어떤 분석 프로세스에 특정 데이터가 필요한지, 기존 스토리지가 얼마나 집중적으로 로드될지 미리 예측하기 어렵기 때문에 이는 실제로 필요한 조건입니다. 또한 수직 및 수평 확장에 대한 요구 사항도 똑같이 중요해집니다.

차세대 스토리지 시스템에서 Fujitsu는 확장 및 스토리지 계층화 측면에 많은 관심을 기울였습니다. 실습에 따르면 오늘날에는 분석 작업을 수행하기 위해 시스템에 과부하가 걸리지만 비즈니스에서는 모든 서비스, 응용 프로그램 및 데이터 자체를 항상 사용 가능한 상태로 유지해야 합니다. 또한 분석 연구 결과에 대한 요구 사항은 오늘날 매우 높습니다. 유능하고 정확하며 시기적절하게 수행된 분석 프로세스는 비즈니스 전체의 결과를 크게 향상시킬 수 있습니다.

– 알렉산더 야코블레프 ([이메일 보호됨]), Fujitsu(모스크바)의 제품 마케팅 관리자.

연구 주제로서의 데이터와 정보의 역할을 무시함으로써, 컴퓨터의 계산 부하가 데이터에 대해 수행되는 다른 유형의 작업보다 훨씬 적은 것으로 밝혀진 필요가 변경되었던 시기에 폭발한 동일한 광산이 놓여졌습니다. , 그리고 이러한 작업의 목적은 기존 데이터 세트에서 새로운 정보와 새로운 지식을 얻는 것입니다. 그렇기 때문에 "데이터-정보-지식" 사슬의 연결 고리 복원 외부에서 빅 데이터 문제 해결에 대해 이야기하는 것은 무의미합니다. 데이터는 정보를 얻기 위해 처리되며, 이는 사람이 지식으로 전환하기에 충분해야 합니다.

지난 수십 년 동안 원시 데이터와 유용한 정보의 관계에 대한 진지한 연구는 없었고 우리가 습관적으로 Claude Shannon의 정보 이론이라고 부르는 것은 신호에 대한 통계적 이론에 불과하며 지각된 정보와는 아무 관련이 없습니다. 사람에 의해. 사적인 관점을 반영한 개인 간행물은 많이 있지만, 본격적인 현대 정보 이론은 없습니다. 결과적으로 대다수의 전문가는 데이터와 정보를 전혀 구분하지 않습니다. 주변의 모든 사람들은 데이터가 많거나 많다고 말하지만 정확히 무엇이 많은지, 어떤 방식으로 문제를 해결해야 하는지에 대한 성숙한 아이디어는 아무도 없습니다. 데이터는 데이터를 사용하는 능력의 발달 수준을 분명히 능가했습니다. Web 2.0 Journal의 편집자인 Dion Hinchcliffe만이 빅 데이터 처리에서 기대되는 결과와 기술을 일치시키는 빅 데이터 분류를 갖고 있지만 그마저도 만족스럽지는 않습니다.

Hinchcliff는 빅 데이터에 대한 접근 방식을 세 그룹으로 나눕니다. 빠른 데이터(빠른 데이터), 볼륨은 테라바이트 단위로 측정됩니다. Big Analytics - 페타바이트 데이터 및 Deep Insight - 엑사바이트, 제타바이트 그룹은 운영하는 데이터의 양뿐만 아니라 처리 결정의 질에서도 서로 다릅니다.

빠른 데이터를 위한 처리는 새로운 지식의 획득을 의미하지 않으며, 그 결과는 선험적 지식과 상관 관계가 있으며 특정 프로세스가 어떻게 진행되는지 판단하는 것을 가능하게 합니다. 이를 통해 어떤 일이 더 잘 진행되고 있는지 더 자세히 볼 수 있고 일부를 확인하거나 거부할 수 있습니다. 가설. 현재 존재하는 기술 중 일부만이 Fast Data 작업을 해결하는 데 적합하며 이 목록에는 일부 스토리지 기술(Greenplum, Netezza, Oracle Exadata, Teradata, Verica 및 kdb와 같은 DBMS)이 포함됩니다. 이러한 기술의 속도는 데이터 볼륨의 증가와 함께 증가해야 합니다.

Big Analytics 도구가 해결하는 작업은 양적으로뿐만 아니라 질적으로도 눈에 띄게 다르며 해당 기술은 새로운 지식을 얻는 데 도움이 되어야 합니다. 즉, 데이터에 기록된 정보를 새로운 지식으로 변환하는 역할을 해야 합니다. 그러나이 중간 수준은 결정이나 분석 시스템의 자율적 인 행동을 선택할 때 인공 지능의 존재를 가정하지 않습니다. "교사와 함께 훈련"이라는 원칙을 기반으로합니다. 다시 말해, 학습 과정에서 모든 분석적 잠재력이 그 안에 담겨 있습니다. 가장 확실한 예는 Jeopardy!를 재생하는 자동차입니다. 이러한 분석의 고전적인 대표자는 MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache 및 Mahout 제품입니다.

가장 높은 수준인 Deep Insight는 비지도 학습과 현대적인 분석 방법 및 다양한 시각화 방법의 사용을 포함합니다. 이 수준에서는 선험적으로 알려지지 않은 지식과 패턴을 발견하는 것이 가능합니다.

빅데이터 분석

시간이 지남에 따라 컴퓨터 응용 프로그램은 모든 다양성에서 현실 세계에 점점 더 가까워지고 있으므로 입력 데이터의 양이 증가하고 이에 따라 분석이 필요하며 가능한 한 실시간에 가까운 모드로 진행됩니다. 이 두 가지 경향의 수렴은 방향의 출현으로 이어졌습니다. 빅 데이터 분석(빅 데이터 분석).

Watson 컴퓨터의 승리는 Big Data Analytics의 능력을 훌륭하게 입증한 것입니다. 우리는 컴퓨터가 처음으로 계산 속도를 높이는 도구가 아니라 인간의 능력을 확장하는 보조자로 처음 사용되는 흥미로운 시대에 들어서고 있습니다. 정보를 선택하고 결정합니다. Vannevar Bush, Joseph Licklider 및 Doug Engelbart의 겉보기에 유토피아적인 계획이 실현되기 시작했지만 이것은 수십 년 전에 보았던 방식으로 일어나지 않습니다. 컴퓨터의 힘은 논리적 능력 면에서 사람보다 우월하지 않습니다. , 과학자들이 특히 원했지만 훨씬 더 큰 능력으로 엄청난 양의 데이터를 처리합니다. 비슷한 것이 Garry Kasparov와 Deep Blue의 대결에서 있었습니다. 컴퓨터는 더 숙련된 플레이어는 아니지만 더 많은 옵션을 더 빨리 분류할 수 있었습니다.

Big Data Analytics를 다른 응용 프로그램과 구별하는 고속 결합의 거대한 볼륨에는 적절한 컴퓨터가 필요하며 오늘날 거의 모든 주요 제조업체는 SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine 및 Oracle Exalytics Business Intelligence Machine과 같은 특수 하드웨어 및 소프트웨어 시스템을 제공합니다. , Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, HP Converged Infrastructure 기반 Vertica Analytics 플랫폼. 또한 Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks와 같은 많은 소규모 및 신생 기업이 게임에 참여했습니다.

피드백

질적으로 새로운 Big Data Analytics 응용 프로그램은 자체적으로 새로운 기술뿐만 아니라 질적으로 다른 수준의 시스템 사고가 필요하지만 여기에는 어려움이 있습니다. Big Data Analytics 솔루션 개발자는 종종 50년대부터 알려진 진실을 재발견합니다. 결과적으로 분석은 초기 데이터를 준비하는 수단, 시각화 및 개인에게 결과를 제공하기 위한 기타 기술과 분리되어 고려되는 경우가 많습니다. Data Warehousing Institute와 같은 존경받는 조직에서도 분석을 다른 모든 것과 분리하여 취급합니다. 이에 따르면 기업의 38%는 이미 관리 업무에 고급 분석을 사용할 가능성을 모색하고 있으며 다른 50%는 앞으로 3년. 이 관심은 비즈니스에서 많은 주장을 가져옴으로써 정당화됩니다. 더 간단하게 말할 수 있습니다. 새로운 조건의 기업은보다 고급 관리 시스템이 필요하며 피드백의 설정, 즉, 의사결정에 도움을 주는 시스템이며, 미래에는 실제 의사결정을 자동화하는 것이 가능할 수도 있습니다. 놀랍게도 위의 모든 사항은 60년대부터 알려진 기술 개체에 대한 자동화된 제어 시스템을 만드는 방법론에 맞습니다.

이전보다 더 많은 데이터가 있을 뿐만 아니라 더 많은 외부 및 내부 소스가 있기 때문에 분석을 위한 새로운 도구가 필요합니다. 이제 더 복잡하고 다양해지고(정형, 비정형 및 준정형) 다양한 색인 체계(관계형, 비정형)가 사용됩니다. 다차원, noSQL). 더 이상 이전 방식으로 데이터를 처리할 수 없습니다. 빅 데이터 분석은 크고 복잡한 어레이로 확장되므로 여전히 Discovery Analytics(개방 분석) 및 Exploratory Analytics(분석 설명)라는 용어를 사용합니다. 어떻게 부르든 본질은 동일합니다. 피드백은 다양한 종류의 프로세스에 대한 정보를 의사결정자에게 수용 가능한 형태로 제공합니다.

구성품

원시 데이터를 수집하기 위해 제어 대상의 특성(RFID, 소셜 네트워크의 정보, 다양한 텍스트 문서 등)에 따라 적절한 하드웨어 및 소프트웨어 기술이 사용됩니다. 이 데이터는 분석 엔진(사이버네틱스와 유추를 계속하면 피드백 루프의 조절기)의 입력에 제공됩니다. 이 컨트롤러는 분석 소프트웨어 자체가 실행되는 하드웨어 및 소프트웨어 플랫폼을 기반으로 하며 자동 제어에 충분한 제어 작업 생성을 제공하지 않으므로 데이터 과학자 또는 데이터 엔지니어가 회로에 포함됩니다. 그들의 기능은 예를 들어 전기 기계 제작에 적용할 때 물리학 지식을 사용하는 전기 공학 분야의 전문가가 수행하는 역할과 비교할 수 있습니다. 엔지니어의 임무는 데이터를 의사 결정에 사용되는 정보로 변환하는 프로세스를 관리하는 것입니다. 피드백 루프를 닫습니다. 이 경우 Big Data Analytics의 네 가지 구성 요소 중 소프트웨어 및 하드웨어 플랫폼(이 유형의 시스템을 Analytic Appliance 또는 Data Warehouse Appliance라고 함)에만 관심이 있습니다.

수년 동안 Teradata는 분석 전문 기계의 유일한 제조업체였지만 최초는 아니었습니다. 70년대 후반, 당시 영국 컴퓨터 산업의 리더였던 ICL은 콘텐츠 제작에 그다지 성공적이지 못했습니다. -IDMS DBMS를 기반으로 하는 주소 지정 가능 저장소(Content-Addressable Data Store). 그러나 Britton-Lee는 1983년 Zilog Z80 프로세서 제품군의 다중 프로세서 구성을 기반으로 하는 "데이터베이스 엔진"을 처음으로 만들었습니다. 그 후 Britton-Lee는 1984년부터 의사 결정 지원 시스템 및 데이터 웨어하우스용 MPP 아키텍처 컴퓨터를 생산해 온 Teradata에 인수되었습니다. 그리고 Netezza는 Netezza Performance Server 솔루션에서 특수 Snippet Processing Unit 블레이드와 함께 표준 블레이드 서버를 사용하는 이러한 시스템의 새로운 세대 공급업체 중 최초입니다.

DBMS의 분석

분석이 우선 예측, 또는 예측(예측 분석, RA). 대부분의 기존 구현에서 RA 시스템의 초기 데이터는 이전에 데이터 웨어하우스에 축적된 데이터입니다. 분석을 위해 데이터는 먼저 중간 데이터 마트(Independent Data Mart, IDM)로 전송되며, 여기서 데이터 표시는 이를 사용하는 응용 프로그램에 의존하지 않으며 동일한 데이터는 전문 분석 데이터 마트(Analytical Data Mart)로 전송됩니다. , ADM) 및 전문가들은 이미 다양한 개발 도구 또는 데이터 마이닝(Data Mining)을 사용하여 그들과 함께 작업하고 있습니다. 이러한 다단계 모델은 상대적으로 적은 양의 데이터에 대해 상당히 수용 가능하지만 데이터가 증가하고 효율성 요구 사항이 증가함에 따라 이러한 모델은 여러 가지 단점을 드러냅니다. 데이터 이동의 필요성 외에도 많은 독립적인 ADM이 존재하면 물리적 및 논리적 인프라가 복잡해지고 사용되는 모델링 도구의 수가 늘어나고 여러 분석가가 얻은 결과가 일치하지 않고 컴퓨팅 성능과 채널이 최적으로 사용되지 않습니다. 또한 스토리지와 ADM이 분리되어 있어 거의 실시간에 가까운 분석이 불가능합니다.

탈출구는 In-Database Analytics 또는 No-Copy Analytics라고 하는 접근 방식일 수 있으며, 분석 목적으로 데이터베이스에서 직접 데이터를 사용합니다. 이러한 DBMS를 분석 및 병렬이라고도 합니다. 이 접근 방식은 MapReduce 및 Hadoop 기술의 출현으로 특히 매력적이 되었습니다. In-Database Analytics 클래스의 차세대 응용 프로그램에서 모든 데이터 엔지니어링 및 기타 집중 작업은 저장소의 데이터에서 직접 수행됩니다. 분명히 이것은 프로세스 속도를 크게 높이고 패턴 인식, 클러스터링, 회귀 분석 및 다양한 종류의 예측과 같은 실시간 응용 프로그램을 수행할 수 있도록 합니다. 가속화는 저장소에서 매장으로의 이동을 제거할 뿐만 아니라 주로 무제한 확장이 가능한 클러스터 시스템을 포함하여 다양한 병렬화 방법을 사용하여 달성됩니다. In-Database Analytics와 같은 솔루션은 분석 애플리케이션에서 클라우드 기술을 사용할 수 있는 가능성을 열어줍니다. 다음 단계는 분석을 위한 데이터를 RAM에 배치하는 것이 핵심인 SAP HANA(고성능 분석 어플라이언스) 기술이 될 수 있습니다.

주요 공급업체...

2010년까지 In-Database Analytics의 주요 소프트웨어 공급업체는 Aster Data(Aster nCluster), Greenplum(Greenplum Database), IBM(InfoSphere Warehouse, IBM DB2), Microsoft(SQL Server 2008), Netezza(Netezza Performance System, PostGresSQL)였습니다. , Oracle(Oracle Database 11g/10g, Oracle Exadata), SenSage(SenSage/columnar), Sybase(Sybase IQ), Teradata 및 Vertica Systems(Vertica Analytic Database). 이들은 실리콘 밸리의 스타트업 센세이지를 제외하고는 모두 잘 알려진 회사들이다. 제품은 작업할 수 있는 데이터 유형, 기능, 인터페이스, 사용되는 분석 소프트웨어 및 클라우드에서 작업하는 능력이 크게 다릅니다. 솔루션 성숙도 측면에서 리더는 Teradata이고 전위 측면에서는 Aster Data입니다. 분석 소프트웨어 공급업체 목록은 더 짧습니다. KXEN, SAS, SPSS 및 TIBCO 회사의 제품은 로컬 구성에서 작동할 수 있으며 Amazon, Cascading, Google, Yahoo! 그리고 클라우데라.

2010년은 IBM이 Cognos를, SAP가 Business Object를, Oracle이 Hyperion을 인수한 2007년과 비교할 때 예측 분석의 중추적인 해였습니다. EMC가 Greenplum을 인수하고 IBM이 Netezza를 인수하고 HP가 Vertica를 인수하고 Teradata가 Aster Data를 인수하고 SAP가 Sybase를 인수하면서 시작되었습니다.

… 그리고 새로운 기회

분석 패러다임은 근본적으로 새로운 가능성을 열어주며, 이는 ParStream 회사(empulse GmbH의 공식 이름)를 만든 쾰른의 두 엔지니어에 의해 성공적으로 입증되었습니다. 그들은 함께 범용 프로세서와 그래픽 프로세서를 기반으로 하는 분석 플랫폼을 만들었습니다. 4년 전, Michael Hümmepl과 이전 Accenture의 Jörg Bienert는 60억 개의 레코드 데이터베이스에서 100밀리초 안에 20개의 매개변수가 포함된 레코드를 선택할 수 있는 투어를 생성하는 시스템이 필요한 독일 여행 회사의 의뢰를 받았습니다. 기존 솔루션 중 어느 것도 이러한 작업에 대처할 수 없지만 매우 큰 데이터베이스의 내용에 대한 신속한 분석이 필요한 모든 곳에서 유사한 문제가 발생합니다. ParStream은 HPC 기술을 Big Data Analytics에 적용한다는 전제에서 탄생했습니다. Hümmepl과 Bienert는 병렬 스트림 형태의 데이터 작업을 지원하는 x86 아키텍처 클러스터에서 실행되도록 설계된 자체 데이터베이스 엔진을 작성하여 시작하여 ParStream이라는 이름을 얻었습니다. 그들은 초기 설정으로 구조화된 데이터만을 사용하기로 선택했으며, 이는 실제로 상대적으로 간단한 병렬화의 가능성을 열어줍니다. 설계상 이 데이터베이스는 실시간 쿼리에 적합하지 않은 MapReduce 또는 Hadoop보다 새로운 Google Dremel 프로젝트에 더 가깝습니다. x86/Linux 플랫폼을 시작으로 Hümmepl과 Bienert는 곧 그들의 데이터베이스가 nVidia Fermi GPU도 지원할 수 있다는 확신을 갖게 되었습니다.

빅 데이터 및 데이터 처리

빅 데이터라고 불리는 것에서 무엇을 기대해야 하는지 이해하려면 현대의 협소한 "IT" 세계관의 경계를 넘어 더 광범위한 역사적, 기술적 회고에서 무슨 일이 일어나고 있는지 보려고 노력해야 합니다. 예를 들어 기술과의 유사점을 찾으려고 노력해야 합니다. 더 긴 역사를 가지고 있습니다. 결국 우리는 활동기술의 주제를 기술로 취급해야 한다. 실질적으로 알려진 모든 재료 기술은 질적으로 새로운 제품을 얻기 위해 특정 원료 또는 일부 다른 구성 요소의 가공, 가공 또는 조립으로 축소됩니다. 기술 프로세스의 입력과 출력에 무언가가 있습니다.

무형 정보 기술의 특징은 여기서 기술 사슬이 명확하지 않고, 원료가 무엇인지, 결과가 무엇인지, 입력이 무엇이며 출력이 무엇인지 명확하지 않다는 것입니다. 입력은 원시 데이터이고 출력은 유용한 정보라고 말하는 가장 쉬운 방법입니다. 일반적으로 거의 사실이지만 이 두 개체 간의 관계는 매우 복잡합니다. 우리가 건전한 화용론의 수준에 머물러 있다면 다음과 같은 고려 사항으로 자신을 제한할 수 있습니다. 데이터는 다양한 형태로 표현된 원시 사실이며, 처리 과정에서 맥락에 배치되고 적절하게 조직되고 정렬될 때까지 그 자체로 유용한 의미를 지니지 않습니다. 정보는 사람이 처리한 데이터를 분석한 결과 나타나며, 이 분석은 데이터에 의미를 부여하고 소비자 품질을 제공합니다. 데이터는 정보로 전환되어야 하는 조직화되지 않은 사실입니다. 최근까지 에 대한 아이디어 데이터 처리(데이터 처리)는 상대적으로 적은 양의 데이터에 대한 알고리즘적, 논리적 또는 통계적 작업의 유기적 순환으로 축소되었습니다. 그러나 컴퓨터 기술이 현실 세계와 융합함에 따라 현실 세계의 데이터를 현실 세계에 대한 정보로 변환해야 할 필요성이 증가하고 처리되는 데이터의 양이 증가하며 처리 속도에 대한 요구 사항이 증가하고 있습니다.

논리적으로 정보 기술은 물질 기술과 크게 다르지 않으며 입력은 원시 데이터이며 출력은 인간의 인식에 더 편리한 형태로 구조화되어 정보를 추출하고 정보를 유용한 지식으로 바꾸는 지능의 힘입니다. 컴퓨터는 ENIAC의 첫 번째 응용 프로그램을 기억하고 총 발사 데이터를 처리하고 포병 테이블로 바꾸는 능력을 계산하는 능력 때문에 컴퓨터라고 불렸습니다. 즉, 컴퓨터는 원시 데이터를 처리하고 유용한 데이터를 추출하여 사용하기에 적합한 형태로 기록했습니다. 우리 앞에는 전통적인 기술 프로세스에 불과합니다. 일반적으로 정보기술(Information Technology)이라는 용어 대신 보다 정확한 데이터 처리(Data Processing)라는 용어를 더 자주 사용해야 합니다.

정보 기술은 다른 모든 기술이 발전하는 일반적인 패턴을 따라야하며, 이는 무엇보다도 가공 원료의 양의 증가와 가공 품질의 향상입니다. 이것은 야금, 석유화학, 생명 공학, 반도체 기술 등 원자재의 역할과 결과에 관계없이 모든 곳에서 발생합니다. 어떤 기술 영역도 초기 또는 늦게 단조롭게 발전하지 않는 것이 일반적입니다. 가속 개발의 순간, 점프입니다. 외부에서 필요가 생겼을 때 빠른 전환이 일어날 수 있고, 이를 기술 내부에서 충족시킬 수 있는 능력이 있습니다. 컴퓨터는 진공관 위에 만들 수 없었고 반도체가 등장했고 자동차에는 많은 휘발유가 필요했습니다. 그들은 균열 과정을 발견했고 그러한 예가 많이 있습니다. 따라서 빅데이터라는 이름 아래 컴퓨터 기술의 질적 변화가 대두되고 있으며, 이는 심각한 변화를 초래할 수 있으며, 이를 새로운 산업혁명이라고 부르는 것은 우연이 아닙니다. 빅 데이터는 모든 결과를 초래하는 또 다른 기술 혁명입니다.

데이터 처리에 대한 첫 번째 경험은 그림 문자가 등장한 기원전 4천년으로 거슬러 올라갑니다. 그 이후로 데이터 작업의 여러 주요 영역이 개발되었으며 가장 강력한 것은 최초의 점토판에서 SSD에 이르기까지, 기원전 1000년 중반의 도서관에서 현대 도서관에 이르기까지, 그 다음에는 다양한 종류의 수학적 수치 방법에 이르기까지 텍스트 형식이었습니다. 현대 컴퓨터로 계산을 단순화하는 표 형식 기술과 피타고라스 정리의 증명과 함께 파피루스에서 나타났습니다. 사회가 발전함에 따라 다양한 종류의 표 형식 데이터가 축적되기 시작했고, 표 형식으로 시작된 작업의 자동화가 시작되었으며, 19세기와 20세기에는 데이터 생성 및 축적을 위한 많은 새로운 방법이 제안되었습니다. 많은 양의 데이터로 작업해야 할 필요성은 오랫동안 이해되었지만 자금이 없었기 때문에 Paul Otlet의 도서관과 같은 유토피아적 프로젝트 또는 60,000명의 사람-계산자의 노동을 사용하는 기상 예보를 위한 환상적인 시스템과 같은 유토피아적 프로젝트.

오늘날 컴퓨터는 계산을 자동화하기 위해 고안되었지만 데이터 작업을 위한 보편적인 도구가 되었습니다. 데이터 처리에 컴퓨터를 사용하는 아이디어는 디지털 프로그램 가능 컴퓨터가 발명된 지 10년 후에 IBM에서 시작되었으며 그 이전에는 Herman Hollerith가 발명한 Unit Record 펀치 장치가 데이터 처리에 사용되었습니다. 그것들은 단위 레코드, 즉 단일 레코드라고 불렸습니다. 각 카드에는 한 개체와 관련된 전체 레코드가 포함되어 있습니다. 최초의 컴퓨터는 빅 데이터로 작업하는 방법을 몰랐습니다. 디스크 및 테이프 드라이브의 출현으로 만 60년대 말까지 존재했던 기계 계산 스테이션과 경쟁할 수 있었습니다. 그런데 관계형 데이터베이스에서는 Unit Record의 유산이 명확하게 추적됩니다.

단순함이 성공의 열쇠

원시 데이터의 양이 증가하고 실시간으로 분석해야 하는 필요성으로 인해 이른바 빅 데이터 분석 문제를 효과적으로 해결할 수 있는 도구의 생성 및 구현이 필요합니다. Information Builders 기술을 사용하면 Enterprise Service Bus의 다양한 어댑터와 아키텍처 덕분에 모든 소스의 데이터를 실시간으로 사용할 수 있습니다. WebFOCUS 도구를 사용하면 즉석에서 데이터를 분석할 수 있으며 사용자에게 가장 적합한 방식으로 결과를 시각화할 수 있습니다.

RSTAT 기술을 기반으로 Information Builders는 시나리오 예측을 허용하는 예측 분석 제품을 만들었습니다.

비즈니스 인텔리전스 기술은 러시아에도 진출했지만, 국내 기업에서 비즈니스 인텔리전스를 활용하는 문화가 낮고 비즈니스 사용자가 기존 분석 방법을 이해하기 어렵기 때문에 예측 분석을 사용하는 러시아 기업은 극소수에 불과하다. 이를 염두에 두고 Information Builders는 이제 Gartner 분석가가 가장 사용하기 쉬운 제품으로 평가한 제품을 제공합니다.

– 미하일 스트로예프([이메일 보호됨]), 러시아 비즈니스 개발 이사 및 CIS InfoBuild CIS(모스크바).

데이터는 어디에나 있다

컴퓨터가 컴퓨팅 장치에서 범용 데이터 처리 기계로 점차 진화함에 따라 1970년경 이후에 새로운 용어가 등장하기 시작했습니다. 데이터로서의 제품(데이터 제품); 데이터 작업을 위한 도구(데이터 도구); 관련 기관을 통해 구현된 애플리케이션(데이터 애플리케이션) 데이터 과학(데이터 과학); 데이터 과학자(데이터 과학자), 데이터에 포함된 정보를 일반 대중에게 전달하는 언론인(데이터 저널리스트)까지.

오늘날 데이터 응용 클래스의 응용 프로그램은 데이터에 대한 작업을 수행하는 것뿐만 아니라 데이터에서 추가 가치를 추출하고 데이터 형태의 제품을 만드는 널리 보급되었습니다. 이 유형의 첫 번째 응용 프로그램 중에는 CDDB 오디오 CD 데이터베이스가 있으며, 이는 기존 데이터베이스와 달리 디스크에서 데이터를 추출하고 메타데이터(디스크 제목, 트랙 이름 등)와 결합하여 생성되었습니다. 이 기반은 Apple iTunes 서비스의 기초입니다. Google의 상업적 성공 요인 중 하나는 데이터 애플리케이션의 역할에 대한 인식이었습니다. 데이터 소유권을 통해 이 회사는 검색되는 페이지 외부에 있는 데이터를 사용하여 많은 것을 "알" 수 있습니다(PageRank 알고리즘). Google에서는 철자 정확성 문제가 아주 간단하게 해결됩니다. 이를 위해 오류 및 수정 데이터베이스가 생성되고 사용자가 수락하거나 거부할 수 있는 수정 사항이 제공됩니다. 음성 입력 중 인식에도 유사한 접근 방식이 사용됩니다. 이는 축적된 오디오 데이터를 기반으로 합니다.

2009년 돼지독감 유행 당시 검색엔진에 대한 검색어 분석을 통해 전염병 확산을 추적할 수 있었다. 많은 기업(Facebook, LinkedIn, Amazon 등)이 서비스 제공뿐만 아니라 축적된 데이터를 다른 용도로 활용하면서 Google의 길을 걷고 있습니다. 이러한 유형의 데이터를 처리하는 능력은 인구의 또 다른 과학인 시민 과학의 출현에 자극을 주었습니다. 인구 데이터에 대한 포괄적인 분석을 통해 얻은 결과를 통해 사람들에 대한 훨씬 더 깊은 지식을 얻고 정보에 입각한 행정 및 상업적 결정을 내릴 수 있습니다. 작업을 위한 데이터 및 도구 모음을 이제 인포웨어라고 합니다.

빅 데이터 머신

빅 데이터 프로젝트에 기인할 수 있는 데이터 웨어하우스, 온라인 상점, 청구 시스템 또는 기타 플랫폼에는 일반적으로 고유한 특성이 있으며, 이를 설계할 때 가장 중요한 것은 산업 데이터와 통합하여 데이터 축적 프로세스, 조직 및 분석을 제공하는 것입니다.

Oracle은 전체 소프트웨어 스택과 18개의 Sun X4270 M2 서버가 있는 최적화된 하드웨어로 구성된 빅 데이터 처리 체인을 지원하기 위해 통합 Oracle Big Data Appliance를 제공했습니다. 상호 연결은 Infiniband 40Gb/s 및 10기가비트 이더넷을 기반으로 합니다. Oracle Big Data Appliance에는 Oracle의 오픈 소스 및 독점 소프트웨어가 모두 포함되어 있습니다.

키-값 저장소 또는 NoSQL DBMS는 오늘날 빅 데이터 세계의 주요 저장소로 인식되며 빠른 데이터 축적 및 액세스에 최적화되어 있습니다. 이와 같은 Oracle Big Data Appliance용 DBMS는 Oracle Berkley DB 기반의 DBMS를 사용하여 스토리지 시스템의 토폴로지에 대한 정보를 저장하고, 데이터를 분산하고, 가장 짧은 시간에 데이터를 어디에 둘 수 있는지 파악합니다.

Oracle Loader for Hadoop을 사용하면 MapReduce 기술을 사용하여 Oracle 11g에서 로드 및 분석을 위한 최적화된 데이터 세트를 생성할 수 있습니다. 데이터는 시스템 리소스 사용을 최소화하는 Oracle DBMS의 "네이티브" 형식으로 생성됩니다. 포맷된 데이터의 처리는 클러스터에서 수행되고 표준 SQL 명령 또는 비즈니스 인텔리전스 도구를 사용하여 기존 RDBMS 사용자의 워크스테이션에서 데이터에 액세스할 수 있습니다. Hadoop 데이터와 Oracle DBMS의 통합은 Oracle Data Integrator 솔루션을 사용하여 수행됩니다.

Oracle Big Data Appliance는 HDFS 및 기타 구성 요소를 포함하는 Apache Hadoop의 공개 배포, 원시 데이터 분석을 위한 R 통계 패키지의 공개 배포 및 Oracle Enterprise Linux 5.6과 함께 제공됩니다. 이미 Hadoop을 사용하고 있는 기업은 외부 테이블 기능을 사용하여 HDFS에 호스팅된 데이터를 Oracle DBMS에 통합할 수 있으며, 데이터를 DBMS에 즉시 로드할 필요가 없습니다. 외부 데이터는 SQL 명령을 사용하여 내부 Oracle 데이터베이스 데이터와 함께 사용할 수 있습니다.

Infiniband를 통한 Oracle Big Data Appliance와 Oracle Exadata 간의 연결은 일괄 처리 또는 SQL 쿼리를 위한 고속 데이터 전송을 제공합니다. Oracle Exadata는 데이터 웨어하우징 및 온라인 트랜잭션 처리 애플리케이션 모두에 필요한 성능을 제공합니다.

새로운 Oracle Exalytics 제품은 비즈니스 인텔리전스 문제를 해결하는 데 사용할 수 있으며 인메모리 프로세싱과 함께 Oracle Business Intelligence Enterprise Edition을 사용하는 데 최적화되어 있습니다.

– 블라디미르 뎀킨 ([이메일 보호됨]), Oracle CIS(모스크바)의 Oracle Exadata 수석 컨설턴트.

과학 및 전문가

"데이터 과학이란 무엇입니까?" 보고서의 저자 (데이터 과학이란?) O'Reilly Radar Report 시리즈에 게시된 Mike Loukidis는 "미래는 데이터를 제품으로 전환할 수 있는 회사와 사람들의 것입니다."라고 썼습니다. 이 진술은 로스차일드가 다른 사람들보다 일찍 워털루에서 나폴레옹의 패배를 알고 유가 증권으로 사기를 당했을 때 했던 "정보를 소유한 사람 - 그는 세계를 소유한다"라는 유명한 말을 무의식적으로 상기시킵니다. 오늘날 이 격언을 바꾸어 말해야 합니다. "세계는 분석을 위한 데이터와 기술을 소유한 사람이 소유합니다." 조금 후에 살았던 칼 마르크스는 산업 혁명이 사람들을 생산 수단을 소유한 사람들과 생산 수단을 위해 일하는 사람들의 두 그룹으로 나눴음을 보여주었습니다. 일반적으로 지금 비슷한 일이 벌어지고 있지만 이제는 소유권과 기능 분담의 주체가 물질적 가치를 생산하는 수단이 아니라 데이터와 정보를 생산하는 수단이다. 그리고 이것은 문제가 발생하는 곳입니다. 유형 자산을 소유하는 것보다 데이터를 소유하는 것이 훨씬 더 어려운 것으로 나타났습니다. 전자는 매우 쉽게 복제되고 절도 가능성은 물질적 개체의 절도보다 훨씬 높습니다. 또한 법적 정보 방법이 있습니다. 충분한 양과 적절한 분석 방법으로 숨겨진 것을 "계산"할 수 있습니다. 그렇기 때문에 현재 빅 데이터 분석(사이드바 참조)과 이를 방지하는 방법에 많은 관심을 기울이고 있습니다.

데이터에 대한 다양한 유형의 활동, 그리고 무엇보다 정보를 추출하는 방법에 대한 지식을 데이터 과학(데이터 과학)이라고 합니다. 이 지식은 어쨌든 러시아어로 번역되면 다소 혼란스럽습니다. 과학, 그러나 지식을 추출하는 데 필요한 학제 간 집합 지식과 기술. 이러한 집합의 구성은 영역에 따라 크게 다르지만 데이터 과학자라고 하는 전문가에 대한 다소 일반화된 자격 요건을 구분할 수 있습니다. 이것은 과거에 미국 정보 기관 중 하나에서 테러 위협에 대한 데이터 분석에 참여했던 Drew Conway가 가장 잘 수행했습니다. 그의 논문의 주요 논문은 미국 CIA와 과학 기관 사이의 중개자 역할을 하는 In-Q-Tel에서 발행하는 계간지 IQT Quarterly에 게재됩니다.

Conway는 데이터 과학자가 되기 위해 소유하고 소유해야 하는 세 가지 지식과 기술 영역을 나타내는 벤 다이어그램(그림 참조)의 형태로 자신의 모델을 묘사했습니다. 해커 기술은 악의적인 행위로 이해되어서는 안 됩니다. 이 경우 특정 도구를 소유하고 Hercule Poirot와 같은 특별한 분석적 사고 방식을 결합하거나 이 능력을 셜록 홈즈의 연역적 방법이라고 부를 수 있습니다. 훌륭한 탐정과 달리 여러 수학 분야의 전문가가 되어야 하고 주제를 이해해야 합니다. 기계 학습은 첫 번째 두 영역의 교차점, 두 번째 및 세 번째 전통적인 방법의 교차점에서 형성됩니다. 세 번째 교차 영역은 추측성 때문에 위험하며 수학적 방법 없이는 객관적인 비전이 있을 수 없습니다. 세 영역 모두의 교차점에는 데이터 과학이 있습니다.

Conway의 다이어그램은 단순화된 그림을 제공합니다. 첫째, 기계 학습은 해커와 수학 서클의 교차점에 있을 뿐만 아니라 두 번째로 마지막 서클의 크기가 훨씬 더 커졌으며 오늘날에는 많은 분야와 기술이 포함됩니다. 기계 학습은 학습 가능한 알고리즘의 구성과 관련된 인공 지능의 영역 중 하나일 뿐이며 데이터의 숨겨진 패턴을 드러내는 사례 기반 또는 귀납적 학습과 형식화를 목표로 하는 연역의 두 가지 하위 영역으로 나뉩니다. 전문 지식. 머신 러닝은 미리 준비된 훈련 데이터 세트를 기반으로 분류 방법을 연구하는 지도 학습(Supervised Learning)과 클러스터 분석을 통해 내부 패턴을 찾는 비지도 학습(Unsupervised Learning)으로 나뉩니다.

따라서 빅데이터는 투기적 반영이 아니라, 추월하는 기술혁명의 상징이다. 빅 데이터에 대한 분석 작업의 필요성은 IT 산업의 얼굴을 크게 바꾸고 새로운 소프트웨어 및 하드웨어 플랫폼의 출현을 자극할 것입니다. 이미 오늘날 가장 발전된 방법이 대량의 데이터를 분석하는 데 사용됩니다. 인공 신경망 - 생물학적 신경망의 구성 및 기능 원리를 기반으로 구축된 모델. 예측 분석, 통계 및 자연어 처리 방법(컴퓨터 분석 및 자연어 합성 문제를 연구하는 인공 지능 및 수학 언어학의 방향). 사람의 전문가가 참여하는 방법이나 크라우드소싱, A/B 테스팅, 감성분석 등이 사용되며, 태그 클라우드와 완전히 새로운 Clustergram, History Flow 및 Spatial Information Flow와 같이 잘 알려진 방법을 사용하여 결과를 시각화합니다. .

빅 데이터 기술의 측면에서는 분산 파일 시스템인 Google 파일 시스템, Cassandra, HBase, Lustre 및 ZFS, MapReduce 및 Hadoop 소프트웨어 구성 및 기타 여러 솔루션에서 지원됩니다. McKinsey Institute 등의 전문가들에 따르면 빅데이터의 영향으로 개인의 움직임에 대한 생산, 의료, 무역, 관리 및 모니터링 영역이 가장 큰 변화를 겪을 것이라고 합니다.