본문 바로가기

빅데이터 프로세싱

개발팀 2019.02.01 07:55 조회 수 : 2695

출처 : 나무위키 (빅 데이터 프로세싱)

https://namu.wiki/w/%EB%B9%85%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%ED%94%84%EB%A1%9C%EC%84%B8%EC%8B%B1#s-4


빅데이터 프로세싱 (Big data processing)


1. 개요


본래 경제 가치를 창출해 낼 수 있는 설문조사 결과 모음으로 정의되며 '빅 데이터 프로세싱'이란 빅 데이터에서 돈이 될 만한 것을 뽑아내는 기술로 정의되었다. 그러나 빅 데이터 기술이 대중에게 유명해진 지금은 경제 분야에 국한되어 쓰이지 않는 용어가 되었다. 업체들이 난립하고 있으며, 대형 벤더에서는 솔루션 업체들을 인수하여 솔루션을 강화하고자 하는 실정이다. 사람들의 마음 속을 어느 정도 계량화해서 데이터로 만들어 응용하는 것이 가능하다 보니 주요 대기업들 사이에서 독자적인 빅 데이터 응용 모델 만들기가 대유행 중이다. 유엔에서도 이와 관련하여 빅 데이터를 국제개발 및 사회발전에 활용하기 위해 BD4D(Big Data for Development)라는 개념도 만들었다. 대표적인 것이 유엔 글로벌 펄스(UN Global Pulse).


빅 데이터의 특징을 규모 (대용량), 다양성, 속도, 정확성, 가치로 보아 3V, 4V, 5V 등으로 표현하기도 한다. 3V 문서 참조.

대용량 데이터를 가지고 있으면 자료 관리 기술과 자료 분석 기술이 필요하다. 자료 관리 기술은 Hadoop 등을 이용한다. 자료 분석 기술로는 통계학, 기계학습, 인공신경망, 데이터 마이닝 등을 이용한다.

편의상 줄여서 "빅데이터"라고도 부르기도 한다. "빅데이터"라고 쳐도 이 문서로 들어올 수 있다.


2. 활용


•예방의학과
존 스노우가 빅 데이터를 활용해 콜레라를 퇴치한 이후, 각종 전염병 전파과정의 기본적인 규명방법으로 사용되고 있다.


•추천 엔진
'페이스북의 당신이 알 수도 있는 사람', '아마존 추천 상품' 등


•검색엔진의 검색어 분포도를 통한 데이터 추출
특정 사용자가 검색하는 검색어 패턴이나 클릭해서 본 적이 있는 각종 인터넷 광고들의 통계를 내서 정확도 순서로 맞춰 리스트를 출력해 주는데, 이것이 빅 데이터 응용의 기본 개념이다. 특정 지역에서 감기 또는 감기약 등의 검색어를 사용하는 빈도가 늘어난다고 하면 해당 지역에 감기약의 공급을 늘릴 필요가 있다. 이 활용법이 서울대 의대 면접 제시문으로 등장했다.


•시내버스 노선 통계
이전에는 요금함을 일일이 뒤져서 액수 다 세고 그리고 어디서 내리는지도 알 수 없었으나 수도권 통합 요금 도입으로 인해 내릴 때 카드를 찍는 것이 일반화되어 승하차량을 좀 더 간편히 알 수 있게 되어 시내버스 노선을 새로 짤 경우 유용하게 사용될 수 있다.


•심리/동향 분석
SNS 포스팅이나 인터넷 광고 클릭 성향 등을 통한 맞춤형 정보 제공.


•정당 후보의 선거 유세
SNS속 빅 데이터의 분석으로 유권자 개개인의 특성과 성향을 분류하고 이에 따라 마이크로 타기팅이 가능. 실제로 2012 미국 대선에서 민주당 오바마 당시 후보가 사용했던 선거 전략으로, 약 1억 건의 빅 데이터 분석을 통해 유권자의 정당 지지 성향, 관심 공약, 투표율 등을 고려하여 약 600종류의 이메일로 선거활동을 한 바 있다.


•리스크 모델링
금융업계에서의 투자 시나리오 작성 보조


•인터넷 사기 탐지
거래 데이터 및 평가도 기준으로 필터링 가능. 남아프리카의 보험사 Santam 사에서는 예측 분석과 위험 세분화 등을 통해 발견한 패턴으로 보험 사기를 좀 더 빠르게 적발하고, 보험 사기 확률이 낮은 건에 대한 처리 속도를 개선해 고객 만족도 역시 높였다.


•각종 네트워크 모니터링
빅 데이터 통합 카테고리로 통합된 온라인 업무 정리


•인간 게놈 분석을 통한 맞춤 의학의 실현


•인공지능 구현
대표적으로 알파고가 있었으며, 블리자드 엔터테인먼트도 자사의 게임 플레이를 취합해 사용함으로써 인공지능 구현 수준이 높다는 평을 받고 있다.


•높은 조회수 이끌어내기(^^) : 빅데이터라는 단어만 사용해도 뭔가 신뢰감을 주기에 많은 사람들은 낚이기도 한다


2.1. 한국


2015년 미국에서는 이미 380억 달러 (38조원) 규모의 시장이 형성되어 있다. 한국 시장의 150배다. 국내 시장은 데이터 수집 영역만 과포화되어 있으며, 그 대신 서비스 관리 플랫폼(SMP) 및 데이터 가공 영역, 데이터 통합 영역 등은 빈약하다. 그런데 문제는 국내 업계에서 별다른 성과 없이 빅 데이터 논의가 사그라드는 조짐이 보인다는 것이다. 이는 국내에서는 "CRM → 소프트웨어 시스템 구축 → 하둡 → 빅 데이터 → 사물인터넷 → 인공지능 & 딥러닝"같은 식으로 돌아가면서 구호만 반복하고 있기 때문이라는 분석도 있다. 즉 데이터 활용의 현황을 파악하고 통찰을 얻지 못하고 있기 때문에 시간 낭비만 하고 있다는 게 데이터 업계의 푸념이다


3. 관련 자격증


•사회조사분석사

•경영 빅데이터 분석사

•데이터 분석 전문가/준전문가

•SAS Base


4. 빅 데이터 프로세싱 소프트웨어


9c5ee5547f318c71f237d67eed8baeedbe967772
•Spark: 아파치 재단에서 만든다.

•Hadoop: 아파치에서 만든다.

•Python

•TensorFlow: 구글에서 만든다.

•R


5. 개인정보 침해 우려


"분명한 것은 필요에 따라 익명으로 활동하거나 남아 있을 자유의 박탈은 편리의 증대나 경제적 부가가치의 생산으로 보상될 수 있는 문제가 아니라는 것이다. 평소 잘 인식하지 못하지만, 익명으로 숨어 있을 권리는 프라이버시의 문제를 넘어 민주주의의 근간이기도 하다. 우리는 개인보다 집단으로 저항한다. 그리고 군중 속에서 훨씬 더 잘 저항한다. 따라서 개인정보를 기업의 이윤추구와 정보권력의 통제 욕망에 무방비로 맡기는 것은 현대 산업사회에서 인간의 실존을 뿌리부터 흔드는 재앙이다."

-참여연대 장흥배 경제노동팀장- http://www.peoplepower21.org/Magazine/1344060


"몇 년 동안 대중을 몰래 감시해온 저희로서는 수많은 사람들이 자발적으로 자신의 거주지와 종교적 정치적 견해, 순서대로 정리한 친구 목록, 이메일 주소, 전화번호, 자신이 찍힌 수백 장의 사진, 현재 하고 있는 활동 정보를 공개하고 있다니 놀랍기 그지 없습니다. CIA로서는 꿈에 그리던 일이지요."
- 'The Onion' 미국의 풍자언론에서 CIA 부국장인 크리스토퍼 사르틴스키가 한 발언-

( 다만 이는 실존인물이 아니다. 영어 위키백과의 CIA역대 부국장 명단에는 이사람의 이름이 없다. 풍자 언론에서 풍자하기 위해 등장한 가상의 인물이다.)


미국의 슈퍼마켓 체인점 타깃(TARGET)에 한 중년남성이 찾아와 항의했다. 딸에게 배송된 광고물에 임신 상품만이 실려 있었기 때문이다. 딸에게 임신권유하는 것도 아니고 광고지가 왜 이러냐고 항의하는 남성에게 직원은 사과를 했다. 하지만 다음날 그 남성은 전화를 걸어 사과했다. 여고생 딸이 임신 중이었던 것. 빅 데이터는 아버지도 모르는 딸의 임신을 기업이 먼저 알게 해주었다. 이 일화는 뉴욕타임즈의 기사#에 실려 빅 데이터의 유용성을 알게해주지만 위험성도 말해준다.


빅 데이터는 종종 조지 오웰의 빅 브라더와도 관련되어 언급되곤 한다. 혹시 혼동할까봐 구별하자면 빅 데이터는 데이터베이스 관련 기술명이며 빅 브라더는 국가권력의 비합법적인 사회 감시체계를 말하는 것이다.


빅 데이터를 이용해 사람들을 분석, 예상, 유도하는 기술은 나날히 발전하고 있다. 독재 정부의 손에 의해 국민을 통제하는 디스토피아에서 빅데이터는 효율적으로 사람을 감시하고 평가하고 유도해나가는 밑거름이 될 것이다. 지금도 "데이터 권력", "정보 권력" 이라 불리는 빅 데이터가 절대적 권력자의 손에 들어가고 국민의 정보를 지속적으로 얻는 순간 사실상 사회의 완벽한 통제가 가능해진다. "빅 데이터는 가장 유능한 게슈타포보다도 정보력이 좋다" 는 말이 데이터 전문가들 사이에 돌 정도다. 딱히 독재자가 아니어도 민간기업이나 선거유세 때 개인정보를 구매하는 것은 이제 드문 일이 아니다. 우리나라 선거 때도 문자가 날라오고, 영국회사가 페이스북을 통해 5000만 명의 개인정보를 얻는다. 이를 어떻게 이용할지는 정보를 가진 이들에게 온전히 맡겨져 있다.


데이터의 양이 지나치게 늘어난 사회에 살다 보니, 당연하게도 빅 데이터의 치명적 약점으로 사생활 침해나 개인정보 유출의 문제가 발생할 수 있다. Facebook/논란과 문제점에도 잘 적혀 있다. 게다가 사회가 감당하기 어려울 만큼 데이터가 폭증하고 있는데 이걸 관리할 전문인력이 없다는 것도 문제이다. 데이터를 분석하던 회사가 망해 버리면 그 데이터는 어디로 가느냐도 문제. 역으로 다른 곳으로 정보가 흘러들어가 개인을 상세히 분석가능한 정보를 사기업이나 조직이 확보하고 이용할 가능성도 있다. 이러다 보니 또 일각에서는 소위 "데이터 다이어트" 라는 것까지도 제안하고 있는 상태.


빅 데이터는 많은 데이터를 모으는 것이 우선적이고 이 때문에 많은 개인정보 사용 동의자들이 필요하다. 거대한 기업일수록 더 많은 개인정보를 얻을 수 있고, 이러한 데이터 격차는 줄어들지 않는다.즉 대기업과 선두주자가 압도적으로 유리하게 판이 만들어지는 것. '누가 어느 것을 좋아하니까 뭘 제공해야 한다는 것'은 온전히 개인정보에 기반하기에 그게 없는 후발주자들은 어떻게 할 수가 없다. 이는 데이터 독점에 가까운 형식이 되기 쉽다. 빅 데이터 규제 반대측이 데이터 우위로 인한 독점이 가속화된다고 할 정도로 이는 기업들에게 심각한 문제.


개인식별이 불가능(비식별화de-identification)한 개인정보를 수집하는 것에도 방심하면 안 된다. 여러 기업들에게서 얻은 성별, 나이, 국적, 선호하는 것들 등을 중심으로 특정인을 식별하는 것(재식별화re-identification)은 크게 어려운 일은 아니다. 특히 한국은 주민등록번호가 있기에 이런 조금 구멍난 정보들로 개인을 재구성하는 것에 무리가 없다는 지적을 받고 있다. 게다가 이미 유출된 개인정보가 엄청난 상황이니 기업들이 가진 개인정보가 아니어도 한사람의 상세한 개인정보를 짜맞추는 것은 쉬운 일이다.


CCTV 등 동의하지 않은 정보수집 장치를 통해 개인의 동선 등의 개인정보를 파악할 수도 있고 이에 대한 제약은 미진하다.


임태훈 교수의 저서《검색되지 않을 자유》에서는 빅 데이터로 인한 정형화된 인간의 만연에 대해 경계할 것을 요구한다. 정보 유출 같은 문제를 떠나 인간으로서의 존엄성과 같은 철학적인 부분까지도 재검토해볼 필요가 있을 것이다.


6. 관련 개념


•데이터 마이닝


•통계학


•p-해킹


•컴퓨터 관련 정보


•문헌정보학 관련 정보


•기계학습

번호 제목 글쓴이 날짜 조회 수
» 빅데이터 프로세싱 [19] file 개발팀 2019.02.01 2695