본문 바로가기
Computer Science/DataBase

빅데이터 관리 서론

by J._.cobb 2022. 4. 27.

세계를 바꾼 10대 발명품(2014)

  1. 전기
  2. 전구[빛]
  3. 냉장고
  4. 바퀴
  5. 자동차
  6. 인쇄술
  7. (무선) 전파
  8. 비행기
  9. 전화
  10. 컴퓨터

Data Story

  • Magnetic Core, Card Deck, Magnetic Disk
  • File System
  • Data Base → Database
  • Very Large Database, VLDB
  • Data Warehouse
  • Data Mining
  • → Big Data vs Big Brother?

빅데이터 시대

  • 정보화 시대
    • 아날로그를 디지털로
    • 카메라, 휴대폰, TV, 인쇄, 영화(디지털 영화관)
    • 자동차/비행기 : 이미 상당 부분 디지털
    • 유비쿼터스 컴퓨팅과 센서 보급 확대
  • 빅데이터 시대
    • 디지털 디바이스들이 쏟아내는 데이터의 홍수

디지털카메라

  • 언제쯤 아날로그 카메라를 완전히 대체?
  • 아직 사진작가들은 ‘필름’ 카메라 사용
    • 디지털은 구도 잡고 칼라 확인 정도
    • 실제 작품은 필름 사용
  • Nikon D800 3,650만 화소
  • SIGMA DP2 Merrill, 4,600만 화소
  • Swiss 자이츠(seitz)사, 1억 6청만 화소, 3천300만 원

컴퓨터 역사 시대별 구분

  • MainFrame
  • PC
  • Web
  • Device
  • Data

Era of Device

  • Smart Device: Ubiquitous Computing
  • Phone
  • Beam Projector
  • Car: 자동 주차, 주행
  • TV: Platform
  • Camera, CCTV : 얼굴인식
  • Airplane : 무인비행기
  • Missile : 순항미사일
  • 로봇 : 휴머노이드, 보행보조 로봇

보행 보조 로봇

  • 하체 마비 환자용, 노인용 등

의족 육상 선수

  • 오스카 피스토리우스
  • 400m 준결승 진출
  • 45초 44 기록

화성 탐사로봇 큐리오시티

  • 2011/11 발사, 8개월 비행, 2012/8/7 착륙 성공
  • 제작비 2조 원
  • 2년간 화성에서 활동
  • 태양전지 대신 플루토늄 사용

측정의 역사

  • 척: 성인 남자 발 길이
  • Feet, Yard, Pound
  • 프랑스 미터법
    • 프랑스 대혁명의 산물
      • 영주들이 도량형을 가지고 농민을 억압하는 수단
      • 프랑스는 당시 800개의 이름으로 25만 개의 도량 단위가 사용 중
    • 북극에서 적도까지(파리를 통과하는) 자오선 길이의 1000만 분의 1
      • 2명의 천문학자 파견 7년간 측정, 공포
    • 미국(파리 기준, 지금은 시민이 반대?)
    • 영국 거부(대혁명 전파 우려, 나중에 채택)
    • 라이베리아, 미얀마 (영국 식민지 때) 3국만 미터법 사용하지 않음
  • 우리나라
    • 평(크기), 돈, 근(무게), 마지기, 섬, 꾸러미, 움큼 등

화성탐사선 폭발

  • 1999/9
    • 제작사 록히드마틴 야드 파운드 법으로 제작
    • NASA 미터법을 간주 발사, 1억 KM에서 궤도 이탈 추락
  • 아일랜드 민요
    • 개는 뜸부기보다 3배 오래 살고
    • 말은 개보다 3배 오래 살고
    • 칠면조는 말보다 3배 오래 살고
    • 사슴은 칠면조보다 3배 오래 살고

Era of Data

  • Smart Device 들로부터 Data 생성
  • CCTV
  • SMS 메시지, 카톡 등
  • SNS, Twitter 등
  • 동영상
  • 카메라: 제로 셔터랙, 버스트샷(20장) 베스트 포토, 주소록 연동 소셜 태그
    • 방수 카메라, 스마트폰, 수중 촬영
    • 야간 촬영 ISO 3200, 고해상도 1300만 화소 등

Data Center

  • Datacenter
  • 인터넷 데이터 센터(IDC)
    • 서버 호텔
    • 인터넷 서비스 회사들 구축 : KT, DACOM 등
  • SI 업체 중심 : SM (System maintenance) 별
  • Internet Software Service 업체별
    • Google, Yahoo, Amazon, Facebook, Apple etc
    • 국내: NHN, Daum, Nexon etc
  • 공공기관별
    • 정부, 서울시 등

Data Center 중요 요건

  • 천재지변 안정적
    • 원자력발전소 위치 선정
    • 지진, 해일, 침수
    • 정치적 안정성도 중요
      • 구글의 아시아 DC를 한국에서 대만으로 변경
  • 발전소 부근, 에너지원
    • 일본 Yahoo의 DC를 부산으로
      • 전기료, 인터넷 등 강점
  • 건설부지 임대료 등 기타

구글 데이터 센터

  • 1곳 4만 대
  • 총 100만 대
  • 오레곤 센터
  • 풍력/태양열 발전소 건설 → 그린 전략

다음, NHN

  • 정부통합전산센터
    • 대전 1, 광주 2, 공주
  • NHN
    • 춘천에 15,000평 규모 친환경 DC 건설
  • LG CNS 부산 글로벌 클라우드 데이터센터
  • 서울시 DC: 양재동 시정개발연구원

Slogan Changes

  • The Network is the Computer
    • Sun, CEO Scott McNealy
    • The Internet is the Server
  • The Browser is the Operating System
    • Microsoft
  • The Data Center is the Computer
    • David Patterson, Prof. UC Berkeley, 2012

데이터

  • 새로운 자산
    • 21세기 원유
    • 미래 경쟁력
  • 서기 208년 적벽대전
    • 조조 10만 해군, 유비와 손권 연합군
    • 따뜻한 겨울 하늘에 구름이 끼면 바람이 북풍에서 동남풍으로 바뀐다는 신호다. 오늘 밤 화공을 치른다
    • 제갈량은 데이터 마이닝의 대가

빅데이터의 정의

  • 맥킨지
    • 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
  • IDC ( IT 분야 연구기관 )
    • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 (데이터의) 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
  • 3V
    • 크기 Volume
    • 속도 Velocity
    • 다양성 Variety

빅데이터 시대

  • 2011년 1.8 Zetta byte, $10^{21}$
    • Giga = $10^9$, Tera= $10^{12}$, Peta = $10^{15}$, Exa = $10^{18}$, Zetta = $10^{21}$, Yotta = $10^{24}$
  • 하루 1억 개의 트위터 메시지 분석
  • 소셜 마이닝
    • 마신다 ↔ 술? 커피?
    • 유명한 카페 vs 조용한 카페

Exponential Growth

  • Exaponential
    • Quantity of global digital data, exabytes
    • 130(2005) → 1227(2010) → 2720(2012) → 7910(2015)

등장 배경, 저장비용 저렴

  • 과거에 버려지던, 버릴 수밖에 없던 데이터들을 누적
  • 1980년 1G 100만 불 (10억), 2010년 0.1달러 (100원)
  • 1000만 분의 1
  • 모든 사건에 대한 디지털 기록이 가능

개인의 일생 기록 가능

  • 10G CCD 카메라, 마이크, 100G짜리 SSD 디스크
  • 하루 종일 말한 것, 들은 것, 본 것 저장 가능
  • 100만 원이면 평생 데이터 기록 가능

처리 기술의 발전

  • CPU 멀티코어 시대
  • 하루 데이터 10TB를 100MB/s로 읽으면 전송시간만 27시간 소요
  • 병렬 분산 처리 기술의 등장
    • 구글 MapReduce 기반 오픈 소스 hadoop 보급
  • 빅데이터 분석 도구까지 확보

빅데이터 활용 사례

  • 10년 전 런던, 혼잡통행료 도시 진입 억제 목적
  • 결과
    • 차량이 줄고, 자전거가 급격히 늘어남
  • 미국, 샌프란시스코, 범죄, 부동산, 교통 등 100가지 공공 정보 공개
    • 도심에서 강력범죄 발생
    • 강력범죄와 마약범죄 연관
    • 높은 지형(부자촌)에서 낮은 지형(빈민가)으로 갈수록 절도, 강도 발생
    • 안전한 주거지, 차 도난 지역 등 예방 가능

How to handle BigData

  • Hadoop Platform : Open Source

구축과 활용사례

  • GM’s OnStar
    • 원격 차량 진단 및 응급상황 대응 서비스
    • 3 Peta byte/year
    • 전기자동차의 경우 배터리 모니터링 중요
    • Range anxiety 주행거리 불안 해소
    • 전기자동차 운전자는 접속을 원한다.
      • 주행 패턴

새로운 패러다임 및 영향

  • 정부 정책의 변화
  • 사회과학의 연구 변화 예상
    • 제한된 설문으로 문제를 분석하여 해결
    • 선거, 마케팅 등
  • 입증할 수 없는 주관적 주장 → 분석 가능한 객관적 입증으로 변화
  • 빅데이터 분석을 통해 입증 가능한 사회 모델을 수립 연구하는 학문으로 재정의

클라우드로 대용량 데이터 처리

  • SaaS 기업 Saasu는 클라우드에 정기적 백업
    • SaaS 기업의 데이터 손실 사건 발생 보완책
    • 60GB 증분 백업(Incremental backup)
      • rSync, Syncified를 사용 15분마다 복사
    • 완전 백업은 2일마다 수행
    • 월 사용료 12달러
  • MS Azure Marketpalce, DataMarket

공공기관의 활용

  • 버려지던 데이터
  • 전수 조사
  • 경제적, 기술적, 시간적 문제의 한계 탈피
  • 정부 정책 결정
    • 정치가의 정치적 성향과 공약
    • 증거와 예측을 기반으로 한 정책 결정
    • 데이터 기반 정책 결정 Data Driven Decision making
    • 데이터 경영이 데이터 정당으로 변신
    • 오바마 행정부 빅데이터 정책 수립, 2012
      • Data Driven Government
      • 2억 불을 R&D에 투자 (2000억)
    • 싱가포르 2011년부터 추진

빅브라더 정부 vs 빅데이터 정부

  • SNS 분석을 통한 정치 성향 예측 가능
  • 대의민주주의에서 직접민주주의가 가능

볼보자동차

  • 모든 자동차의 운전정보 무선 수집 데이터화
  • 다양한 차량 결함과 운전자 요구 파악
  • 50만대로 알 수 있었던 결함을 1000대로 파악 완료
  • 2010년 맥킨지 분석
    • 의료산업에서 빅데이터 분석 이용 시 3300억 불 절감 가능 (스페인 전체 의료 예산)
    • 진단, 처치, 효능 분석, 최적 의료방법 도출 시 1600억 불 절감
  • 유럽의 공공 부분 2500억 유로 절감
  • 제조업 개발비 50% 감소
  • 지능형 교통 및 보험료 산정에 활용
    • 영국 아비바 보험, 혼잡시간대, 사고다발지역 운행 빈도에 따라 보험료 차등 적용 pay-as-you-drive 상품
    • 교통혼잡 비용 절감 6000억 불

번역 구글과 IBM의 대결

  • 수십 년 연구를 구글이 몇 년에 이긴 이유
  • 영어-불어 번역 40년 투자
  • 2006년 58개 언어 교차 번역 구글 서비스 시작
    • 영어-불어, 독일어 등 라틴어 번역은 전문가 수준
    • 정확도 90%
    • 수백만 권의 장서와 이용자의 검색어 등 빅데이터 기반 통계 번역
    • 인간의 언어를 제한적인 데이터와 획일화된 규칙으로는 어려운 문제
    • 변화하는 언어의 뜻을 반영하기에는 부적절

생산 현장에서의 빅데이터 활용

  • SAS 사례 발표
  • 석유시추선 부품의 상태 데이터 생성
    • 1년에 36억 불, 1일 1000만 불 원유 생산
    • 과거: 장애가 발생했을 때만 원인 분석에 활용
    • 장애 발생 시 부품 항공편 조달 7일, 7000만 불 손실
    • 과거 데이터 분석, 48시간대 부품 X 고장 확률 80% 선제적 부품 교체로 80% 정지일 감소, 7억 불 비용 감축
  • LG 디스플레이, 다량의 센서 데이터 활용 불량률 예측 공정 최적화

산업 지각변동의 진원

  • 2012 빅데이터 시대의 원년
  • 90% 비정형 데이터
  • 4대 천왕
    • 구글, 아마존, 페이스북, 애플
    • 핵심 서비스 무료 염가로 제공, 빅데이터 축적 중
    • IBM, MS, SAS 등 솔루션 개발 및 출시
    • HP, 후지쯔, 도시바 진입 준비 중

빅데이터 프로젝트 성공하기

  • 6가지 방법
  • 툴 또는 데이터, 어디에서 무엇이 빠졌는지 규명하라
  • 기업이 보유한 데이터와 기업에게 필요한 데이터를 이해하라
  • 기업이 성취하려고 하는 바를 알아야 한다
  • 데이터 사이언티스트를 찾아 고용하라
  • 속도를 이해하고 기대치를 관리하라
  • 엔드유저와 함께 논의하고 점검하라

데이터 사이언티스트

  • 컴퓨터 사이언스, 애플리케이션, 데이터 모델링, 통계학, 분석학, 고급수학 + 비즈니스 프로세스 혹은 비즈니스 매니지먼트
  • 데이터 전문가: 데이터 분석가, 분석 전문가와 다름, 5% 박사, 연봉 65000-7만 불
  • 35%가 박사학위, 연봉 7만 -9만 불

 

 

출처

데이터베이스 <2014, 용환승 교수님>

'Computer Science > DataBase' 카테고리의 다른 글

데이터베이스의 저장과 접근: 해싱  (0) 2022.04.27
트랜잭션(2)  (0) 2022.04.22
트랜잭션(1)  (0) 2022.04.22
뷰와 시스템 카탈로그(2)  (0) 2022.04.22
뷰와 시스템 카탈로그(1)  (0) 2022.04.20