세계를 바꾼 10대 발명품(2014)
- 전기
- 전구[빛]
- 냉장고
- 바퀴
- 자동차
- 인쇄술
- (무선) 전파
- 비행기
- 전화
- 컴퓨터
Data Story
- Magnetic Core, Card Deck, Magnetic Disk
- File System
- Data Base → Database
- Very Large Database, VLDB
- Data Warehouse
- Data Mining
- → Big Data vs Big Brother?
빅데이터 시대
- 정보화 시대
- 아날로그를 디지털로
- 카메라, 휴대폰, TV, 인쇄, 영화(디지털 영화관)
- 자동차/비행기 : 이미 상당 부분 디지털
- 유비쿼터스 컴퓨팅과 센서 보급 확대
- 빅데이터 시대
- 디지털 디바이스들이 쏟아내는 데이터의 홍수
디지털카메라
- 언제쯤 아날로그 카메라를 완전히 대체?
- 아직 사진작가들은 ‘필름’ 카메라 사용
- 디지털은 구도 잡고 칼라 확인 정도
- 실제 작품은 필름 사용
- Nikon D800 3,650만 화소
- SIGMA DP2 Merrill, 4,600만 화소
- Swiss 자이츠(seitz)사, 1억 6청만 화소, 3천300만 원
컴퓨터 역사 시대별 구분
- MainFrame
- PC
- Web
- Device
- Data
Era of Device
- Smart Device: Ubiquitous Computing
- Phone
- Beam Projector
- Car: 자동 주차, 주행
- TV: Platform
- Camera, CCTV : 얼굴인식
- Airplane : 무인비행기
- Missile : 순항미사일
- 로봇 : 휴머노이드, 보행보조 로봇
보행 보조 로봇
- 하체 마비 환자용, 노인용 등
의족 육상 선수
- 오스카 피스토리우스
- 400m 준결승 진출
- 45초 44 기록
화성 탐사로봇 큐리오시티
- 2011/11 발사, 8개월 비행, 2012/8/7 착륙 성공
- 제작비 2조 원
- 2년간 화성에서 활동
- 태양전지 대신 플루토늄 사용
측정의 역사
- 척: 성인 남자 발 길이
- Feet, Yard, Pound
- 프랑스 미터법
- 프랑스 대혁명의 산물
- 영주들이 도량형을 가지고 농민을 억압하는 수단
- 프랑스는 당시 800개의 이름으로 25만 개의 도량 단위가 사용 중
- 북극에서 적도까지(파리를 통과하는) 자오선 길이의 1000만 분의 1
- 2명의 천문학자 파견 7년간 측정, 공포
- 미국(파리 기준, 지금은 시민이 반대?)
- 영국 거부(대혁명 전파 우려, 나중에 채택)
- 라이베리아, 미얀마 (영국 식민지 때) 3국만 미터법 사용하지 않음
- 프랑스 대혁명의 산물
- 우리나라
- 평(크기), 돈, 근(무게), 마지기, 섬, 꾸러미, 움큼 등
화성탐사선 폭발
- 1999/9
- 제작사 록히드마틴 야드 파운드 법으로 제작
- NASA 미터법을 간주 발사, 1억 KM에서 궤도 이탈 추락
- 아일랜드 민요
- 개는 뜸부기보다 3배 오래 살고
- 말은 개보다 3배 오래 살고
- 칠면조는 말보다 3배 오래 살고
- 사슴은 칠면조보다 3배 오래 살고
Era of Data
- Smart Device 들로부터 Data 생성
- CCTV
- SMS 메시지, 카톡 등
- SNS, Twitter 등
- 동영상
- 카메라: 제로 셔터랙, 버스트샷(20장) 베스트 포토, 주소록 연동 소셜 태그
- 방수 카메라, 스마트폰, 수중 촬영
- 야간 촬영 ISO 3200, 고해상도 1300만 화소 등
Data Center
- Datacenter
- 인터넷 데이터 센터(IDC)
- 서버 호텔
- 인터넷 서비스 회사들 구축 : KT, DACOM 등
- SI 업체 중심 : SM (System maintenance) 별
- Internet Software Service 업체별
- Google, Yahoo, Amazon, Facebook, Apple etc
- 국내: NHN, Daum, Nexon etc
- 공공기관별
- 정부, 서울시 등
Data Center 중요 요건
- 천재지변 안정적
- 원자력발전소 위치 선정
- 지진, 해일, 침수
- 정치적 안정성도 중요
- 구글의 아시아 DC를 한국에서 대만으로 변경
- 발전소 부근, 에너지원
- 일본 Yahoo의 DC를 부산으로
- 전기료, 인터넷 등 강점
- 일본 Yahoo의 DC를 부산으로
- 건설부지 임대료 등 기타
구글 데이터 센터
- 1곳 4만 대
- 총 100만 대
- 오레곤 센터
- 풍력/태양열 발전소 건설 → 그린 전략
다음, NHN
- 정부통합전산센터
- 대전 1, 광주 2, 공주
- NHN
- 춘천에 15,000평 규모 친환경 DC 건설
- LG CNS 부산 글로벌 클라우드 데이터센터
- 서울시 DC: 양재동 시정개발연구원
Slogan Changes
- The Network is the Computer
- Sun, CEO Scott McNealy
- The Internet is the Server
- The Browser is the Operating System
- Microsoft
- The Data Center is the Computer
- David Patterson, Prof. UC Berkeley, 2012
데이터
- 새로운 자산
- 21세기 원유
- 미래 경쟁력
- 서기 208년 적벽대전
- 조조 10만 해군, 유비와 손권 연합군
- 따뜻한 겨울 하늘에 구름이 끼면 바람이 북풍에서 동남풍으로 바뀐다는 신호다. 오늘 밤 화공을 치른다
- 제갈량은 데이터 마이닝의 대가
빅데이터의 정의
- 맥킨지
- 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
- IDC ( IT 분야 연구기관 )
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 (데이터의) 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
- 3V
- 크기 Volume
- 속도 Velocity
- 다양성 Variety
빅데이터 시대
- 2011년 1.8 Zetta byte, $10^{21}$
- Giga = $10^9$, Tera= $10^{12}$, Peta = $10^{15}$, Exa = $10^{18}$, Zetta = $10^{21}$, Yotta = $10^{24}$
- 하루 1억 개의 트위터 메시지 분석
- 소셜 마이닝
- 마신다 ↔ 술? 커피?
- 유명한 카페 vs 조용한 카페
Exponential Growth
- Exaponential
- Quantity of global digital data, exabytes
- 130(2005) → 1227(2010) → 2720(2012) → 7910(2015)
등장 배경, 저장비용 저렴
- 과거에 버려지던, 버릴 수밖에 없던 데이터들을 누적
- 1980년 1G 100만 불 (10억), 2010년 0.1달러 (100원)
- 1000만 분의 1
- 모든 사건에 대한 디지털 기록이 가능
개인의 일생 기록 가능
- 10G CCD 카메라, 마이크, 100G짜리 SSD 디스크
- 하루 종일 말한 것, 들은 것, 본 것 저장 가능
- 100만 원이면 평생 데이터 기록 가능
처리 기술의 발전
- CPU 멀티코어 시대
- 하루 데이터 10TB를 100MB/s로 읽으면 전송시간만 27시간 소요
- 병렬 분산 처리 기술의 등장
- 구글 MapReduce 기반 오픈 소스 hadoop 보급
- 빅데이터 분석 도구까지 확보
빅데이터 활용 사례
- 10년 전 런던, 혼잡통행료 도시 진입 억제 목적
- 결과
- 차량이 줄고, 자전거가 급격히 늘어남
- 미국, 샌프란시스코, 범죄, 부동산, 교통 등 100가지 공공 정보 공개
- 도심에서 강력범죄 발생
- 강력범죄와 마약범죄 연관
- 높은 지형(부자촌)에서 낮은 지형(빈민가)으로 갈수록 절도, 강도 발생
- 안전한 주거지, 차 도난 지역 등 예방 가능
How to handle BigData
- Hadoop Platform : Open Source
구축과 활용사례
- GM’s OnStar
- 원격 차량 진단 및 응급상황 대응 서비스
- 3 Peta byte/year
- 전기자동차의 경우 배터리 모니터링 중요
- Range anxiety 주행거리 불안 해소
- 전기자동차 운전자는 접속을 원한다.
- 주행 패턴
새로운 패러다임 및 영향
- 정부 정책의 변화
- 사회과학의 연구 변화 예상
- 제한된 설문으로 문제를 분석하여 해결
- 선거, 마케팅 등
- 입증할 수 없는 주관적 주장 → 분석 가능한 객관적 입증으로 변화
- 빅데이터 분석을 통해 입증 가능한 사회 모델을 수립 연구하는 학문으로 재정의
클라우드로 대용량 데이터 처리
- SaaS 기업 Saasu는 클라우드에 정기적 백업
- SaaS 기업의 데이터 손실 사건 발생 보완책
- 60GB 증분 백업(Incremental backup)
- rSync, Syncified를 사용 15분마다 복사
- 완전 백업은 2일마다 수행
- 월 사용료 12달러
- MS Azure Marketpalce, DataMarket
공공기관의 활용
- 버려지던 데이터
- 전수 조사
- 경제적, 기술적, 시간적 문제의 한계 탈피
- 정부 정책 결정
- 정치가의 정치적 성향과 공약
- 증거와 예측을 기반으로 한 정책 결정
- 데이터 기반 정책 결정 Data Driven Decision making
- 데이터 경영이 데이터 정당으로 변신
- 오바마 행정부 빅데이터 정책 수립, 2012
- Data Driven Government
- 2억 불을 R&D에 투자 (2000억)
- 싱가포르 2011년부터 추진
빅브라더 정부 vs 빅데이터 정부
- SNS 분석을 통한 정치 성향 예측 가능
- 대의민주주의에서 직접민주주의가 가능
볼보자동차
- 모든 자동차의 운전정보 무선 수집 데이터화
- 다양한 차량 결함과 운전자 요구 파악
- 50만대로 알 수 있었던 결함을 1000대로 파악 완료
- 2010년 맥킨지 분석
- 의료산업에서 빅데이터 분석 이용 시 3300억 불 절감 가능 (스페인 전체 의료 예산)
- 진단, 처치, 효능 분석, 최적 의료방법 도출 시 1600억 불 절감
- 유럽의 공공 부분 2500억 유로 절감
- 제조업 개발비 50% 감소
- 지능형 교통 및 보험료 산정에 활용
- 영국 아비바 보험, 혼잡시간대, 사고다발지역 운행 빈도에 따라 보험료 차등 적용 pay-as-you-drive 상품
- 교통혼잡 비용 절감 6000억 불
번역 구글과 IBM의 대결
- 수십 년 연구를 구글이 몇 년에 이긴 이유
- 영어-불어 번역 40년 투자
- 2006년 58개 언어 교차 번역 구글 서비스 시작
- 영어-불어, 독일어 등 라틴어 번역은 전문가 수준
- 정확도 90%
- 수백만 권의 장서와 이용자의 검색어 등 빅데이터 기반 통계 번역
- 인간의 언어를 제한적인 데이터와 획일화된 규칙으로는 어려운 문제
- 변화하는 언어의 뜻을 반영하기에는 부적절
생산 현장에서의 빅데이터 활용
- SAS 사례 발표
- 석유시추선 부품의 상태 데이터 생성
- 1년에 36억 불, 1일 1000만 불 원유 생산
- 과거: 장애가 발생했을 때만 원인 분석에 활용
- 장애 발생 시 부품 항공편 조달 7일, 7000만 불 손실
- 과거 데이터 분석, 48시간대 부품 X 고장 확률 80% 선제적 부품 교체로 80% 정지일 감소, 7억 불 비용 감축
- LG 디스플레이, 다량의 센서 데이터 활용 불량률 예측 공정 최적화
산업 지각변동의 진원
- 2012 빅데이터 시대의 원년
- 90% 비정형 데이터
- 4대 천왕
- 구글, 아마존, 페이스북, 애플
- 핵심 서비스 무료 염가로 제공, 빅데이터 축적 중
- IBM, MS, SAS 등 솔루션 개발 및 출시
- HP, 후지쯔, 도시바 진입 준비 중
빅데이터 프로젝트 성공하기
- 6가지 방법
- 툴 또는 데이터, 어디에서 무엇이 빠졌는지 규명하라
- 기업이 보유한 데이터와 기업에게 필요한 데이터를 이해하라
- 기업이 성취하려고 하는 바를 알아야 한다
- 데이터 사이언티스트를 찾아 고용하라
- 속도를 이해하고 기대치를 관리하라
- 엔드유저와 함께 논의하고 점검하라
데이터 사이언티스트
- 컴퓨터 사이언스, 애플리케이션, 데이터 모델링, 통계학, 분석학, 고급수학 + 비즈니스 프로세스 혹은 비즈니스 매니지먼트
- 데이터 전문가: 데이터 분석가, 분석 전문가와 다름, 5% 박사, 연봉 65000-7만 불
- 35%가 박사학위, 연봉 7만 -9만 불
출처
'Computer Science > DataBase' 카테고리의 다른 글
데이터베이스의 저장과 접근: 해싱 (0) | 2022.04.27 |
---|---|
트랜잭션(2) (0) | 2022.04.22 |
트랜잭션(1) (0) | 2022.04.22 |
뷰와 시스템 카탈로그(2) (0) | 2022.04.22 |
뷰와 시스템 카탈로그(1) (0) | 2022.04.20 |