본문 바로가기

ADSP

PART 01. 데이터 이해

1장. 데이터의 이해

1절. 데이터와 정보

1. 데이터의 정의와 특성

가. 데이터의 정의

  데이터(data)라는 용어는 1656년 영국 문헌에 처음 등장하였으며 라틴어인 dare(주다)의 과거 분사형으로 '주어진 것'이란 의미로 사용

 

나. 데이터의 특성

구분특성
존재적 특성
개별 데이터 자체로는 의미가 중요 X
당위적 특성
다른 객체와의 상호관계 속에서 가치를 갖음 

2. 데이터의 유형

구분형태특징

(qualitative data)
언어, 문자 등회사 매출이 증가함 등
비정형 데이터 형식 X

(quantitative data)
수치, 도형, 기호 등나이, 몸무게, 추가 등
정형 데이터 형식 O

 

 

 

3. 지식경영의 핵심 이슈

구분의미특징상호작용
암묵지학습과 경험을 통해 개인에게 체화 되있지만 겉으로 드러나지 않는 지식김장김치 담그기, 자전거 타기사회적으로 중요하지만 다른사람에게 공유되기는 어려움공통화(공유), 내면화(개인지식으로 흡수)
형식지문서나 메뉴얼 처럼 형상화 된 지식교과서, 비디오, DB전달과 공유가 용이함표출화(구체화), 연결화('체계화 : 완성도 높임)

· 형식지 : 언어, 기호, 숫자로 표출화(externalization)된 지식 → 개인의 지식으로 연결화(combination)

 

 

4. 데이터와 정보의 관계

가. DIKW정의 및 피리미드

 

 

* 개인정보 비식별 기술

비식별 기술내용예시
데이터 마스킹데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
→ 홍**, 35세, 서울 거주, **대학 재학
가명처리개인정보 추쳋의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의
→ 임꺽정, 30대, 서울 거주, 국내대 재학
총계처리데이터의 총합 값을 보이믕로서 개별 데이터의 값을 보이지 않도록 함. 단, 특정 속성을 지낸 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인의 정보를  공개하는 것은 개인정보를 공개하는 것과 마찬가지의 결과함으로 주의
→ 물리학과 학생 키 합 : 660cm, 평균키 : 165cm
데이터값 삭제데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제. 개인과 관련된 날짜 정보(자격취득일, 합격일 등)은 연단위로 처리


→ 90년대 생, 남자
데이터 범주화데이터의 값을 범주의 값으로 변환하여 값을 숨김홍길동, 35세 → 홍씨,30~40세

2절. 데이터베이스 정의와 특징

1. 용어의 연혁

   * 1950년대 : 미국에서 군비상황을 집중관리하기 위해서 데이터(data)의 기지(base)라는 뜻의 데이터베이스가 탄생

2. 데이터베이스의 정의


'컴퓨터 용어사전'
동시에 복수의 적용 업무를 지정할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합

'Wikipedia'
관련된 레코드의 집합, 소프트웨어로는 데이터베이스관리시스템(DBMS)을 의미

3. 데이터 베이스의 특징

가. 데이터베이스의 일반적인 특징

데이터베이스 특징설명

integrated data
동일한 데이터가 중복되어 있지 않다는 것을 의미.

stored data
컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미.

shared data
여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미.

changable data
새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함.

나. 데이터베이스의 다양한 측면에서의 특징

측면특성
정보의 축적 및 전달 측면

· 원격조 작성 : 정보통신망을 통하여 원거리에서도 즉시 온라인을 이용
정보 이용 측명
· 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다는 특성
정보 관리 측명· 방대한 양의 정보를 체계적으로 축적하고 새로운 내용의 추가나 갱신이 용이
정보기술 발전 측명·  데이터 베이스는 정보처리, 검색 · 관리 소프트웨어, 정보 전송을 위한 네트워크 기술의 발전을 견인할 수 있음.
경제, 산업 측면· 인프라로서의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고 하고 국민의 편의를 증진하는 수단으로서 의미를 가짐

* 데이터베이스의 설계

1단계: 요구 사항 분석

- 수집한 요구 사항을 분석하여 그 결과를 요구 사항 명세서로 작성하는 것

2단계: 개념적 설계

- 사용자의 요구 사항을 분석한 결과를 E-R 다이어그램으로 표현하는 것

3단계; 논리적 설계

- 개념적 설계 단계에서 생성한 E-R 다이어그램을 릴레이션(테이블) 스키마로 변환하여 DBMS가 처리할 수 있도록 하는 것

4단계: 물리적 설계

- 데이터베이스를 실제로 구축할 컴퓨터 시스템의 저장 장치와 운영체제의 특성을 고려하여, 효율적인 성능을 지원하면서도 사용할 DBMS로 구현 가능한 물리적 구조를 설계하는 것

5단계: 구현

- 데이터베이스 구현 단계에서는 이전 설계 단계의 결과물을 기반으로 DBMS에서 SQL로 작성한 명령문을 실행하여 데이터베이스를 실제로 생성

* DBMS

1) DBMS란?

 · DBMS는 Data Base management System의 약자로 데이터베이스를 관리하여 응용프로그램들이 데이터 베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어

 · 데이터베이스를 구축하는 틀을 제공하며, 효율적인 데이터 검색, 저장 기능 등을 제공

2) 데이터베이스 관리시스템 종류

가) 관계형 DBMS

 · 이 모델은 데이터를 컬럼(column)과 로우(row)를 이루는 하나 이상의 테이블(또는 관계)로 정리하며, 고유키(Primary Key)가 각 로우를 식별한다. 로우는 레코드나 튜프로 부르며, 일반적으로 각 테이블/관계는 하나의 엔티티 타입(고객이나 제품과 같은)을 대표한다.

나)객체지향 DBMS

 · 객체지향DB는 일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게 정보를 '객체' 형태로 표한하는 데이터베이스 모델

다) 네트워크 DBMS

 · 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로하 하는 데이터베이스 모델

라) 계층형 DBMS

 · 트리구조를 기반으로 하는 계층 데이터베이스 모델

3절. 데이터베이스의 활용

1. 기업내부 데이터베이스

가. 1980년대 기업 내부 데이터 베이스

· OLTP(On-Line Transaction Processing) ↔ Batch Process :

  - 여러단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 엑세스 하고, 바로 처리 결과를 돌려보내는

    형태.

  - 데이터는 진행중인 프로세스.

  - 여러과정이 하나의 단위프로세스로 실행되도록 하는 프로세스.

  - 비즈니스 작업을 제어 및 실행.

· OLAP(On-Line Analytical Processing) 

  - 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻게 해주는 기술

  - 의사결정자원(DSS), 계획 및 문제해결 도움

  - 데이터는 모든 유형의 비즈니스 활동을 다차원적으로  보여줌

나. 2000년대 기업내부 데이터베이스

· CRM(Customer Relationship Management)

  - '고객관계관리'라고 하며, 기업이 고객과 관련된 내 · 외부 자료를 분석 · 통합해 고객 중심 자원을 극대화하고, 이를 토대로 고객특성에 맞게 마케팅 활동을 계획·지원·평가하는 과정

  - 선별된 고객으로부터 수익을 창출하고 장기적인 고객관계를 가능하게 함으로써 보다 높은 이익을 창출할 수 있는 솔루션

· SCM(Supply Chain Management) 

  - '공급망 관리'를 뜻하는 말로, 기업에서 원재료의 생산 · 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것

  - 유통, 판매 및 고객 데이터가 CRM과 연동되므로 CRM과 SCM은 상호 밀접한 관련

다. 각 분야별 데이터베이스

1) 분야별 데이터 베이스 소개

전사적 규모 DW(수많은 데이터를 모아 주제별로 합친 시스템) > 사업부단위 데이터 마트

분야내용
제조분야


· RTE(Real-Time Enterprise) : 회사 전부분의 정보를 하나로 통합
금융부분

· 블록체인 : 데이터분산처리기술. 네트워크에 참여하는 모든 사용자의 모든 거래 내역들의 데이터를 분산, 저장한는 기술. 블록체인 형태로 묶는 형태. P2P 분산화.
유통부분
· RFID(RF, Radio Frequency) : 주파수를 이용해 ID를 식별하는 시스템으로 일명 전자태그로 불림.

라. 사회기반구조로서의 데이터베이스

1) 개념

   - 1990년대 사회 각 부분의 정보화가 본격화되면서 데이터베이스 구축이 활발하게 추진

2) 종류

  가) EDI(Electronic Data Interchange) : 각종 서류를 표준화된 양식을 통해 전자적 신호로 바꿔 컴퓨터 통신망을 이용하여, 거래처에 전송하는 시스템

  나) VAN(Value Add Network) :  독자적읜 네트워크로 각종 정보를 부호, 영상, 음성 등으로 교환하거나 정보를 축적하거나 또는 복수로해서 전송하는 등 단순한 통신이 아니라 부가가치가 높은 서비스를 하는 것

  다) CALS(Commerce At Light Speed) : 데이터를 통합하고 공유 · 교환할 수 있도록 한 경영통합정보시스템

  라) 종합물류정보망(실시간 차량 추적) : 전사 지도상에 운행중인 차량의 위치 및 상태를 실시간으로 파악하여 서비스 가입자의 합리적인 의사결정을 지원하는 시스템

3) 분야별 사회기반 구조의 데이터 베이스

분야솔루션
물류부분

· KROIS(철도운영정보시스템)
지리/교통부분




· SIM(Spatial Information Management, 공간정보관리)
의료부분
· U헬스(Ubiquitous-Health)
교육부분· NEIS(National Education Information System, 교육행정정보시스템)

* DW(데이터웨어하우스) 4대 특성

 · 데이터 주제지향성

 · 데이터 통합

 · 데이터 시계열성

 · 데이터 비휘발성(장기지속성)

* BI vs BA

구분BI(Business Intelligence)BA(Business Analytics)
목적과거의 성과를 측정하고 향후 비즈니스를 기획데이터와 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석방법
응용데이터 기반의사 결정
BI보다 진화된 형태

2장 데이터의 가치와 미래

1절 빅데이터의 이해

1.빅데이터의 이해

가. 빅데이터의 정의

 1) 관점

   · 데이터 크기 관점 : 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

   · 데이터 분석 관점 : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수립, 분석을 지원하도록 고안된 차세대 기준 및 아키텍쳐

   · 데이터 가치관점 : 대용량의 데이터를 활용해 작은 데이터에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 것

* 가트너 그룹(Gartner Group)의 더그 래니(Doug Laney)의 3V)

 

 

* 데이터 크기를 나타내는 단위

단위크기
1테라비이트(Terabyte)1024기가바이트(Gigabyte)
1페타바이트(Petabyte)1024테라바이트(Terabyte)
1엑사바이트(Exabyte)1024페타바이트(Petabyte)
1제타바이트(Zettabyte)1024엑사바이트(Exabyte)

3. 빅데이터 기능

산업혁명의 석탄, 철제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 · 경제 · 문화 · 생활 전반에 혁명적 변화를 가져올 것으로 기대된다.
21세기의 원유경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망 된다.
렌즈렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다.
플랫폼'공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망된다.

4. 빅데이터가 만들어 내는 본질적인 변화

 

 

2절 빅데이터의 가치와 영향

1. 빅데이터의 가치

가. 빅데이터 가치 산정이 어려운 이유

데이터 활용방식재사용이나 재조합, 다목적용 데이터 개발등이 일반화되면서 특정 데이터를 언제 · 어디서 ·누가활용할지재사용이나 재조합, 다목적용 데이터 개발등이 일반화되면서 특정 데이터를 언제 · 어디서 ·누가 활용할지 알 수 없게 되었다.
새로운 가치창출빅데이터 시대에는 데이터가 '기존에 없었던 가치'를 창출함에 따라 그 가치를 측정하기 어려워 졌다.
분석 기술 발전현재 가치가 없는 데이터일지라도, 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수 도 있다.

2. 빅데이터의 영향(생활이 점점 스마트해짐)

분야영향→ 생활 전반의 스마트화
기업혁신, 경쟁력제고, 생산성 향상
정부환경탐색, 상황분석, 미래대응
개인목적에 따른 활용





⑤ 비즈니스 모델과 제품, 서비스 혁신

3절 비즈니스 모델

1. 빅데이터 활용 사례

가. 기업

 1) 구글은 사용자로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘을 혁신하여 검색서비스를 개선

 2) 월마트는 고객의 구매패턴을 분석해 상품진열에 활용

나. 정부

 1) 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방서비스

다. 개인

 1) 정치인은 선거 승리를 위해 사회관계망 분석

 2) 가수는 팬들의 음악 청취 기록 분석

2. 빅데이터 활용 기본 테크닉

테크닉내용예시
연관규칙학습· 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법· 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
유형분석
· 사건이 속하게 될 범죄를 찾아내는 일
· 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘· 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화(evolve)시켜 나가는 방법· 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습· 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법· 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화중에서 어떤 것을 가장 보고 싶어할까?
회귀분석· 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용· 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
감정분석· 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석· 새로운 환불정책에 대한 고객평가는 어떤가?
소셜네트워크분석(=사회관계망분석)· 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용· 고객들 간 관계망은 어떻게 구성되어 있나?

4절 위기 요인과 통제 방안

1. 빅데이터 시대의 위기 요인

가. 사생활 침해

내용· 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해

나. 책임원칙 회손

내용
· 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성

다. 데이터 오용

내용· 잘못된 지표를 사용하는 것도 빅데이터의 폐해

2. 위기 요인에 따른 통제 방안

가. 동의에서 책임으로

내용· 개인정보를 사용하는 사용자의 책임으로 해결

나. 결과 기반 책임 원칙 고수

내용· 기존의 원칙을 좀 더 보강하고 강화

다. 알고리즘 접근 허용

내용· 알고리즘에 대한 접근권을 제공

5절 미래의 빅데이터

1. 빅데이터 활용의 3요소

가. 기본 3요소

데이터모든 것의 데이터화
기술진화하는 알고리즘, 인공지능
인력데이터 사이언티스트, 알고리즈미스트

3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트

1절 빅데이터 분석과 전략 인사이트

1. 빅데이터 열풍과 회의론

 · 데이터에서 가치(통찰)을 끌어내 성과를 창출하는 것이 관건




 · 싸이월드 핵심 고객들의 지표가 약화되고 있었으나 대처하지 못함

 3. 빅데이터 분석, 'Big'이 핵심 아니다.

 · 분석문화가 경영자체에 뿌리깊게 자리잡아야 함
 · 새롭고 다양한 정보 원천의 활용이 빅데이터임
 · 비용이 문제가 아니라 분석적 방법과 성과에 대한 이해 부족

4. 전략적 통찰이 없는 분석의 함정

 · 우수한 기업들은 전략적으로 일상업무에 분석을 활용
 · 복잡한 최적화는 비즈니스에 마이너스 
 · 다른 회사들이 비슷한 분석역량을 가질 수 있음

 · 쓸모없는 비즈니스 모델을 뒷받침 하는데 활용되면 안됨
 · 최적화를 해서 가격을 낮춰도 단순한 비즈니스 모델로 더 낮은 가격을 제사하면 소용없음

5. 일차원적인 분석 vs 전략도출 위한 가치기반 분석

 · 일차적인 분석을 통해서도 해당 부서나 업무영역에서는 상당한 효과를 얻을 수 있음

2절 전략 인사이트 도출을 위한 필요 역량

1. 데이터 사이언스의 의미와 역할

가. 의미

 · 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보등 다양한 유형의 데이터를 대상으로 분석
 · 기존의 통계학과 다른 점은 총체적 접근 법을 사용
 · 전략적 통찰을 추구하고, 비즈니스 핵심이슈에 답을 하고, 사업의 성과를 견인해 나갈 수 있다.

2. 데이터 사이언스의 구성요소

 

 

나. 데이터 사이언티스트의 역할

· 데이터 사이언티스트가 갖춰 할 역량 중 한가지는 '강력한 호기심'이다. 호기심이란 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력을 의미한다.

3. 데이터 사이언티스트의 요구 역량

 

 

4. 데이터 사이언스 : 과학과 인문의 교차로

· 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력등 인문학 요소가 필요

* 인간을 바로보는 유형별 세가지 관점

 · 타고난 관점 : 인간은 변하지 않는 존재로 상정 

 · 행동적 관점 : 한사람의 행동을 지속적으로 관찰해 그 행동을 보고 사람을 판단하는 것이 더 정확하다는 관점

 · 상황적 관점 : 특정 행동을 거듭하는 사람은 그 행동을 앞으로도 반복할 확률이 높다고 판단

* 데이터 사이언티스트에게 요구되는 인문학적 사고의 특성과 역할

 과거현재미래
Information
리포팅

경고

추측
Insight
모델링

권고

예측, 최적화

3절 빅데이터 그리고 데이터 사이언스의 미래

1. 빅데이터 시대

 · 데이터 양과 종류가 다양

 · 실시간 분석

 · 심층신경망(DNN : Deep Neural Network) 활용

2. 빅데이터 회의론을 넘어 가치 패러다임의 변화

DigitalizationConnectionAgency
과거현재미래
 · 아날로그 세상을 어떻게 효과적으로 디지털화하는지 · 디지털화된 정보와 대상들은 서로 연결 시작
 · 연결을 더 효과적으로 효율적으로 제공하는가가 성공요인
 · 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가의 이슈

3. 데이터 사이언스의 한계와 인문학

 · 훌륭한 데이터 사이언티스는 인문학자들처럼 모델의 능력에 대해 항상 의구심을 가지고, 가정들과 현실의 불일치에 대해 끊임없이 고찰하고, 분석모델이 예측할 수 없는 위험을 살피기 위해 현실세계를 쳐다 보아야 한다.

'ADSP' 카테고리의 다른 글

PART 03 데이터 분석 - 3  (0) 2020.03.14
PART 03 데이터 분석 - 2  (0) 2020.03.06
PART 03 데이터 분석 - 1  (0) 2020.02.24
PART 02. 데이터 분석 기획  (0) 2020.02.23
[ADSP] R Studio설치  (0) 2020.01.21