google_adsense2


[ADsP 요약정리] 2. 데이터 분석 기획 by 메타샤워






1. 데이터 분석 기획

1) 분석 방향성 도착
- 분석 기획 : 분석과제정의, 관리방안 사전 계획
- 고려 사항 : 데이터에 대한 고려 (확보, 유형), 활용방안, 유즈케이스, 장애요소 대책

2) 분석 방법론
- KDD : 9개의 프로세스와 5단계 절차를 통해 데이터 마이닝 (순차적)
   데이터 셋 선택 -> 데이터 전처리 -> 데이터 변환 ->데이터 마이닝 -> 결과평과
- CRISP-DM : 4계층과 일정치 않은 방향의 6단계 프로세스로 구성된 데이터 마이닝 (비순차적)
   업무이해 -> 데이터이해 -> 데이터 준비 -> 모델링 -> 평가 -> 업무이해 회귀 or 전개
- 빅데이터 : 3계층과 5단계의 절차로 구성
   분석기획 -> 데이터 준비 -> 데이터분석 -> 시스템 구현 -> 평가 및 전개


3) 분석 과제
- 분석 과제정의서 : 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행 주기, 검증 오너십, 상세 분석 과정등 정의

4) 하향식 접근 방식 분석 과제 발굴
- 주어진 문제를 단계적으로 수행하는 방식
- 문제 탐색
비지니스 모델 기반의 5개 영역 : 업무, 제품, 고객, 규제와 감사, 지원인프라
경제적요인 (STEEP) : 사회, 기술, 경제, 환경, 정치
경쟁자 확대 관점 : (직접 경쟁자, 제품, 서비스) + 대체제, 신규 진입자
시장의 니즈 탐색 관점 : 고객, 채널, 영향자
역량의 재해석 관점 : 내부 역량 영역, 파트너 & 네트워크 영역
- 문제 정의 : 비지니스 문제 -> 데이터와 분석 문제로 변환
- 해결방안 탐색 : 분석 역량, 분석 기법 및 시스템 활용해서 해결방안 탐색
- 타당성 검토: 경제적 타당성, 데이터 및 기술 적 타당성

[ADsP 요약정리] 1. 데이터의 이해 by 메타샤워

1. 데이터의 이해


1) 데이터 
- 존재적 틍성 : 객관성 사실
- 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거

2) 특정
- 정성적 데이터 : 언어, 문자, 사람의 감정, (수치화 하거나 측정할 수 없는 데이터 )
- 정량적 데이터 : 수치, 도형, 기호 ( 수치화 하거나 측정할 수 있는 데이터)

3) 지식
- 암묵지 : 학습과 경험을 통함 지식(내면화 -> 공통화 필요) 
- 형식지 : 형식화된 지식( 표준화 -> 연결화)


2. 데이터와 정보



1) 데이터의 활용 단계
- 데이터 : 객관적사실
- 정보 : 연관관계 -> 의미도출
- 지식 : 정보 구조화 분류 개인적 경험 = 내재화
- 지혜 : 지식의 축적 + 아이디어 = 창의적 산물


3. 데이터 베이스


1) 정의 
- EU : 체계적으로 정리되고 전자식으로 개별 접근 가능한 독립된 데이터
- 국내 저작권법 : 소재를 체계적으로 구성한 편집물로 개별적으로 접근가능한 것
- 국내 컴퓨터 용어사전 : 동시에 복수 업무 지원이 가능한 데이터의 집합

2) 특징
- 통합된 데이터 : 중복이 없음
- 저장된 데이터 : 저장매체에 저장
- 공용 데이터 : 공동 이용
- 변화되는 데이터 : 변화하면서도 현재의 정확한 데이터 유지


4. 빅데이터


1) 정의
- Mckinsey : 일반적인 DBMS 이용 규모를 초과하는 데이터
  - IDC : 대규모 데이터로부터 저비용 고가치 추출 가능한 차세대 기술
- Doug Laney : 3V ( Volume, Variety, Velocity, Value)

2) 빅데이터 정의의 범주 및 효과
- 데이터 변화: 규모, 형태, 속도
- 기술변화 : 신데이터처리, 저장, 분석 기술, 클라우드 컴퓨팅 활용
- 인재, 조직 변화 : 데이터 중심 조직으로 변화

3) 빅데이터 활용 기본 테크닉
- 연관 규칙 학습, 유형분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크 분석

4) 위기요인
- 사생활 침해 -> 동의에서 책임으로
- 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수
- 데이터 오용 -> 알고리즘 접근 허용

5) 빅데이터로 인한 변화
- 사전처리 -> 사후 처리   [ 데이터가 모인 이후에 모인 데이터로 처리를 시작한다. ]
- 표본조사 -> 전수 조사   [ 일정 표본으로 데이터를 처리 하는 것이 아니 가능한한 모든 데이터를 활용 ]
- 데이터의 질 -> 데이터의 양 [ 가능한한 많은 데이터를 활용한다 ]
- 인과관계 -> 상관관계 [ 데이터간의 상관관계를 토대로 데이터를 이해 한다.]

6) 빅데이터의 미래
- 모든것의 데이터화, 인공지능, 데이터사이언티스트, 알고리즈미스트



5. 데이터 사이언스


1) 빅데이터 회의론 원인
- 부적정 학습효과 : 과거의 CRM ->공포 마케팅, 투자대비 효과 미흡
- 부정적 성공사례 : 빅데이터가 불필요한 분석 사례, 기존 CRM 분석 성과

2) 실패 사례
- 싸이월드 퇴보 원인 : OLAP 같은 분석 인프라 있으나 활용 못함, 웹 로그와 같은 일차원적 분석에 집중함,
관련 프레임워크 혹은 평가지표 없음 전략적 통찰이 생길수가 없음

3) 전략적 통찰이 없는 분석의 함정
- 일차원적 분석의 반복 : 해당 부서 업무 영역에서 효과적, 환경 | 고객 변화 대처의 어려움
- 가치 기반 분석 단계 : 일차원적 분석 -> 경험 -> 활용 범위 확장 -> 사업 성과

4) 데이터 사이언스 
- 데이터로부터 정보 추출 -> 분석 -> 구현 -> 전달
- 영역 : 분석 분야 ,IT분야, 비지니스 분야
- 다양한 유형의 데이터(정형, 비정형)을 대상으로 분석
- 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 분야별 전문지식 종합

5) 데이터 사이언티스트
- 역할 : 데이터 소스 발견, 대용량 데이터 구조화, 불완전 데이터 연결
- 요구사항 : 창의적 사고, 호기심, 논리적 비판을 통한 통찰력, 전달력, 커뮤니케이션 능력

6) 빅데이터와 데이터 사이언스의 미래
- 외부 환경 측면의 인문학 열풍
세계화 : 단순 세계화 -> 복접한 세계화 ( 컨버전스 -> 디버전스 )
비지니스 중심 : 제품 생산위주 -> 서비스 ( 품질-> 서비스 )
겸제산업 논리 : 샌산 => 시장 창조 ( 공급자 중심기술경쟁 -> 무형 자산의 경쟁)
- 가치 패러다임의 변화 
1단계 디지털화 : 가치 형상화, 표준화 (문서의 디지털화)
2단계 연결 : 정보의 효율적인 연결 및 제공 (인터넷 모바일 기술의 발전)
3단계 에이전시 : 필요정보 효과적 제공 및 관리 (개인, 기기, 사물 하이퍼 연결)
- 데이터 사이언스의 한계 : 분석에서 인간의 개입 (가정 -> 해석)





데이터를 받으면 제일 먼저 해야할 일 by 메타샤워

모든 데이터에 행해야할 분석


1. 데이터 내용, 구조, 타입을 파악해야한다. 
R에서 dplyr::glimpse() 함수가 유용하다. 
데이터 구조를 파악할 수 있는 str(),
데이터의 맨 앞 부분을 보여주는 head(), 데이터의 맨 뒷 부분을 보여주는 tail()

2. 데이터의 요약 통계량을 summary로 파악한다.

3. 결측치가 있는지 summary로 살펴 본다.

4. 무작정 시각화를 해본다.
plot(), piars()를 돌려보면 좋다.
데이터의 관측치가 많을 때는 실행시간이 길으니 dplyr::sample_n() 함수등을 사용해 표본화 해본다.
데이터의 변수가 10개 이상많을 때에는 10열씩 구분하여 살펴보는것도 유용하다

41. 침묵의 나선 이론 by 메타샤워


왜 '유재석 열풍'에 반론을 제기 할 수 없는가?

우리 인간은 사회적 동물이다. 루이는 사회적 존재로 주위 환경에서 고립되는것을 두려워한다. 그래서 사회에서 격리되지 않고 존경과 인기를 잃지 않게 위해서 우리는 끊임없이 자신의 주변을 관찰한다. 또 그래서 어떤 의견과 행동양식이 우세한지를 판단해 그에 따라 의견을 갖고 행동하려는 경향이 있다. 따라서 여론은 '획일화의 압력'의 산물인 셈이다.

이것은 독일의 여론조사기관인 알레스바흐 연구소 설립자이잦 소장이었던 노엘레 - 노이만이 1971년에 가설을 설정하고 1974년에 공식적으로 제시한 '침묵의 나선이론'의 핵심적인 주장이다.

노엘레 - 노이만 은 "가장 나쁜 병은 나병도 결핵도 아니다. 아무도 존경하지 않고 아무도 사랑해주지 않고, 배척받고 있다는 느낌이 가장 나쁜것이다"는 마더테레사의 말을 인용해가면서 '왕따'를 당하지 않고 '주류'에 끼고 싶어하는 우리의 욕망이 얼마나 강한지를 역설한다.

그런 취지라면 노엘레 - 노이만이 미국 심리학자 윌리엄 제임스의 말을 인용했더라면 더 좋았을것같다. 제임스는 [심리학의 원리]에서 한 사회에서 밀려나 모든 구성원에게서 완전히 무시를 당하는 사람은 "울화와 무력한 절망감을 견디지 못해 차라리 잔인한 고문을 당하는 쪽이 낫다는 생각이 들것이다"고 했다.

노엘레 -노이만은 우리 인간에게 오감각기관 이외에 '제 6의 감각기관'이 있다고 주장한다. 그건 사회가 일반적으로 생각하고 느끼는 것에 대해 믿을만한 정보를 제공하는 감각이다. 그것은 사람들이 사회적 분위기의 모든 이동을 감지하는 안테나를 갖고 있다는것과 같다는 것이다. 그의 주장인 즉슨, "환경을 관찰하는데 소모되는 노력은 확실히 누구로부터 배척받거나 혼자 남게 되는 것에 비하면 아무것도 아닌것이다" 노엘레 - 노이만은 다음과 같이 말한다.

"사람들은 소외당하는 것을 영원히 두려워하며 산다. 그리고 어떤 의견이 커지고 어떤 의견이 줄어드는지를 알기위해 환경을 주의깊게 관찰한다. 만약 자기의 생각이 지배적인 의견이라는 것을 알게 되면 공개적으로 자유롭게 자유롭게 의견을 표출하고, 자신의 견해가 지지 기반을 잃고 있다고 판단되면 의견을 감추고 조용해지게 된다. 한 집단은 자신있게 의견을 표출하는 반면 다른 집단은 입을 다물기 때문에 전자는 공적으로 강하게 나타나고 후자는 전자보다 약해지게된다. 이것은 다른 사람에게 스스로를 표현하게 하거나 침묵하게 만들며, 나선형의 과정이 나타나게 된다."

그러니까 노엘레 - 노이만은 사람들이 갖고있는 '고립의 두려움' 때문에 '침묵의 소용돌이'가 발생할 수 있다고 주장하는 것이다. '침묵의 소용돌이'  또는 '침묵의 나선'은 사람들이 소수에 속한다고 생각할 때 그들의 의견을 감추어야 한다고 느끼는 점차적인 압력을 뜻한다고 볼 수 있는 것이다. 즉 "자기의 의견이 확산되고 다른 사람에 의해 받아들여지고 있다고 느끼는 사람들은 공개적으로 자신 있게 그 의견을 말할 것이다. 반면에 자신의 의견이 터전을 잃고 있다고 느끼는 개인들은 더 유보적인 태도를 취하고자 할것이다"

사람들은 소외당하지 않기 위해서라기보다 승자에 속하고 싶은 생각에서 순응할 가능성도 크다. 이는 선거가 끝나고 나면 실제보다 많은 사람이 선거에 이긴 후보를 투표했다고 말하는 것을 보아도 알 수 있다. 이는 사회적 낙인을 피하기 위해 방어전략인 셈이다. 그러나 이 또한 크게보자면 '고립의 두려움'과 전혀 무관한건 아니다.

사람들이 소외당하지 않기 위해서라기 보다 승자에 속하고 싶은 생각에서 순응할 가능성도 있다. 이는 선거가 끝나고 나면 실제보다 많은 사람이 선거에 이긴 후보를 투표했다고 말하는 것을 보아도 알수 있다. 이는 사회적 낙인을 피하기 위한 방어 전략인 셈이다. 그러나 이 또한 크게 보자면 '고립의 두려움'과 전혀 무관한 건 아니다.

역사적으로 시련을 많이 겪은 한국인은 적어도 사회적 분위기를 파악하는 눈치와 그에 따라 쏠림 현상을 보이는 것만큼은 세계최고 수준이라는 점에서 한국의 실정에 다 잘 맞는 이론은 아닐까? 침묵의 나선이론에 어느정도 동의할 수 있다면 우리는 여론이란 것이 허깨비일 수도 있다는 것에 대해 크게 놀라지는 않게 될것이다. 어떤 사회적 이슈에 대한 우리의 견해 표명이란 것이 늘 주변을 살피는 가운데 나오는 것이라면 여론이 어느날 갑자기 크게 달라지는 '티필포인트'가 작동하는것도 얼마든지 가능하지 싶다.

1 2 3 4 5 6 7 8 9 10 다음


google_adsense