전체 글

공부한 걸 정리하고 공유하며 틀린 부분을 함께 고쳐나가는 블로그입니다.
텐서플로우를 통한 선형회귀 예제입니다. 사실 처음 해볼때 이럴꺼면 사이킷런을 쓰는게..? 라는 생각을 했는데, 좀더 복잡하고 큰 데이터를 다루거나 복잡한 모형을 다룰 때 굉장히 효율적일거라는 생각이 들더군요. 좋은 경험이었습니다. 먼저 데이터를 생성해주고 단순선형회귀 식의 Weight와 bias를 설정해줍니다.# datax_train = [1,2,3]y_train = [1,2,3]# random_normal은 우리가 아직 W, b를 모르기 때문에 rank가 1인 값을 랜덤하게 넣어주는 것.W = tf.Variable(tf.random.normal([1]), name = 'weight')b = tf.Variable(tf.random.normal([1]), name = 'bias') 여기서 Variable는..
Tensorflow 텐서플로우는 Google Brain 팀에서 개발한 오픈 소스 프레임워크입니다. 복잡한 데이터 흐름 그래프(Data Flow Graph)를 기반으로 딥러닝 모델을 구축하고 훈련할 수 있도록 하는 프레임워크로 다양한 기계 학습 작업을 지원하고 여러 분야에서 사용되고 있습니다. 아마 딥러닝을 하지 않더라도 머신러닝에 관심이 있는 분이라면 한번쯤 들어보셨을 것 같습니다. 저도 계속해서 듣기만했지 처음으로 써보려고 합니다. TensorFlow 설치pip install --upgrade tensorflow# 버전 확인import tensorflow as tftf.__version__  개념 1. 텐서(Tensor) : 텐서플로우에서 데이터를 나타내는 기본 단위라고 볼 수 있습니다. 다차원 배열로..
이전 포스팅에서 t-test를 다루었습니다.(링크)t-test의 경우 최대 비교하려는 집단의 수가 2였습니다. 그렇다면 비교 집단이 두 개 이상이라면 어떨까요?? 이때의 집단 간 평균 차이 검정을 어떻게 진행할까요? 아래와 같은 예를 봅시다. 위와 같이 두 개 이상의 집단 간 평균의 차이에 대한 t-test 통계적 추론은 아래와 같습니다. 이렇게 세 개 이상의 집단을 두 집단씩 짝지어 총 3번을 진행할 경우 1. 유의 수준이 매우 엄격해지고, 이에 따라 제 1종 오류의 팽창이 일어납니다. 또한, 2. 반복되는 데이터 사용으로 인해 독립성 가정에 위배될 수 있습니다. 저번 포스팅에서 설명한 것과 같이 제 1종 오류 즉, 실제로 처치의 효과가 없는 데 있다고 결과를 잘못 도출할 가능성이 높아집니다. 아래 식..
오늘은 저번 z 점수에 이어서 가설 검정을 확인하려고 합니다. 가설 검정은 연구에 있어서 필수적인 부분이라고 할 수 있습니다.(최근에는 가설 검정보다 탐색적 연구가 더 많은 것 같기도 합니다.) 추가로 t 검정에 대해서도 간단하게 확인할 예정입니다.  📌 가설 검정 가설 검정이란 표본 자료를 사용하여 모집단에 대한 가설을 확인하는 통계적 방법입니다. 앞서 확인했던 z-score, 확률, 표본 평균의 분포등을 결합하여 사용되는 통계적 절차로 크게 4가지 논리로 진행됩니다. 1. 모집단에 대한 가설을 세움(모수에 대한 가설)ex. 매년 설 연휴에 한국 성인들은  3kg의 몸무게가 증가한다. 2. 가설을 사용하여 표본이 어떤 특성을 나타낼지 예측ex. 모집단에서 평균적인 몸무게 증가가 3kg라고 예상했으니 ..
오늘은 저번 확률에 이어서 표본 평균의 분포를 알아보려고 합니다. 표본도 알고 평균도 알고 표본의 평균도 아는데 통계에 있어서 왜 표본 평균의 분포가 중요한 것일까요?? 우리는 표본을 통해 모집단을 일반화 합니다. 하지만 의문점은 과연 표본이 모집단을 대표할만한 대표성을 가지고 있느냐가 문제겠지요. 이에 따라서 우리는 어떠한 가정이 필요합니다. 이러한 가정들을 알기 위해서 표본 평균의 분포를 알아보는 것입니다.  살펴볼 가정들이 존재하기 때문에 우리가 모은 표본을 통해 연구가 가능한 것입니다. 이러한 가정이 없다면 '표본이 결국은 모집단이랑 다른거 아니에요?'라는 질문에 답변할 수 없게 됩니다. 실제로 많은 연구들에서 재현성의 문제가 있다고 연구 결과도 있는 만큼 표본의 중요성은 여러번 강조됩니다.  ?..
저번 중심경향값과 변산성에 이어 z-score를 살펴보려고 합니다.  📌 z 점수 z 점수는 원점수(: 직접적으로 측정된 원래 점수)를 더 의미있고 더 많은 정보를 포함한 새로운 점수로 변환한 값입니다.중요 포인트는 더 많은 정보를 포함했다는 점입니다. 그렇다면 어떠한 정보를 포함하고 있는가?? z 점수는 원점수에서 평균과 표준편차를 이용하여 표준화화기 때문에, 분포내에 원점수의 위치를 확인할 수 있게 됩니다. 즉, 1. z 점수는 원점수와 다르게 분포내에서 해당 점수가 어디에 위치하는지를 내포하고 있는 것입니다. 또한, 2. 표준화 방법으로 다른 분포들을 서로 직접적으로 비교할 수 있도록 해주기도 합니다. - 공식$$z = \dfrac{X- \mu}{\sigma}$$ - z 점수를 원점수로 변환하는 ..
짦은 기초 통계 2에서 중심 경향값에 대해 살펴보았습니다.중심 경향값과 함께 때놓을 수 없는 것이 바로 분산입니다. 사실 거의 대부분의 통계 모델들이 이 중심 경향값과 변산성으로 이루어져 있습니다. 때문에, 잘 알아 두어야 합니다.  📌 변산성(Variability)  변산성은 분포에서 점수들 간의 차이에 대한 양적 측정값입니다. 아주 극히 쉽게 표현하자면, '데이터들이 퍼져 있는 정도'라고 말할 수 있습니다. 이 변산성은 아래 두 가지 특성이 있습니다.1. 점수들의 분포를 알려줌2. 한 점수가 전체 점수 분포를 얼마나 잘 대표하는지를 알려줌  사실 어떻게 보면 중심 경향값보다 중요한 부분이 이 변산성이 아닐 까 쉽습니다. 왜냐하면 분산이 같고, 평균이 다른 경우보다 분산이 다르고 평균이 같은 경우에 ..
중심 경향값에 대한 내용입니다. 내용 자체는 단순 합니다. 평균은 통계를 하지 않아도 많이들 알고 계시고, 분산과 표준편차 또한 많이들 알고 계실 겁니다. 하지만, 이를 왜 알아야하는 가에 대해 알아보려고 합니다. 📌 중심 경향값(central tendency) : 집단을 대표하는 표현 중심 경향값은 분포의 중심을 정의하는 단일 점수를 결정하는 통계 수단입니다.전체 집단에서 가장 일반적이거나 가장 대표적인 단일 점수를 찾기 위해 사용합니다. 쉽게 말하면 내가 가진 데이터 분포를 하나의 수로 표현하기 위한 방법을 중심 경향값이라고 하는 것입니다.  1. 평균(mean)  우리가 잘 알고있는 평균입니다. 보통은 산술 평균을 사용합니다. 분포의 모든 값들을 더한 후 사례의 수로 나누어 계산합니다. - 모집단..
📌 통계(Statistics) 용어 정리 먼저, 용어를 정리하고 가야합니다. 해당 용어의 의미를 헷갈리실 경우 후의 내용을 이해하는 데 어려움이 있을 수 있습니다. 간단하고 알아야할 용어들만 나열해봅시다. - 모집단(population) : 특정 연구에서 연구 대상이 되는 모든 개인의 집합 (예 : 'A' 기업의 전체 소비자) - 모수(parameter) : 모집단을 설명하는 값, 모집단에 해당하는 개인을 측정해 얻은 값 (예 : 'A'기업의 전체 소비자 만족도 점수) - 표본(sample) : 모집단에서 선택된 개인 집합. 모집단을 대표하기 위한 것 (예 : 'A' 기업의 소비자 남녀 각각 50명) - 통계량(statistic) : 표본을 설명하는 값. 표본에 해당하는 개인을 측정해 얻은 값 (예 :..
딥러닝(Deep Learning)은 인공지능(AI)의 한 분야로, 인간의 뇌가 정보를 처리하는 방법을 모방하여 데이터를 학습하는 기술입니다.(뉴런!). 최근 핫한 컴퓨터 비전, 자연어 처리, 음성 인식 등등 모두 딥러닝이 베이스가 된 기술들입니다.  때문에 인공지능 분야를 공부하는 분들은 딥러닝이 매우 기초가 된다는 것을 알 것이라 생각합니다. 하지만, 머신러닝과 다르게 딥러닝에 대한 지식이 부족한 분들이 많을 것이라 생각합니다. 머신 러닝을 좀 더 깊이 바라본 것이지만 그 안의 내용은 머신러닝을 뛰어넘는 지식을 요구하는 경우가 많습니다. 그럼 딥러닝의 기본 개념과 구성 요소 등을 한 번 알아보겠습니다. 📌 딥러닝 기본 개념딥러닝은 기본 적으로 다층 신경망(Deep Neural Network, DNN)..
Data_novice
데이터 노트 📝