목록전체 글 (31)
Studying data

1. 특이값 분해 (Singular Value Decomposition, SVD) 선형대수에서 특이값 분해(Singular Value Decomposition, SVD)란 행렬 분해(Matrix Factorization), 행렬을 대각화하는 방법 중 하나로, 행렬을 직교행렬(orthogonal matrix)과 대각행렬(diagonal matrix)로 분해하는 방법이다. 즉 행렬을 차원축소하는 도구인데 실제로 주성분 분석(PCA)과 같은 분야에서 흔하게 쓰인다. 이 방법은 고유값 분해(eigen decomposition)의 일반화 된 방식이라고 볼 수 있다. 고유값 분해가 \(m \times m\)의 정방행렬 중에서도 m개의 고유벡터들이 선형독립인 경우에만 가능한 방법이었다면, 특이값 분해는 정방행렬 여부..

고유값과 고유벡터 구하기 주성분 분석(PCA, Principal Component Analysis) Reference 1. https://losskatsu.github.io/linear-algebra/eigen/# 고유값, 고유벡터 2. https://m.blog.naver.com/galaxyenergy/222123501087 고유값, 고유벡터 3. https://www.wolframalpha.com/input?i=eigenstuff&assumption=%7B%22F%22%2C+%22Eigenvalue%22%2C+%22eigvalmatrix%22%7D+-%3E%22%7B%7B3%2C-1%2C-1%7D%2C%7B-12%2C0%2C5%7D%2C%7B4%2C-2%2C-1%7D%7D%22&assumption=%..

추천 시스템은 크게 Content-based Filtering과 Collaborative Filtering으로 나뉜다. Collaborative Filtering은 다시 두가지 방식으로 나뉘는데, 하나는 Memory-based methods (aka Neighborhood-based)이고, 다른 하나는 Model-based methods이다. 더보기 Recommender Systems - Collaborative Filtering(CF) • Memory-based CF (aka Neighborhood-based) • Model-based CF - Content-based Filtering 이번 글에서는 Collaborative filtering 방법 중 Memory-based Collaborative F..

카이제곱 독립성 검정(Chi-Square Test for Independence, Two-Sample) 카이제곱 독립성 검정은 두 가지 범주형 또는 명목형 변수가 관련될 가능성 여부를 확인하는 데 사용하는 통계적 가설 검정 방법이다. 즉, 두 변수가 연관이 있는지, 무관한지를 검증하는 방법이다. (질적 변수 = 범주형 변수 ⊃ 명목형 변수) 먼저 두 변수가 서로 독립적이라(무관하다) 가정하고 검정을 통해 이 가정이 타당한지의 여부를 밝힌다. H0: 두 변수는 서로 무관하다. Ha: 두 변수는 서로 연관이 있다. 카이제곱 독립성 검정의 예 성별(남, 여)과 정당 선호도(공화당, 민주당, 무소속) 간에 통계적으로 연관이 있는지 무작위로 100명의 사람들 조사 학년(1학년, 2학년, 3학년)과 선호하는 영화 ..

카이제곱검정(Chi-Square test) 카이제곱검정은 카이제곱 분포에 기초한 가설 검정 방법의 하나로 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용된다. 자료가 빈도로 주어졌을 때, 특히 명목척도의 자료 분석에 이용된다. 기본 개념은 데이터에서의 관측값을 귀무가설이 참인지 확인할 기댓값과 비교하는 것이다. 실제 분포와 예상 분포가 일치한다면 유의미한 결과가 나타나지 않은 것이고, 카이제곱 분석 결과 유의미한 차이가 있다는 것은 데이터의 실제 분포가 기대 빈도에 의해 예상되는 분포와 다른 경우를 뜻한다. 카이제곱분포(Chi-Square Distributions) 대부분의 통계적 연구를 할 때 지정하게 되는 자유도(Degrees of Freedom)는 k-1을 나타낸다. 즉,..
CREATE - DDL 명령어 중 하나 - Database, Schema, Table 생성 Database / Schema 생성 CREATE {DATABASE | SCHEMA} [IF NOT EXISTS] db_name { CHARACTER SET [=] charset_name | COLLATE [=] collation_name | ENCRYPTION [=] {'Y' | 'N'} } if not exists : DB 생성시 존재 여부에 따라 쿼리를 진행 character set : 문자의 코드 집합 (ex. cp949, euc-kr, utf-8 ... ) 예) mysql> create database lecture; mysql> USE lecture; -- 현재 lecture라는 schema에 있게됨 T..
데이터 타입 설명 ANSI SQL 표준 타입 INTEGER INT 4바이트 정수형 INTEGER, INT SMALLINT NUMERIC(m, d) DECIMAL(m, d) 전체자리수 m, 소수점이하 자리수 d를 가진 숫자형 DECIMAL(p, s) NUMERIC[(p, s)] CHAR(n) 문자형 고정길이, 문자를 저장하고 남은 공간은 공백으로 채움 CHARACTER(n) CHAR(n) VARCHAR(n) 문자형 가변길이 CHARACTER VARYING(n) CHAR VARYING(n) DATE 날짜형, 연도, 월, 날, 시간을 저장