Linear Regression의 Hypothesis 와 cost

regression

training dara set을 보면 X는 시간을 나타내고 Y는 점수를 나타낸다. 이때 만약 7시간을 공부했다고 가정을 하고 regression모델에서 예측을해 65점 정도가 나왔다고 하자. 이게 바로 Linear Regression이다.

여기서 쉽게 이해하기 위해 X와 Y의 data를 1,2,3씩 주었다. 이때 Hypothesis(가설)가 나오게 된다. 어떤 데이터가 있다면 여기에 잘 맞는 linear이 나오게 된다 어떤 선이 데이터에 잘 맞는 선 일까를 찾는 것이다.

H(x) =Wx + b

여기서 보면 Hypothesis가 여러개 가 있고 어떤 선이 데이터에 가장 잘 맞는 선인지 찾으면 된다.

가장 좋은 Hypothesis는 실제 데이터와 가설의 데이터의 거리를 계산해서 가까우면 좋고 열면 안 좋겠죠?

거리를 계산하는 방법은 거리의 차를 이용한다. 이것을 바로 Cost function이라고 한다.

Hypothesis 데이터 x(i)와 실제 데이터 y(i)의 차를 이용해 제곱한 뒤 데이터의 계수로 나눠준뒤 다 더하면 된다.

제곱하는 이유는 거리가 +,- 두 가지 경우가 있기 때문이다.

이것을 가장 작게 하는 값을 구하 자는 것이 바로 minimize Cost(W, b)이다.

multi-variable linear regression (0)	2019.05.15
Linear Regression 의 cost 최소화의 TensorFlow 구현 (0)	2019.05.14
Linear Regression의 cost 최소화 알고리즘의 원리 (0)	2019.05.13
TensorFlow로 간단한 linear regression을 구현 (0)	2019.05.12
머신러닝이란? (0)	2019.05.10

티스토리툴바