머신러닝(Tensorflow) 사용기 5 ( Deep MNIST for Experts)

hardware more

쓰기

머신러닝(Tensorflow) 사용기 5 ( Deep MNIST for Experts)

백만스물하나

2016-08

2016-08-19 15:03:52

조회 23978 추천 6

안녕하세요

머신러닝 사용기 마지막 강좌 입니다.

이번 강좌는 http://hunkim.github.io/ml/ 의 강좌를 보고 진행 하였습니다.

소스코드는 http://pythonkim.tistory.com/notice/25의 자료에 도움을 받았습니다.

지난 번에는 머신러닝을 통해 90% 의 인식률을 보였습니다.

간단한 코드로 학습이 가능하다는 것을 보여준 예제였는데요

학습 모델을 그려보면 아래와 같습니다.

X(이미지 픽셀 정보)를 입력 받아서 이에 해당하는 Weight(W)와 Bias(B)를 학습 하는 것이지요

우리가 학습했던 모델은 이것과 동일하지만 차이가 있다면

X의 개수가 28X28 = 784 였고, Y의 개수가 10 이었던 것 입니다.

우리가 학습시킨 파라메터의 숫자는 W 7840개, B 10개 해서 7850개 입니다.

속을 잘 들여다 보면 결국 선형 회귀 방법의 응용이고 학습 층이 1층에 불과합니다.

오늘은 이 층을 쌓아서 성능이 개선되는 것을 살펴보겠습니다.

사실 층을 쌓게 된 이유와 층을 쌓아서 발생한 문제점, 그리고 해결방법들에 대한 이야기 들이 있지만

오늘은 건너뛰고 단순히 층을 쌓고 학습을 시켜보겠습니다.

오늘 학습시킬 모델의 모습은 아래와 같습니다.

보시는 것처럼 여러 층으로 발전 했습니다.

중간에 RELU는 Activation function 으로 입력을 받아 이를 활성화 할지 여부를 결정하는 함수 입니다.

수학적으로는 아래와 같은 행렬 연산이 됩니다.

층의 개수와 크기는 원하는 대로 생성 할 수가 있습니다.

단 행렬 곱을 해야 하게 때문에 앞의 층의 출력과 뒤의 층의 입력이 같은 개수를 가져야 합니다.

이번 예제에서는 입력이 (784,256) ->(256,256)->(256,10) 인 학습 층으로 해 보겠습니다. (입력,출력)

이를 코드로 구현해 보면 아래와 같습니다.

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)

learning_rate = 0.001

training_epochs = 15

batch_size = 100

display_step = 1

X = tf.placeholder(tf.float32, [None, 784]) # mnist data image of shape 28*28=784

Y = tf.placeholder(tf.float32, [None, 10]) # 0-9 digits recognition => 10 classes

W1 = tf.Variable(tf.random_normal([784, 256]))

W2 = tf.Variable(tf.random_normal([256, 256]))

W3 = tf.Variable(tf.random_normal([256, 10]))

B1 = tf.Variable(tf.random_normal([256]))

B2 = tf.Variable(tf.random_normal([256]))

B3 = tf.Variable(tf.random_normal([ 10]))

L1 = tf.nn.relu(tf.add(tf.matmul(X, W1), B1))

L2 = tf.nn.relu(tf.add(tf.matmul(L1, W2), B2)) # Hidden layer with ReLU activation

hypothesis = tf.add(tf.matmul(L2, W3), B3) # No need to use softmax here

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(hypothesis, Y)) # softmax loss

optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)

init = tf.initialize_all_variables()

with tf.Session() as sess:

sess.run(init)

for epoch in range(training_epochs):

avg_cost = 0.

total_batch = int(mnist.train.num_examples/batch_size)

for i in range(total_batch):

batch_xs, batch_ys = mnist.train.next_batch(batch_size)

_, c = sess.run([optimizer, cost], feed_dict={X: batch_xs, Y: batch_ys})

avg_cost += c / total_batch

if (epoch+1) % display_step == 0:

print("Epoch:", '%04d' % (epoch+1), "cost=", "{:.9f}".format(avg_cost))

print("Optimization Finished!")

correct_prediction = tf.equal(tf.argmax(hypothesis, 1), tf.argmax(Y, 1))

accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

print("Accuracy:", accuracy.eval({X: mnist.test.images, Y: mnist.test.labels}))

결과는 아래와 같습니다.

94.5%의 인식률로 이전보다 3%정도 가량 향상된 결과를 보입니다.

코드를 살펴보겠습니다.

입력으로 들어오는 28X28의 공간과 출력으로 나가는 10개의 공간을 정의 합니다.

X = tf.placeholder(tf.float32, [None, 784]) # mnist data image of shape 28*28=784

Y = tf.placeholder(tf.float32, [None, 10]) # 0-9 digits recognition => 10 classes

학습할 Weight를 선언합니다. Weight의 숫자는 각 층에 들어오는 입력의 숫자 X 출력의 숫자가 됩니다.

W1 = tf.Variable(tf.random_normal([784, 256]))

W2 = tf.Variable(tf.random_normal([256, 256]))

W3 = tf.Variable(tf.random_normal([256, 10]))

학습할 Bias를 선언합니다. Weight의 숫자는 각 층에서 나가는 출력의 숫자입니다.

B1 = tf.Variable(tf.random_normal([256]))

B2 = tf.Variable(tf.random_normal([256]))

B3 = tf.Variable(tf.random_normal([ 10]))

각 층간의 관계를 정의 합니다.

L1 = X*W1+B1, L2= L1*W2+B2, hypothesis = L2*W3 +B3 으로 정의 됩니다.

L1 = tf.nn.relu(tf.add(tf.matmul(X, W1), B1))

L2 = tf.nn.relu(tf.add(tf.matmul(L1, W2), B2)) # Hidden layer with ReLU activation

hypothesis = tf.add(tf.matmul(L2, W3), B3) # No need to use softmax here

학습은 코스트 값을 정의하고 이 코스트 값이 줄어드는 쪽으로 W,B를 변경시켜 나가는 과정입니다.

이전에는 Gradient Descendent 알고리즘을 사용했었는데 이번에는 AdamOptimizer를 사용했습니다. 방법은 다르지만 하는 일은 동일합니다. 코스트가 감소하는 방향으로 W,B를 조정해 주는 것 입니다.

셋팅을 마치고 모든 변수값을 초기화 합니다.

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(hypothesis, Y)) # softmax loss

optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)

init = tf.initialize_all_variables()

데이터의 크기가 크므로 데이터를 나누어 진행합니다.

데이터를 100개로 나누어서 1%의 데이터를 가지고 학습을 시키는 것을 15번(training_epochs) 진행합니다. 위에서 설정한 AdamOptimizer가 반복적으로 실행되면서 학습이 진행됩니다.

with tf.Session() as sess:

sess.run(init)

for epoch in range(training_epochs):

avg_cost = 0.

total_batch = int(mnist.train.num_examples/batch_size)

for i in range(total_batch):

batch_xs, batch_ys = mnist.train.next_batch(batch_size)

_, c = sess.run([optimizer, cost], feed_dict={X: batch_xs, Y: batch_ys})

avg_cost += c / total_batch

if (epoch+1) % display_step == 0:

print("Epoch:", '%04d' % (epoch+1), "cost=", "{:.9f}".format(avg_cost))

print("Optimization Finished!")

맞은 케이스를 세서 정확도를 계산합니다.

correct_prediction = tf.equal(tf.argmax(hypothesis, 1), tf.argmax(Y, 1))

accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

print("Accuracy:", accuracy.eval({X: mnist.test.images, Y: mnist.test.labels}))

이렇게 학습 층을 쌓아서 정확도를 향상 시킬 수 있습니다.

흔히 우리가 Deep learning이라고 불리는 것이 이 방법입니다.

여기서 초기값 설정과 Drop out 을 설정하면 97% 정도 까지 인식률이 향상되며

Convolution Neural network 를 적용하면 98~99% 의 인식률이 나옵니다.

각 층의 연결에 따라서 여러가지 방법들이 있으며

아직도 계속해서 새로운 방법들이 연구 되고 있습니다.

주마간산처럼 deep Learning을 살펴 보았네요

개인적으로는 시작할 때는 잘 몰랐지만 조금 살펴보고 나니 Machine Learning이 그렇게 어렵지 않다는 것을 알 수 있었습니다.

우리가 이러한 알고리즘을 직접 향상시키는 것은 쉽지 않겠지만 이렇게

잘 만들어져 있는 툴을 가지고 우리 생활에 적용하면 좋은 결과가 있을 것이라 생각합니다.

감사합니다.



elkiselee 2016-08 왜 이런걸 보고있으면 심장이 뛸까요 ㅋㅋ 전공 바꾸라는 말인가요 왜 이런걸 보고있으면 심장이 뛸까요 ㅋㅋ 전공 바꾸라는 말인가요



nshhsn 2016-08 진짜 이거 너무 재미있어요 진짜 이거 너무 재미있어요



하셀호프 2016-08 정말 훌륭하십니다. 점점 어려워지는 것 같습니다. 실질적으로 응용하시는 작업도 잘 진행되는 것으로 생각됩니다. 목표에 접근하시는 것 같습니다. 화이팅입니다. 정말 훌륭하십니다. 점점 어려워지는 것 같습니다. 실질적으로 응용하시는 작업도 잘 진행되는 것으로 생각됩니다. 목표에 접근하시는 것 같습니다. 화이팅입니다.



nshhsn 2016-08 감사합니다 :) 응원해 주셔서 점점 나아지고 있어요 감사합니다 :) 응원해 주셔서 점점 나아지고 있어요



stones 2016-08 감사합니다.. 이해는 다 못하지만.. 관심있고 배우고 싶었는데... 혹 시즌2는 없나요? 요런거 좀더 응용하는...ㅎㅎ 감사합니다.. 이해는 다 못하지만.. 관심있고 배우고 싶었는데... 혹 시즌2는 없나요? 요런거 좀더 응용하는...ㅎㅎ



nshhsn 2016-08 시즌 2는 없을것 같아요 저도 배우고 있는 중이어서요 :) 만들고 싶은게 있으신가요? 시즌 2는 없을것 같아요 저도 배우고 있는 중이어서요 :) 만들고 싶은게 있으신가요?



stones 2016-08 나에게 최적화된... 날씨 예측 시스템은 어떨런지요? 내 행동반경, 움직이는 시간등을 예측해서... 조언을 해주는... 개인 기상청이라고나 할까요..ㅎㅎ 나에게 최적화된... 날씨 예측 시스템은 어떨런지요? 내 행동반경, 움직이는 시간등을 예측해서... 조언을 해주는... 개인 기상청이라고나 할까요..ㅎㅎ



nshhsn 2016-08 그런 응용도 가능하겠군요 개인의 위치 정보를 가지고 있다면 만드어 볼 수 있겠네요 어디서 들은건데 데이터를 충분히 모으면 특정시간의 사람의 위치를 90%정도 예측 가능하다고 하더라구요 그런 응용도 가능하겠군요 개인의 위치 정보를 가지고 있다면 만드어 볼 수 있겠네요 어디서 들은건데 데이터를 충분히 모으면 특정시간의 사람의 위치를 90%정도 예측 가능하다고 하더라구요



stones 2016-09 로또처럼 기존 1등 데이터로 추론 예측도 가능할까요? 입력값이 랜덤이라 안될것도 같은데... 혹 인간의 직관이 간과 할 수 있는 부분을(알파고 처럼..) 학습을 통해 발견할 수도?? ㅎㅎ 로또처럼 기존 1등 데이터로 추론 예측도 가능할까요? 입력값이 랜덤이라 안될것도 같은데... 혹 인간의 직관이 간과 할 수 있는 부분을(알파고 처럼..) 학습을 통해 발견할 수도?? ㅎㅎ



PAMA머리 2016-10 1등 데이터 추론은 힘들 것으로 보입니다. 딥러닝은 패턴을 발견하고 학습하는 기법이기 때문이죠. 만약 로또 1등 예측을 한다면 ... 저도 바로 ... 1등 데이터 추론은 힘들 것으로 보입니다. 딥러닝은 패턴을 발견하고 학습하는 기법이기 때문이죠. 만약 로또 1등 예측을 한다면 ... 저도 바로 ...



이방인 2016-08 재미있게 잘 봤습니다. 재미있게 잘 봤습니다.



nshhsn 2016-09 감사합니다. 감사합니다.



falcon 2016-09 요즘 보안분야에서도 ML기술을 적용한 제품들이 나오고 있어서 기대를 하고 있습니다. 좋은글 잘 읽었습니다. ^^ 요즘 보안분야에서도 ML기술을 적용한 제품들이 나오고 있어서 기대를 하고 있습니다. 좋은글 잘 읽었습니다. ^^



토이박스 2016-10 정말 멋진 강의 잘들었습니다! 정말 멋진 강의 잘들었습니다!

로그인 하시면 댓글을 남길 수 있습니다

쓰기

강좌게시판

쓰기

24/28

번호	제목Page 24/28	글쓴이	날짜	조회	추천
91	Zx20 워크스테이션 NVMe 개조 (39)	스캔l민현기	2019-07	43983	5
Zx20 워크스테이션 NVMe 개조 (39) 2019-07 43983 1 스캔l민현기
90	Zabbix 3 운영	미나리나물	2016-08	28668	6
Zabbix 3 운영 2016-08 28668 1 미나리나물
89	머신러닝(Tensorflow) 사용기 5 ( Deep MNIST for Experts) (14)	백만스물하나	2016-08	23979	6
머신러닝(Tensorflow) 사용기 5 ( Deep MN… (14) 2016-08 23979 1 백만스물하나
88	HP Prodesk 400 G1 Mini CPU 제한 언락 강좌 (18)	스캔l민현기	2022-04	10765	6
HP Prodesk 400 G1 Mini CPU 제한 언락 강좌 (18) 2022-04 10765 1 스캔l민현기
87	Lenovo ThinkCentre M72e Tiny용 해킨토시 설치가이드 (23)	화정큐삼	2021-12	9734	6
Lenovo ThinkCentre M72e Tiny용 해킨토시… (23) 2021-12 9734 1 화정큐삼
86	여성학개론(1)... 여친만들기. (12)	황진우	2013-12	40757	6
여성학개론(1)... 여친만들기. (12) 2013-12 40757 1 황진우
85	[필독] 최근 ffmpeg 다운받으신 분들 있다면 2월 13일 이전 버전으로 다시 받으셔야 … (2)	캔위드	2016-03	13165	6
[필독] 최근 ffmpeg 다운받으신 분들 있다… (2) 2016-03 13165 1 캔위드
84	VT-D 개론: ESXi 5.5에서 GPU 붙여보기 - VT-D 기본 및 준비물 (5)	빠시온	2013-12	112442	6
VT-D 개론: ESXi 5.5에서 GPU 붙여보기 - … (5) 2013-12 112442 1 빠시온
83	프로그램 개발강좌-4부 (2)	황진우	2015-03	38652	6
프로그램 개발강좌-4부 (2) 2015-03 38652 1 황진우
82	ESXi 가상화 서버 구축하기 - 01. ESX 다운로드 및 설치하기 (18)	키네시스	2016-08	23104	6
ESXi 가상화 서버 구축하기 - 01. ESX 다… (18) 2016-08 23104 1 키네시스
81	엔터프라이즈 스토리지는 왜 520B 섹터를 쓰는가? (6)	송주환	2023-05	53738	6
엔터프라이즈 스토리지는 왜 520B 섹터를 … (6) 2023-05 53738 1 송주환
80	suricata를 이용한 IDS/IPS 시스템 구성하기 (2)	stone92김경민	2015-06	26377	6
suricata를 이용한 IDS/IPS 시스템 구성하기 (2) 2015-06 26377 1 stone92김경민
79	WDS를 이용한 리눅스 설치 및 기타 시스템 관리 작업하기 (8)	stone92김경민	2016-10	13210	6
WDS를 이용한 리눅스 설치 및 기타 시스템… (8) 2016-10 13210 1 stone92김경민
78	현재 디렉토리내 및 하위폴더의 모든 파일 해시값 추출저장 (1)	김은호	2015-08	23045	6
현재 디렉토리내 및 하위폴더의 모든 파일… (1) 2015-08 23045 1 김은호
77	Microserver gen8 사용자는 이거 하나면 행복합니다. (8)	witbox	2015-08	32029	6
Microserver gen8 사용자는 이거 하나면 … (8) 2015-08 32029 1 witbox
76	[DELL]iDRAC 7 사용하여 iso 이미지로 부팅 (7)	witbox	2016-11	27626	6
[DELL]iDRAC 7 사용하여 iso 이미지로 부팅 (7) 2016-11 27626 1 witbox
75	삼성 컴퓨터 H61S1 메인보드 전면패널 (7)	총알탄사나이	2020-06	24396	6
삼성 컴퓨터 H61S1 메인보드 전면패널 (7) 2020-06 24396 1 총알탄사나이
74	VMware vSphere Hypervisor 5.1 무료라이센스 키 발급 및 등록 (9)	권희석	2013-07	129677	6
VMware vSphere Hypervisor 5.1 무료라이… (9) 2013-07 129677 1 권희석
73	보안 과 해킹의 기본 이해_웃자고 만들어 봤습니다. 문제시 펑~ (4)	monan	2014-12	16159	6
보안 과 해킹의 기본 이해_웃자고 만들어 … (4) 2014-12 16159 1 monan
72	iSpy 에 RTSP 카메라 추가하기 (6)	민욱님	2016-12	36373	6
iSpy 에 RTSP 카메라 추가하기 (6) 2016-12 36373 1 민욱님