Search

반응형

딥러닝 신경망 스터디 중 MNIST 데이터셋을 만났다.

그리고 파이썬 피클(python pickle)이 나타났다.

 

 

MNIST 데이터셋

인공지능 머신러닝 분야에서 유명한 데이터셋이라고 한다.

손으로 쓴 숫자에 대한 인식에 필요한 필수 자료라고 한다.

딥러닝 실습은 해당 이미지와 데이터를 다운 받아야 한다.

전부터 유명한 사이트에 가서 다운로드를 시도했다.

그런데 파일이 없다.

gz파일 4개를 다운받아야 하는데 없다.

다행히도 Apache SystemDB 사이트에서 찾았다.

오픈 소스 머신러닝 시스템에 대한 사이트로 해당 파일을 다운로드할 수 있다.

MNIST 데이터셋 gz파일 4개

위 파일에 손으로 쓴 숫자에 대한 인식 테스트를 할 수 있는 데이터가 있다.

혼련 이미지 6만 장과 시험 이미지 1만 장이 포함되어 있다고 한다.

그렇다면 딥러닝 신경망을 위한 4개의 gz 파일은 어떻게 사용할까?

파이썬(Python)에서 직렬화(Serialization)를 지원하는 pickle(피클)이 있다.

4개의 gz 파일들은 피클링(직렬화)으로 하나의 피클(pickle) 파일로 만들면 된다.

1개로 만들어진 직렬화된 pickle 파일을 파이썬(Python)으로 쉽게 사용할 수 있다.

 

pickle 파일?

정의를 살펴보면 파이썬(python)에서만 사용하고 객체 직렬화를 하는 모듈이라고 한다.

피클링을 직렬화라고도 하는데 직렬화(serialization)는 또 무엇인가?

 

직렬화(Serialization)

프로그램을 실행하면 컴퓨터 메모리에 저장되고 사용된다.

컴퓨터 메모리는 전원을 끄면 사라지는 휘발성 공간이다.

메모리에 저장된 데이터, 객체를 별도로 저장하거나 다른 시스템에 보내는 경우가 있다.

컴퓨터 메모리 특성상 영구 저장이나 다른 시스템에 공유가 안된다.

꺼내서 저장하거나 전달해야 한다.

저장하거나 전달할 때 특정 형식이 필요하다. 예를 들어 바이너리, 스트림 형식.

바로 이런 형식으로 변환하는 과정을 직렬화라고 한다. 

다시 사용할 수 있게 만드는 과정은 역 직렬화라고 한다.

요즘 많이 사용하는 JSON도 직렬화의 하나다.

이게 무슨 말인가? 싶기도 하다.

나도 처음 자바(java)에서 직렬화를 보고 이해하는데 시간이 좀 걸렸었다.

이해하기 쉽게 예를 들어보자.

가구 전시장에 있는 전시된 장롱을 할인받아 구매했다. (데이터 구조, 객체)

크기가 너무 커서 일단 분해해서 배송을 한다. (피클링, 직렬화)

집에 도착해서 다시 조립한다. (역 피클링)

이런 느낌?

 

파이썬 전용 직렬화, 피클 (pickle)

파이썬(python)과 넘파이(numpy)에서 사용하는 배열, 튜플 그리고 클래스 객체.

이렇게 데이터 구조와 객체를 별도 파일에 저장할 때 필요하다.

마찬가지로 파이썬 데이터 구조나 객체를 저장하고 전송하고 싶다면 그대로는 안된다.

이동할 수 있는 형태로 변환해 주는 직렬화( Serialization ), 피클이 필요하다.

파이썬 피클(python pickle)은 바이너리 형태로 저장된다.

그래서 파일을 메모장에 열어도 알 수 없는 문자로 가득할 것이다.

mnist.pkl 파일, 바이너리로 변환되어 읽을 수 없다

이렇게 변환된 데이터는 파일로 저장하거나 메모리 또는 데이터베이스(DB)에 전달 가능하다.

저장하거나 보냈다면,

다시 꺼내 사용하거나 네트워크로 받았다면 원래 상태로 변환해서 사용해야 한다.

다시 말해 피클링(직렬화)으로 저장한 데이터를 시스템에서 사용하기 위해 다시 역 피클링한다는 의미다.

MNIST 데이터셋에 피클(직렬화)이 왜 필요하지?

MNIST 데이터셋을 사용하게 위해 성격이 다른 4개의 gz 파일을 받았다.

프로그램에서 사용하기 위해서는 매번 압축도 풀고 4개의 파일을 컨트롤해야 한다.

4개의 파일을 데이터셋 형태로 하나의 피클(pickle)에 저장하면 속도도 빠르다.

또한 파일로 저장해서 언제든 꺼내 사용할 수 있다.

인공지능 머신러닝, 딥러닝의 학습용 실습을 위해서 피클(pickle)은 기본이다.

 

피클링과 역 피클링 예제.

파이썬 피클(Python pickle)로 파일을 만들고 사용하는 방법을 보자.

import pickle


my_data = {'이름':'나쉐프', '나이':40, '소모품':['도마','칼','접시']}

#my_data 피클 파일을 dump로 생성.
with open('my_data.pkl', 'wb') as f:
    pickle.dump(my_data, f, -1)

print('my_data.pkl이 생성되었다')

file_path = './my_data.pkl'

try:
    with open(file_path, 'rb') as rf:
        get_data = pickle.load(rf)
        #my_data 피클 파일을 다시 읽기.
        print('get data : ', get_data)

except FileNotFoundError:
    print(f"오류: '{file_path}' 파일을 찾을 수 없다.")
except Exception as e:
    print(f"오류발생 : {e}")

'''
실행결과
my_data.pkl이 생성되었다
get data :  {'이름': '나쉐프', '나이': 40, '소모품': ['도마', '칼', '접시']}
'''

윈도우 탐색기로 로컬 폴더를 보면 pkl 확장자 파일이 생성됨을 볼 수 있다.

이 파일을 다시 load 하면 저장한 데이터가 그대로 출력된다.

 

pickle 모듈은 안전하지 않다.

이건 뭔 소린가?

파이썬(python) 사이트에서 pickle를 찾아보면 다음과 같은 경고문구를 만나게 된다.

https://docs.python.org/3/library/pickle.html 참조

신뢰할 수 없는 pickle 파일은 함부로 언 피클 하지 말라고 되어 있다.

왜?

 

pickle과 os.system

그래서 궁금했다.

피클이 얼마나 위험한지 다음 소스를 보고 확인해 봤다.

python pickle과 os.system 코드

위 코드를 실행하면 현 위치에 temp 폴더가 생성된다.

"놀랍지 않은가?"

누군가 만든 피클(pickle) 파일을 로드했을 뿐인데 내 컴퓨터에 폴더가 생성됐다.

파일 복사, 생성 등 뭐든 가능하다는 의미다.

즉, 누군가 악의적인 소스를 담은 피클 파일을 머신러닝 테스트 데이터로 가장해서 만들었다 가정하자.

이 파일을 다운로드하고 언 피클링, 로드한 순간 끔찍한 상황이 생길 것이다.

그래서 신뢰할 수 없는 피클 파일은 함부로 로딩하지 말아야겠다.

 

정리.

이제 피클(pickle)에 대해 알았고,

직렬화(serialization)에 대해 이해했고,

피클 주의 사항도 알게 되었다.

다시 딥러닝의 세계로 빠져들자~

 

잘못된 정보가 있으면 댓글 주세요.

반응형
반응형

키워드, 딥러닝, AI, 인공지능. 개발자, 프로그래머

25년을 개발자(프로그래머)로 살아왔다.

비주얼베이직으로 시작했고 델파이와 파워빌더로 다양한 산업군의 프로젝트에 참여했다.

2005년쯤 시대에 맞게 자바(java)로 전향했고 요즘은 자바스크립트에 빠져있다.

지금 시대는 인공지능(AI)을 활용한 프로그램들이 넘쳐나고 있다.

chatGPT는 개발자의 일자리까지 위협한다는 뉴스도 봤다.

일전에 파이썬을 공부하고 포스팅했고 마침 인공지능의 시작이라 할 수 있는 딥러닝을 접하게 되었다.

내 인공지능 이야기는 초등학교에서 시작되었다.

 

초등시절 컴퓨터

나는 초등학교 5학년 친구 집에서 실물 컴퓨터를 처음 봤다.

테이프레코더가 컴퓨터 옆에 있었다.

Chris Whytehead, Chris's Acorns – CC-BY-SA-3.0, CC BY-SA 3.0 <https://creativecommons.org/licenses/by-sa/3.0>, via Wikimedia Commons

위 사진과 비슷한 테이프를 사용하는 저장장치였다.
[출처. Chris Whytehead, Chris's Acorns – CC-BY-SA-3.0, CC BY-SA 3.
0
<https://creativecommons.org/licenses/by-sa/3.0>, via Wikimedia Commons]

지금 같은 인터넷 시대가 아니었기에 가정에서 초딩이 컴퓨터로 할 수 있는 것은 게임밖에 없었다.

엄마를 졸라서 컴퓨터 학원에 등록했다.

컴퓨터로 로봇이라도 만들 기세였다.

학원에 등록해서 BASIC을 배웠다.

강사샘이 알려준 대로 코딩을 했지만 오류도 많았고 독수리 타법으로 시간이 많이 걸렸다.

재미도 없고 지루했다.

for문, if문을 배웠는데 이걸로 뭘 만들 수 있을까? 라는 이해하기 어려운 상황이 되었다.

* 모양이 삼각형으로 나오게 출력하기....그래서 어쩌라고?

*
**
***
****

이걸로 어떻게 로봇을 만들지?

결국 한 달 다니고 그만두었다.

지금 생각해 보면 코딩 학원의 큰 문제점 중 하나가 이론만 가르치고 동기 부여는 없다는 것이다.

쉽게 확인하는 방법은 이론을 배워서 실습을 하고 난 뒤

그래서? 뭐 어쩌라고? 이걸로 뭐 하는 건데?

라는 생각이 드는 경우다.

 

컴맹 대학생 개발자로 첫 발

스타크래프트를 혼자 실행 못했던 컴맹 대학생이 나였다.

우연히 프로그램 사업을 하는 친구를 만났다.

팬티엄2에 64메가 램 그리고 6.4기가 하드디스면 최고 사양이었던 시절이었다.

html을 시작으로 홈페이지 개발자로 첫 발을 내디뎠다.

병아리 수준의 초초초짜 개발자였기에 C로 만든 cgi는 외계어로 보였다.

친구 사무실에 개발자들을 만났다.

VC++, 델파이 등으로 개발을 하는데 정말 멋져 보였다.

사진: Unsplash 의 Sigmund

나도 개발자(프로그래머)가 되겠다고 결심을 굳혔다.

그리고 일반선택으로 전산통계학과의 프로그래밍언어 강의를 신청했다.

수업을 듣는데 배열과 집합을 이용해서 프로그램을 하는 듯 보였다.

프로그래밍 언어는 Lisp이었다.

당시 트렌드도 아니고 내가 공부하는 언어와 너무 달랐다.

도대체 이런 이상한 프로그래밍 언어는 어디에 쓰는 거야?

찾아보니 인공지능에 활용한다고 한다. 헐~

 

인공지능(AI) 프로그래머로 첫 발

25년 동안 시대에 맞는 프로그램 기술을 배우고 현장에서 개발자로 살았다.

영화 속 인공지능인 터미네이터와 스카이넷을 보고 인공지능(AI) 개발자의 꿈은 유지되었다.

기회가 된다면 꼭 도전해보고 싶었다.

현실은 업무 프로그래머였지만...

어느 날 회사에서 도서 지원이 있다고 해서 인터넷 서점을 서칭 하다가 멋진 책을 발견했다.

사진: Unsplash 의 Growtika

딥러닝.

인공지능(AI)을 위한 기술이었다.

머신러닝, 딥러닝, 신경망

낯선 단어들이다.

하지만 인공지능(AI) 개발자라면 필수가 아닐까?

2019년 딥러닝 책을 시리즈로 구매했다.

앞에 몇 페이지를 보는데 파이썬(python)을 활용했다.

그래서 파이썬(python) 책도 구매했다.

우선 파이썬부터 시작했고 포스팅했다.

2020.09.28 - [Software/Python(파이썬)] - [HOW]파이썬(Python) 특징에 대해 알아봅니다. -왕초보 시작

 

[HOW]파이썬(Python) 특징에 대해 알아봅니다. -왕초보 시작

안녕하세요. 신기한 연구소입니다. 정말 오랜 시간 자바(JAVA) 개발자로 지내왔는데 새로운 공부가 하고 싶은 마음에 파이썬(Python)을 선택하게 되었네요. 마침 잠깐 쉬는 기간이라 딱 좋은 시기입

tiboy.tistory.com

 

2021년 이제는 인공지능(AI) 시대가 온 것 같다.

다양한 앱들이 나타나고 점점 확산되는 분위기였다.

파이썬도 익혔기에 책장에 묵혀 둔 딥러닝 책을 꺼냈다.

그리고 공부를 시작했다.

관심 분야라 재미있게 읽었다.

배열, 행렬 그리고 미분이 나온다.

딥러닝을 공부하는데 수학이 필요한 것이다.

다행히 대학 때 미적분을 배웠기에 어렵지 않게 읽었다.

프로젝트와 병행해서 공부를 했다.

그러던 어느 날 협력업체 직원과 대화를 했는데 인공지능(AI)에 대한 이야기가 나왔다.

요즘 딥러닝 공부 중이라 하니 개발자는 굳이 딥러닝 공부할 필요가 없다고 한다.

그 이유는 구글 등에서 나오는 API를 활용하면 되기 때문이란다.

굳이 수학도 나오는 어려운 딥러닝을 공부할 필요 없고 그것을 활용해서 만든 API만 잘 사용하면 된단다.

사진: Unsplash 의 Antoine Dautry

사실 틀린 말은 아니다.

사업하는 입장에서 사업적인 접근만 하면 되기 때문이다.

굳이 연구 개발하는 개발자 기준으로 어렵게 공부할 필요는 없을 수 있다.

 

제대로 다시 딥러닝 시작하기

나는 개발자다.

나는 프로그래머다.

기본부터 충실하게 익히고 이해해야 API도 잘 활용할 수 있다.

지금 내 책상 독서대엔 딥러닝 책이 펼쳐져 있다.

나처럼 인공지능(AI) 프로그래머가 되고 싶고 딥러닝을 시작한 개발자들이 있을 것이다.

머신러닝, 딥러닝, 신경망부터퍼셉트론, 가중치, 편향, 계단 함수, 시그모이드 함수, ReLU 함수 등 처음 보는 용어들이 많다.

공부만이 답이다.

사진: Unsplash 의 Jonathan Kemper

열심히 준비해서 학습을 해야 기회가 와도 잡을 수 있다.

이 포스팅을 시작으로 매일 스터디하고 정리해서 글을 쓸 계획이다.

혹시 딥러닝이나 인공지능 개발자가 되고 싶은데 용어나 수학의 어려움 때문에 고민 중이라면자주 방문하길 바란다.

누구나 이해할 수 있을 정도로 쉽게 풀어서 정리하는 것도 목표 중 하나이기 때문이다.

인공지능(AI) 전문 프로그래머가 되기 위해 이제 첫 발을 강하게 차 올려본다.

 

 

반응형