[LG Aimers] 딥러닝 기초 3. 과적합 실습(Python)

LG Aimers 5기 AI 실습 교육 수강 내용을 정리합니다. 모든 자료는 교육 플랫폼 앨리스로부터 제공받았습니다.

[ 과적합(Overfitting) ]

과적합(Overfitting)이란? 모델이 학습 데이터에만 너무 치중되어 학습 데이터에 대한 예측 성능은 좋지만 테스트 데이터에 대해서는 성능이 떨어지는 경우(=일반화되지 않은 모델이라고도 함)
과적합이 발생하는 원인
- 데이터의 퍼진 정도, 즉 분산(variance)이 높은 경우
- 너무 많이 학습 데이터를 학습시킨 경우 (epochs가 매우 큰 경우)
- 학습에 사용된 파라미터가 너무 많은 경우
- 데이터에 비해 모델이 너무 복잡한 경우
- 데이터에 노이즈 & 이상치(outlier)가 너무 많은 경우

[ 과적합 - IMDB 영화 리뷰 데이터셋으로 일반 모델과 과적합 모델의 loss 그래프 확인 ]

  
import numpy as np
import tensorflow as tf
from visual import *

## 데이터를 전처리하는 함수
def sequences_shaping(sequences, dimension):
    
    results = np.zeros((len(sequences), dimension))
    for i, word_indices in enumerate(sequences):
        results[i, word_indices] = 1.0 
        
    return results
    
## 1. 과적합 될 모델과 비교하기 위해 기본 모델을 마크다운 설명과 동일하게 생성
def Basic(word_num):
    
    basic_model = basic_model = tf.keras.Sequential([ tf.keras.layers.Dense(256, activation = 'relu', input_shape=(word_num,)), tf.keras.layers.Dense(128, activation = 'relu'),
tf.keras.layers.Dense(1, activation= 'sigmoid')])  
    return basic_model

## 2. 기본 모델의 레이어 수와 노드 수를 자유롭게 늘려서 과적합 될 모델을 생성
def Overfitting(word_num):
    
    overfit_model = basic_model = tf.keras.Sequential([ tf.keras.layers.Dense(1024, activation = 'relu', input_shape=(word_num,)), tf.keras.layers.Dense(512, activation = 'relu'), tf.keras.layers.Dense(512, activation = 'relu'), tf.keras.layers.Dense(512, activation = 'relu'), 
tf.keras.layers.Dense(1, activation= 'sigmoid')])
    
    return overfit_model

## 3. 두 개의 모델을 불러온 후 학습시키고 테스트 데이터에 대해 평가
def main():
    
    word_num = 100
    data_num = 25000
    
    # imdb 데이터셋 전처리
    (train_data, train_labels), (test_data, test_labels) = tf.keras.datasets.imdb.load_data(num_words = word_num)
    
    train_data = sequences_shaping(train_data, dimension = word_num)
    test_data = sequences_shaping(test_data, dimension = word_num)
    
    basic_model = Basic(word_num)    # 기본 모델입니다.
    overfit_model = Overfitting(word_num)  # 과적합시킬 모델입니다.
    
    basic_model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics = ['accuracy', 'binary_crossentropy'])
    overfit_model.compile(loss = 'binary_crossentropy', optimizer = 'adam', metrics = ['accuracy', 'binary_crossentropy'])
    
    basic_model.summary()
    overfit_model.summary()
    
    basic_history = basic_model.fit(train_data, train_labels, epochs = 20, batchsio
    = 500, validation_data = (test_data, test_labels), verbose = 0)
    print('\n')
    overfit_history = overfit_model.fit(train_data, train_labels, epochs = 300, batchsio
    = 500, validation_data = (test_data, test_labels), verbose = 0)
    
    scores_basic = basic_model.evaluate(test_data, test_labels, verbose = 0)
    scores_overfit = overfit_model.evaluate(test_data, test_labels, verbose = 0)
    
    print('\nscores_basic: ', scores_basic[-1])
    print('scores_overfit: ', scores_overfit[-1])
    
    Visualize([('Basic', basic_history),('Overfitting', overfit_history)])

    return basic_history, overfit_history
        

[ 과적합(Overfitting) 방지 기법 ]

정규화(Regularization)
- 모델이 복잡해질수록 파라미터 수가 많아지면서 weight 합의 절댓값이 커지는 경향이 발생함 -> 이를 이용해서 overfitting을 예측할 수 있음(절댓값이 크면 과적합 된 것)
- 기존 loss 함수에 규제항을 더해서 최적값을 찾을 수 있음
- L1 정규화(Lasso Regularization)
  - 규제항(penalty term): 가중치의 절댓값의 합
  - 규제항을 적용하면 작은 가중치들이 더 작아져서 몇개의 중요한 가중치만 남음
- L2 정규화(Ridge Regularization)
  - 규제항(penalty term): 가중치의 제곱의 합
  - L1 정규화에 비해 0으로 수렴하는 가중치가 적음(큰 값을 가진 가중치를 더욱 제약하는 효과 있음)
드롭아웃(Dropout)
- 각 레이어마다 일정 비율의 뉴런을 임의로 drop시키고 나머지 뉴런만 학습 -> 모델 복잡도가 낮아짐
- 드롭아웃 적용 시, 학습되는 노드와 가중치들이 매번 달라짐
- 다른 정규화 기법들과 상호보완적으로 사용 가능함
배치 정규화(Batch Normalization)
- normalization을 처음 입력 데이터 뿐만 아니라 신경망 내부의 hidden layer의 input에도 적용함
- 각 레이어마다 정규화를 진행하므로 가중치의 초기값에 크게 의존하지 않음
- 드롭아웃이나 L1, L2 정규화 대신 많이 사용함

[ 과적합 - L1, L2 Regularization]

  
    ## 1. L1, L2 정규화를 적용한 모델과 비교하기 위한 기본 모델 생성
    def Basic(word_num):
        
        basic_model = tf.keras.Sequential([tf.keras.layers.Dense(128, input_shape = (word_num,), activation = 'relu'), tf.keras.layers.Dense(128, activation = 'relu'), tf.keras.layers.Dense(1, activation = 'sigmoid')])
        
        return basic_model

    ## 2. 기본 모델에 L1 정규화를 입력층과 히든층에만 적용
    def L1(word_num):
        
        l1_model = tf.keras.Sequential([tf.keras.layers.Dense(128, input_shape = (word_num,), activation = 'relu', kernel_regularizer = tf.keras.regularizers.l1(0.001)), tf.keras.layers.Dense(128, activation = 'relu', kernel_regularizer = tf.keras.regularizers.l1(0.001)), tf.keras.layers.Dense(1, activation = 'sigmoid')])
        
        return l1_model

    ## 3. 기본 모델에 L2 정규화를 입력층과 히든층에만 적용
    def L2(word_num):
        
        l2_model = tf.keras.Sequential([tf.keras.layers.Dense(128, input_shape = (word_num,), activation = 'relu', kernel_regularizer = tf.keras.regularizers.l2(0.001)), tf.keras.layers.Dense(128, activation = 'relu', kernel_regularizer = tf.keras.regularizers.l2(0.001)), tf.keras.layers.Dense(1, activation = 'sigmoid')])
        
        return l2_model

[ 과적합 - Dropout ]

  
    ## 1. 드롭 아웃을 적용할 모델과 비교하기 위한 기본 모델 생성
    def Basic(word_num):
        
        basic_model = tf.keras.Sequential([
            tf.keras.layers.Dense(128, input_shape = (word_num,), activation = 'relu'), 
            tf.keras.layers.Dense(128, activation = 'relu'), 
            tf.keras.layers.Dense(1, activation = 'sigmoid')])
            
        return basic_model
        
    ## 2. 기본 모델에 드롭 아웃 레이어를 추가(일반적으로 마지막 히든층과 출력층 사이에 하나만 추가함)
    ## dropout을 사용하면 좀더 큰 구조의 모델을 사용하더라도 과적합이 덜 발생함 -> dropout 사용할 땐 베이직 모델보다 노드 개수 더 늘려도 됨
    def Dropout(word_num):
        
        dropout_model = tf.keras.Sequential([
            tf.keras.layers.Dense(128, input_shape = (word_num,), activation = 'relu'), 
            tf.keras.layers.Dropout(0.3),
            tf.keras.layers.Dense(128, activation = 'relu'), 
            tf.keras.layers.Dropout(0.3),
            tf.keras.layers.Dense(1, activation = 'sigmoid')])   

        return dropout_model

[ 과적합 - Batch normalization ]

  
    ## 배치 정규화를 적용하기 전 모델 정의
    def generate_basic_model():

        basic_model = tf.keras.Sequential([
                    tf.keras.layers.Flatten(input_shape=(28, 28)),
                    tf.keras.layers.Dense(128),
                    tf.keras.layers.Activation('relu'),
                    tf.keras.layers.Dense(128),
                    tf.keras.layers.Dense(10, activation='softmax')])

        return basic_model

    ## 기본 모델 (base_model) 의 각 Dense Layer 사이에 배치 정규화 레이어를 적용한 모델을 정의
    def generate_batch_norm_model():
        
        bn_model = tf.keras.Sequential([
                    tf.keras.layers.Flatten(input_shape=(28, 28)),
                    tf.keras.layers.Dense(128),
                    tf.keras.layers.BatchNormalization(), ##
                    tf.keras.layers.Activation('relu'),
                    tf.keras.layers.Dense(128),
                    tf.keras.layers.BatchNormalization(), ##
                    tf.keras.layers.Dense(10, activation='softmax')])

        return bn_model

[LG Aimers] 딥러닝 기초 3. 과적합 실습(Python)

[ 과적합(Overfitting) ]

[ 과적합 - IMDB 영화 리뷰 데이터셋으로 일반 모델과 과적합 모델의 loss 그래프 확인 ]

[ 과적합(Overfitting) 방지 기법 ]

[ 과적합 - L1, L2 Regularization]

[ 과적합 - Dropout ]

[ 과적합 - Batch normalization ]

Further Reading

[LG Aimers] 머신러닝 2. 분류 실습(Python)

[LG Aimers] 머신러닝 2. 분류 실습 II(Python)

[TIL] 딥러닝 3. RNN

Trending Tags