The Concept of Decision Trees

2022. 3. 6. 19:10공부한 내용/머신러닝 이론

1. attribute(속성) 선택 방법

*속성으로 데이터를 분류했을 때 하위 집합의 purity(순수도)가 더 높게 나오는 속성을 선택

-> 평가 지표: Entropy

 

1) Entropy

*이진 분류의 경우

1과 0의 비율이 한 쪽으로 몰려있을수록 엔트로피 값은 낮아짐

-> 순수도 값은 높아짐

 

*특정 속성에 대한 평균적인 엔트로피 값

해당 속성으로 나누었을 때의 하위 집합들의 엔트로피 값을 구한 후, 그 값의 평균을 구함

-> 어떤 속성으로 나누었을 때 위 값이 낮은지를 찾아, 해당 값을 낮게 만드는 속성으로 먼저 데이터를 분류하도록 설정함

 

2) Information Gain

: 특정 속성으로 나누기 전(하나의 집합일 때)의 엔트로피 값과, 특정 속성으로 나누었을 때의 평균적인 엔트로피 값 간의 차이

-> 위 차이가 크면 클수록 해당 속성으로 데이터 분류하는 것이 좋음

-> 여러 속성들 간의 Information Gain 값을 비교해 값이 높은 속성을 선택

'공부한 내용 > 머신러닝 이론' 카테고리의 다른 글

Cross-Entropy loss(크로스-엔트로피 로스)  (0) 2023.06.10
Linear Support Vector Machine  (0) 2022.03.06
Non-Linear SVM  (0) 2022.03.06
딥러닝 독학에 도움되는 사이트  (0) 2022.01.15
Linear SVM  (0) 2022.01.14