The Concept of Decision Trees
2022. 3. 6. 19:10ㆍ공부한 내용/머신러닝 이론
1. attribute(속성) 선택 방법
*속성으로 데이터를 분류했을 때 하위 집합의 purity(순수도)가 더 높게 나오는 속성을 선택
-> 평가 지표: Entropy
1) Entropy
*이진 분류의 경우
1과 0의 비율이 한 쪽으로 몰려있을수록 엔트로피 값은 낮아짐
-> 순수도 값은 높아짐
*특정 속성에 대한 평균적인 엔트로피 값
해당 속성으로 나누었을 때의 하위 집합들의 엔트로피 값을 구한 후, 그 값의 평균을 구함
-> 어떤 속성으로 나누었을 때 위 값이 낮은지를 찾아, 해당 값을 낮게 만드는 속성으로 먼저 데이터를 분류하도록 설정함
2) Information Gain
: 특정 속성으로 나누기 전(하나의 집합일 때)의 엔트로피 값과, 특정 속성으로 나누었을 때의 평균적인 엔트로피 값 간의 차이
-> 위 차이가 크면 클수록 해당 속성으로 데이터 분류하는 것이 좋음
-> 여러 속성들 간의 Information Gain 값을 비교해 값이 높은 속성을 선택
'공부한 내용 > 머신러닝 이론' 카테고리의 다른 글
Cross-Entropy loss(크로스-엔트로피 로스) (0) | 2023.06.10 |
---|---|
Linear Support Vector Machine (0) | 2022.03.06 |
Non-Linear SVM (0) | 2022.03.06 |
딥러닝 독학에 도움되는 사이트 (0) | 2022.01.15 |
Linear SVM (0) | 2022.01.14 |