본문 바로가기

Study/AI & ML6

회귀 알고리즘과 모델 규제(3) - 특성 공학과 규제 👀2주차 220117 ~ 220123 공부기록 📍 본 포스팅은 책을 바탕으로 작성함을 알립니다. ✅Ch.03-3 특성 공학과 규제 🔥특성공학(feature engineering) 특성 공학(Feature engineering)은 머신러닝의 pre-processing 단계로, 기존의 데이터로부터 새로운 특성을 추출하는 작업을 의미한다. Feature engineering은 더 좋은 방법으로 예측 모델에서 근본적인 문제를 나타내도록 돕는다. 결과적으로 보이지 않는 데이터로부터 모델의 정확성을 향상시킨다. 머신러닝에서 Feature engineering은 주로 4가지의 과정(Feature Creation, Transformation, Feature Extraction, and Feature Selection).. 2024. 3. 15.
회귀 알고리즘과 모델 규제(2) - 선형 회귀 👀2주차 220117 ~ 220123 공부기록 📍 본 포스팅은 책을 바탕으로 작성함을 알립니다. ✅Ch.03-2 선형 회귀 KNN알고리즘의 한계는 이웃의 개수로 예측을 하는 것이다. 위 그래프는, 기존 데이터와는 다른 데이터를 넣었을 때 발생하는 문제점을 보여준다. 초록색 삼각형(❇️)은 길이를 50으로 예측했을 때 알고리즘이 예측한 무게이다. 주황색 마름모(🔶)는 예측값 주변에서 가장 가까운 이웃 3개이다. (이웃의 개수를 3개 설정하였다.) 길이가 길어짐에 비례하여 무게가 늘어나는 것이 아니라 이웃의 샘플로 예측하기 때문에, 길이가 500이여도 무게를 약 1000으로 예측할 것이다. 주변의 샘플을 기준으로 예측하기 때문에, 길이를 100으로 설정하였을 때도 위의 그래프와 다를 게 없는 x축을 보여준다.. 2024. 3. 15.
회귀 알고리즘과 모델 규제(1) - K-최근접 이웃 회귀 👀2주차 220117 ~ 220123 공부기록 📍 본 포스팅은 책을 바탕으로 작성함을 알립니다. ⭐ Ch. 03(03-1) 2번 문제 출력 그래프 knr = KNeighborsRegressor() x = np.arange(5, 45).reshape(-1, 1) for n in [1, 5, 10]: knr.n_neighbors = n knr.fit(train_input, train_target) prediction = knr.predict(x) plt.scatter(train_input, train_target) plt.plot(x, prediction) plt.title('n_neighbors = {}'.format(n)) plt.xlabel('length') plt.ylabel('weight') plt.. 2024. 3. 15.
나의 첫 머신러닝&데이터 다루기 (3) 👀1주차 220110 ~ 220116 공부기록 📍 본 포스팅은 책을 바탕으로 작성함을 알립니다. ✅ Ch.02-2 데이터 전처리 K-NN 알고리즘 실습 (1월과 7월의 평균기온과 일강수량) * 1월과 7월의 일강수량 중에서 측정이 되지 않은 강수량은 0으로 설정함. 그래서 일강수량은 차이가 있긴 하지만 극명한 차이를 볼 수 없음. * K-NN 알고리즘이 평균기온을 14.1은 겨울로 판단하고 14.2를 여름으로 판단함. (강수량은 0으로 함) 보통 10월에 10~15도의 평균기온이 많다. 14도면 봄과 가을의 언저리이기 때문에 겨울과 여름을 이진분류 할 수 없음. * 본인의 능력 부족으로 혼공머신 책처럼 예외의 데이터를 찾을 수 없었음. ex. 예외의 데이터 → 7월의 평균기온 or 일강수량인데 알고리즘이.. 2024. 3. 15.
나의 첫 머신러닝&데이터 다루기 (2) 👀1주차 220110 ~ 220116 공부기록 📍 본 포스팅은 책을 바탕으로 작성함을 알립니다. ✅Ch.02-1 훈련 세트와 테스트 세트 K-NN 알고리즘 실습 (1월과 7월의 평균기온과 일강수량) * Ch.01-3에서 다룬 알고리즘 실습은 훈련과 테스트를 같은 데이터로 테스트 하였기 때문에, 정확도는 당연한 결과이다. -> 해결방법 : 훈련 데이터와 테스트 데이터를 각각 다르게 하여 성능을 평가한다. * 훈련 데이터 : 평가에 사용하는 데이터 * 테스트 데이터 : 훈련에 사용되는 데이터 💦 기온과 강수량의 데이터를 합쳐 하나의 파이썬 2차원 리스트로 준비 ✔ fit() 메서드와 score() 메서드를 사용하기 위해 사이킷런 클래스 임포트하기 ❗ 샘플링 편향 주의 sampling bias : 훈련 세트와.. 2024. 3. 15.
나의 첫 머신러닝&데이터 다루기 (1) 👀1주차 220110 ~ 220116 공부기록 📍 본 포스팅은 책을 바탕으로 작성함을 알립니다. K-NN 알고리즘 실습 (1월과 7월의 평균기온과 일강수량) Ch.01-3. 마켓과 머신러닝에서 다룬 K-최근접 이웃 알고리즘(K-Nearest Neighbors)을 바탕으로 기온과 강수량을 예측하는 K-NN 알고리즘 실습을 진행. * K-NN 알고리즘은 가장 가까운 5개의 데이터를 보고 다수결의 원칙에 따라 데이터를 예측 (클래스의 기본값이 5임) (단점은 데이터가 많은 경우 사용하기 어렵다. 데이터가 많으면 메모리가 많이 필요하고 직선거리를 계산하는 데도 많은 시간이 필요하기 때문이다.) 2021년 서울의 1월(겨울)과 7월(여름)의 평균기온과 일강수량으로 계절을 예측하도록 데이터 입력 (기상 데이터의 출.. 2024. 3. 15.