๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Study/AI & ML

๋‚˜์˜ ์ฒซ ๋จธ์‹ ๋Ÿฌ๋‹&๋ฐ์ดํ„ฐ ๋‹ค๋ฃจ๊ธฐ (2)

by sumping 2024. 3. 15.

๐Ÿ‘€1์ฃผ์ฐจ 220110 ~ 220116 ๊ณต๋ถ€๊ธฐ๋ก

 

๐Ÿ“ ๋ณธ ํฌ์ŠคํŒ…์€ <ํ˜ผ์ž ๊ณต๋ถ€ํ•˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹+๋”ฅ๋Ÿฌ๋‹> ์ฑ…์„ ๋ฐ”ํƒ•์œผ๋กœ ์ž‘์„ฑํ•จ์„ ์•Œ๋ฆฝ๋‹ˆ๋‹ค.


โœ…Ch.02-1 ํ›ˆ๋ จ ์„ธํŠธ์™€ ํ…Œ์ŠคํŠธ ์„ธํŠธ

K-NN ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‹ค์Šต (1์›”๊ณผ 7์›”์˜ ํ‰๊ท ๊ธฐ์˜จ๊ณผ ์ผ๊ฐ•์ˆ˜๋Ÿ‰)

 

* Ch.01-3์—์„œ ๋‹ค๋ฃฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‹ค์Šต์€ ํ›ˆ๋ จ๊ณผ ํ…Œ์ŠคํŠธ๋ฅผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋กœ ํ…Œ์ŠคํŠธ ํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์—, ์ •ํ™•๋„๋Š” ๋‹น์—ฐํ•œ ๊ฒฐ๊ณผ์ด๋‹ค.

-> ํ•ด๊ฒฐ๋ฐฉ๋ฒ• : ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ๊ฐ ๋‹ค๋ฅด๊ฒŒ ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค.

 

* ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ : ํ‰๊ฐ€์— ์‚ฌ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ

* ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ : ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ


๐Ÿ’ฆ ๊ธฐ์˜จ๊ณผ ๊ฐ•์ˆ˜๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์ณ ํ•˜๋‚˜์˜ ํŒŒ์ด์ฌ 2์ฐจ์› ๋ฆฌ์ŠคํŠธ๋กœ ์ค€๋น„

 

โœ” fit() ๋ฉ”์„œ๋“œ์™€ score() ๋ฉ”์„œ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์ดํ‚ท๋Ÿฐ ํด๋ž˜์Šค ์ž„ํฌํŠธํ•˜๊ธฐ


โ— ์ƒ˜ํ”Œ๋ง ํŽธํ–ฅ ์ฃผ์˜

sampling bias : ํ›ˆ๋ จ ์„ธํŠธ์™€ ํ…Œ์ŠคํŠธ ์„ธํŠธ์— ์ƒ˜ํ”Œ์ด ๊ณจ๊ณ ๋ฃจ ์„ž์—ฌ ์žˆ์ง€ ์•Š๊ณ , ์ƒ˜ํ”Œ๋ง์ด ํ•œ์ชฝ์œผ๋กœ ์น˜์šฐ์นจ

 

์ •๋‹ต๋ฐ์ดํ„ฐ์ธ 7์›” ๋ฐ์ดํ„ฐ๋ฅผ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋„ฃ๊ณ , 1์›” ๋ฐ์ดํ„ฐ๋ฅผ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋„ฃ๋Š”๋‹ค๋ฉด?

-> ํ›ˆ๋ จ์€ 1์›” ๋ฐ์ดํ„ฐ๋กœ ํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์— 1์›” ๋ฐ์ดํ„ฐ๋ฐ–์— ์ธ์ง€๋ฅผ ๋ชปํ•จ.

๊ทธ ์ƒํƒœ์—์„œ 7์›” ๋ฐ์ดํ„ฐ๋กœ ์‹œํ—˜์„ ์นœ๋‹ค๋ฉด ์ •ํ™•๋„๊ฐ€ 0์ด ๋‚˜์˜ฌ ์ˆ˜ ๋ฐ–์— ์—†์Œ.


๐Ÿ’ฆ ๋„˜ํŒŒ์ด ๋ฐฐ์—ด์„ ์ค€๋น„

numpy : ํŒŒ์ด์ฌ์˜ ๋Œ€ํ‘œ์ ์ธ ๋ฐฐ์—ด(array) ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ. ๊ณ ์ฐจ์›์˜ ๋ฐฐ์—ด์„ ์‰ฝ๊ฒŒ ๋งŒ๋“ค๊ณ  ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ„ํŽธํ•œ ๋„๊ตฌ๋ฅผ ์ œ๊ณต

 

ํŒŒ์ด์ฌ ๋ฆฌ์ŠคํŠธ๋ฅผ ๋„˜ํŒŒ์ด ๋ฐฐ์—ด๋กœ ๋ฐ”๊พธ๊ธฐ → ๋„˜ํŒŒ์ด array() ํ•จ์ˆ˜์— ํŒŒ์ด์ฌ ๋ฆฌ์ŠคํŠธ๋ฅผ ์ „๋‹ฌ

์ž…๋ ฅ๋ฐ์ดํ„ฐ๋ฅผ 2์ฐจ์› ๋ฐฐ์—ด๋กœ

โœ” shape ์†์„ฑ : ๋„˜ํŒŒ์ด ๋ฐฐ์—ด ๊ฐ์ฒด๋Š” ๋ฐฐ์—ด์˜ ํฌ๊ธฐ๋ฅผ ์•Œ๋ ค์ฃผ๋Š” ์†์„ฑ์„ ์ œ๊ณต

์ƒ˜ํ”Œ ์ˆ˜์™€ ํŠน์„ฑ ์ˆ˜๋ฅผ ์ถœ๋ ฅํ•ด์ค€๋‹ค.

์ž…๋ ฅ๋ฐ์ดํ„ฐ ๋ฐฐ์—ด์˜ ํฌ๊ธฐ๋ฅผ ํ•œ๋ˆˆ์—

๐Ÿ’ฆ ๋ฐฐ์—ด์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์ƒ˜ํ”Œ์„ ์„ ํƒํ•ด ํ›ˆ๋ จ ์„ธํŠธ์™€ ํ…Œ์ŠคํŠธ ์„ธํŠธ ๋งŒ๋“ค๊ธฐ

seed() : ๋„˜ํŒŒ์ด์—์„œ ๋‚œ์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ์ •์ˆ˜ ์ดˆ๊นƒ๊ฐ’์„ ์ง€์ •. ์ดˆ๊นƒ๊ฐ’์ด ๊ฐ’์œผ๋ฉด ๋™์ผํ•œ ๋‚œ์ˆ˜๋ฅผ ๋ฝ‘์„ ์ˆ˜ ์žˆ์Œ.
๋žœ๋ค ํ•จ์ˆ˜์˜ ๊ฒฐ๊ณผ๋ฅผ ๋™์ผํ•˜๊ฒŒ ์žฌํ˜„ํ•˜๊ณ  ์‹ถ์„ ๋•Œ ์‚ฌ์šฉ


arange() : ์ผ์ •ํ•œ ๊ฐ„๊ฒฉ์˜ ์ •์ˆ˜ ๋˜๋Š” ์‹ค์ˆ˜ ๋ฐฐ์—ด์„ ๋งŒ๋“ฆ. ๊ธฐ๋ณธ ๊ฐ„๊ฒฉ์€ 1.


shuffle() : ์ฃผ์–ด์ง„ ๋ฐฐ์—ด์„ ๋ฌด์ž‘์œ„๋กœ ์„ž์Œ. ๋‹ค์ฐจ์› ๋ฐฐ์—ด์ผ ๊ฒฝ์šฐ ์ฒซ ๋ฒˆ์งธ ์ถ•(ํ–‰)์— ๋Œ€ํ•ด์„œ๋งŒ ์„ž๋Š”๋‹ค.

 

* random.seed๋Š” ์ด ์‹ค์Šต์„ ํ•˜๋Š” ๋ชจ๋“  ์‚ฌ๋žŒ์ด ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋„๋ก ํ•จ. ๊ต์œก ๋ชฉ์ ์œผ๋กœ ์ฑ…์— ์“ฐ์˜€์Œ. 

๊ฐœ์ธ์ ์œผ๋กœ ์‹ค์Šต์„ ํ•˜๋Š” ๊ฒฝ์šฐ์—๋Š” ๋žœ๋ค ์‹œ๋“œ๋ฅผ ์„ค์ •ํ•˜์ง€ ์•Š์•„๋„ ๋œ๋‹ค. (๋žœ๋ค ์‹œ๋“œ๋ฅผ ์„ค์ •ํ•˜์ง€ ์•Š์„ ๊ฒฝ์šฐ ์‹คํ–‰์„ ํ•  ๋•Œ๋งˆ๋‹ค ๋‹ค๋ฅธ ๊ฒฐ๊ณผ ๋„์ถœ)

 

1. 0๋ถ€ํ„ฐ 62๊นŒ์ง€ ์ƒ˜ํ”Œ์— ์ˆœ์„œ๋Œ€๋กœ ์ธ๋ฑ์Šค๋งŒ๋“ค๊ณ  ๋ถ€์—ฌํ•ด์ค€๋‹ค. (arange() ํ•จ์ˆ˜ ์‚ฌ์šฉ)

2. ์ธ๋ฑ์Šค๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ž๋Š”๋‹ค. (๊ฐ ์ƒ˜ํ”Œ์€ ๊ฐ ๋ฒˆํ˜ธ(์ธ๋ฑ์Šค)๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ธ๋ฑ์Šค ๋ฒˆํ˜ธ์— ๋งž๊ฒŒ ๊ฐ™์ด ๋žœ๋ค)

3. ์„ž์€ ์ธ๋ฑ์Šค์˜ ๋ฆฌ์ŠคํŠธ๋ฅผ ๊ฐ€์ง€๊ณ  ํ›ˆ๋ จ ์„ธํŠธ์™€ ํ…Œ์ŠคํŠธ ์„ธํŠธ ๊ตฌ๋ถ„

(3๋ฒˆ์—์„œ ๋ฐฐ์—ด ์ธ๋ฑ์‹ฑ์„ ์‚ฌ์šฉ. ๋„˜ํŒŒ์ด ๋ฐฐ์—ด์„ ์ธ๋ฑ์Šค๋กœ ์ „๋‹ฌ)


๐Ÿ’ฆ ์‚ฐ์ ๋„๋กœ ํ™•์ธ


๐Ÿ’ฆ K-NN ๋ชจ๋ธ์„ ํ›ˆ๋ จ (with. ํ›ˆ๋ จ ์„ธํŠธ&ํ…Œ์ŠคํŠธ ์„ธํŠธ)

ํ…Œ์ŠคํŠธ ์„ธํŠธ์— ๋Œ€ํ•œ ์˜ˆ์ธก ๊ฒฐ๊ณผ๊ฐ€ ์ •๋‹ต๊ณผ ์ผ์น˜ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์Œ.