์ด์ ์ค์ LLM์์ ์ฌ์ฉ๋๋ ๋ค์ธต ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์์๋ด ์๋ค. LLM์์ ์ฌ์ฉํ๋ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ก ๋์ด ์์ต๋๋ค.
์์ฃผ ๋ณต์กํด ๋ณด์ด์ฃ ? ํ์ง๋ง ์์ธํ ๋ฏ์ด๋ณด๋ฉด ์์์ ์ค๋ช ํ Multi-node ์ ๊ฒฝ๋ง์ ์ฌ๋ฌ์ธต์ผ๋ก ๊ฒน์ณ๋์๊ฒ ๋ฟ์ ๋๋ค.
์ด๋ ๊ฒ ์ฌ๋ฌ์ธต์ผ๋ก ๋ง๋ค์ด ๋๊ณ ์ด์ ๊ณ์ธต์ ์ถ๋ ฅ์ด ๋ค์ ๊ณ์ธต์ ์ ๋ ฅ์ผ๋ก ์ฐ์ด๋๋ก ํฉ๋๋ค. ์ฒซ๋ฒ์งธ ๊ณ์ธต์ ์ถ๋ ฅ์ด ๋๋ฒ์งธ ๊ณ์ธต์ ์ ๋ ฅ์ด ๋๊ณ , ๋๋ฒ์งธ ๊ณ์ธต์ ์ถ๋ ฅ์ด ์ธ๋ฒ์งธ ๊ณ์ธต์ ์ ๋ ฅ์ด ๋๋ ์์ด์ฃ .
์ธ๊ณต ์ง๋ฅ์ด ํ์ต ํ๋๊ฒ์ ๊ธฐ๊ณํ์ต(Machine Learning)์ด๋ผ๊ณ ๋ถ๋ฅด๋๋ฐ, ์ด ๊ทธ๋ฆผ์ฒ๋ผ ์ฌ๋ฌ ๊ณ์ธต์ ๊ฑธ์ณ์ ํ์ตํ๋ ๊ฒ์ ํน๋ณํ ๋ฅ๋ฌ๋(Deep Learning)์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
์ด๋ฐ ๋ค์ค ๊ณ์ธต ์ ๊ฒฝ๋ง์ ๋ณดํต ์ ๋ ฅ์ธต(Input Layer), ์๋์ธต(Hidden Layer), ์ถ๋ ฅ์ธต(Output Layer)์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ๋ ฅ์ธต๊ณผ ์ถ๋ ฅ์ธต์ ์ธ๋ถ์์ ์ ์ ์ธ ์ต์ด ์ ๋ ฅ๊ฐ๊ณผ ์ต์ข ์ถ๋ ฅ๊ฐ์ ์๋ฏธํ๊ณ , ์ค๊ฐ์ ์๋ ์๋์ธต์ด ์ค์ ํ์ต๊ณผ ์ฐ์ฐ์ด ์ผ์ด๋๋ ํต์ฌ ๋ถ๋ถ์ ๋๋ค.
๊ฐ๋ ๋ด์ค์ ๋ณด๋ฉด "์ด๋ค ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๊ฐ ๋ช๊ฐ๋ค" ์ด๋ฐ ์๊ธฐ ๋ง์ด ๋ค์ด๋ณด์ จ์ฃ . ์๋ฅผ ๋ค์ด GPT-3๋ ์ด 1750์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ์ด๊ฒ ๋์ฒด ๋ฌด์จ ๋ป์ผ๊น์?
์ฌ๋ฌ๋ถ์ด ์๊ณ ์๋ AI๋ ์ด๋ฐ ๋ค์ธต ์ธ๊ณต์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ก ๋์ด ์์ต๋๋ค. GPT-3 ๊ฐ์ ๊ฒฝ์ฐ๋ ์ด ์๋์ธต์ด 96๊ฐ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ฉด 96๊ฐ์ ๊ฐ ์ธต๋ง๋ค ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋ ์ฐ๊ฒฐ๋ ์ ์ด ์๊ฒ ์ฃ . ์ ๋ณด๊ฐ ๋ค์ด์ค๋ฉด ๊ฐ ์ธต์ ํต๊ณผํ๋ฉด์ ๊ฐ์ค์น ๊ฐ์ด ๊ณฑํด์ง๊ณ ๊ทธ ๊ฒฐ๊ณผ๊ฐ ๋ค์ ์ธต์ผ๋ก ์ ๋ฌ๋ฉ๋๋ค. ์ฌ๊ธฐ์์ ์ด ๊ฐ์ค์น๊ฐ ํ๋ผ๋ฏธํฐ์ ๋๋ค. ์ฆ ์ด ๊ทธ๋ฆผ์ ๊ทธ๋ ค์ง ์ ์ ์ด ๊ฐฏ์๊ฐ ํ๋ผ๋ฏธํฐ ๊ฐฏ์๊ฐ ๋ฉ๋๋ค.
GPT-3๋ 96๊ฐ์ ์๋์ธต์ ๊ฐ์ง๊ณ ์๊ณ ์ด 1750์ต๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋ ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์๋๊ฑฐ์ฃ . (์๊ธ์์ GPT-3๊ฐ 12,288 ์ฐจ์์ด๊ณ ๋ ์ด์ด๋น 1์ต 5์ฒ๋ง๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๋ค๊ณ ํ์ผ๋ 96๊ฐ์ ์๋์ธต์ด๋ฉด 1์ต5์ฒ๋ง*97 = 144์ต๊ฐ ์ ๋ ๋๋๋ฐ ์ค์ ๋ก๋ ๋ค๋ฅธ ์์๊ฐ ์ถ๊ฐ ๋์ด ์ด 1750์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ๋ฉ๋๋ค)
๊ทธ๋ผ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ์ต์ ์ํค๋๊ฒ (=๊ฐ์ค์น๋ฅผ ๋ณํ์ํค๋๊ฒ)์ ์ด๋ป๊ฒ ํ ๊น์?
๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ์๋ฆฌ๋ ์ญ์ ํ(Backpropagation)์ ๋๋ค. ์ด๋ค ์ ๋ ฅ์ ๋ฃ์์ ๋ ์ํ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ค์ง ์์ผ๋ฉด, ๊ทธ ์ค์ฐจ๋ฅผ ๊ณ์ฐํด์ ๊ฑฐ๊พธ๋ก ๊ฑฐ์ฌ๋ฌ ์ฌ๋ผ๊ฐ๋ฉด์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ์์ ๋๋ค. ์ฒจ๋ถ ๊ทธ๋ฆผ์ ์ค๋ฅธ์ชฝ์ ์๋ Gradient Descent(๊ฒฝ์ฌํ๊ฐ๋ฒ)๊ฐ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ค ํ๋์ธ๋ฐ์.. ์ํ์ ์ผ๋ก๋ ๋ฏธ๋ถ์ ํธ๋ฏธ๋ถ๊น์ง ๋์ต๋๋ค. ๋ฒ์จ ๋จธ๋ฆฌ๊ฐ ์ํ์ง์ฃ ? ๋ณต์กํ๋๊น ๋์ด๊ฐ๊ณ ๊ทธ๋ฅ "์ผ๋ง์ฉ ์กฐ์ ํด์ผ ํ๋์ง ์ํ์ ์ผ๋ก ๊ณ์ฐํด์ ๊ฐ์ค์น๋ฅผ ๋ณํ์ํค๊ณ ๋ค์ ํ ์คํธ ํ๊ณ ์ด ๊ณผ์ ์ ์ฌ๋ฌ๋ฒ ๋ฐ๋ณตํด๊ฐ๋ฉด์ ์ํ๋ ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ๋๊น์ง ๋ฐ๋ณตํ๋ค." ๋ผ๊ณ ๋ง ์๊ณ ๊ณ์๋ฉด ๋๊ฒ ์ต๋๋ค.
์ฌ๊ธฐ ๋๋น๋๋ ๋ง๋ก ์์ ํ(Forward Propagation)๊ฐ ์๋๋ฐ, ์ด๊ฒ์ ์์์ ์๋ก๋ "7"์ด๋ผ๋ ์ด๋ฏธ์ง์์ 7์ด๋ผ๋ ์ซ์๋ฅผ ์ธ์ํ๋ฏ์ด ์ ๋ ฅ๊ฐ์ ๋ฃ์ด์ ๊ฒฐ๊ณผ๋ฅผ ๊ณ์ฐํ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค. ์ฆ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ๋ฉด ์์ ํ, ๋ฐ๋๋ก ๊ฐ๋ฉด ์ญ์ ํ์ธ๊ฑฐ์ฃ . ์ฐ๋ฆฌ๊ฐ ๊ฒฐ๊ณผ ๊ฐ์ ์ป์ ๋๋ ์์ ํ, ํ์ต์ ์ํฌ ๋๋ ์ญ์ ํ ์ด๋ ๊ฒ ์ดํดํ์๋ฉด ๋๊ฒ ์ต๋๋ค.