GPT 모델의 발전 과정 그리고 한계
- GPT란 무엇인가?
OPEN AI의 연구에 참여했던 한 소프트웨어 엔지니어는 전통적인 소프트웨어 엔지니어링과 딥 러닝의 차이를 아래와 같은 그림으로 표현했습니다. 지금까지는 사람이 소프트웨어를 개발한 뒤 인풋을 넣으면 그 프로그램에 따라 결과가 도출됐다면 딥러닝에서는 데이터를 트레이닝 시킨 후 그 중간의 인공지능 훈련 단계에 사람이 개입하고 나면 알아서 소프트웨어를 만들어낸다는 것이죠. 이것은 아주 큰 차이라고 이야기하기도 했습니다. 세상이 달라지고 있다는 것이죠.
마이크로소프트가 개발한 중국 AI 로봇 ‘샤오이스’는 시인 519명의 작품 수천 편을 100시간 동안 학습한 결과 만 여 편의 시를 만들었다고 합니다. 시집의 제목은 ‘햇살은 유리창을 잃고(Sunshine Misses Windows)’. 샤오이스는 어느덧 중국에서 6억 명이 넘는 사용자들이 사용하는 서비스가 됐다고 합니다.
가끔 심심할 때 집에서 인공지능 스피커와 대화하던 경험 한 번쯤 누구나 갖고 계실 텐데요. 말을 못 알아들을 때 스피커 놀리는 재미가 쏠쏠한 적이 많습니다. 지금이야 말을 못 알아듣는 경우가 더 많지만 인공지능이 사람처럼 말을 하고 글을 쓸 수 있다면? 어쩌면 정말 우리의 일상생활을 함께 할 수 있는 친구 같은 존재가 될 수 있겠죠.
언어는 인간을 다른 동물과 구별하는 가장 큰 사회적 도구입니다. 그런 인공지능이 말을 배운다고요?
인공지능이 언어 모델(Language Model)을 발전시키는 데는 크게 2가지 방법이 있습니다. 1)사람의 언어를 통계로 이용하는 방법이 있겠고 2)인공 신경망을 이용하는 방법이 있겠죠. 여러분도 많이 들어보셨겠지만 최근에는 ‘인공 신경망’을 이용한 방법이 더 좋은 성능을 보여주고 있습니다. 단순하게는 우리가 입력한 단어의 다음 단어가 무엇일지 예측해주는 아래와 같은 화면의 언어 모델에서 이제 사람처럼 글도 쓰고 말도 하는 수준에 이른 인공지능의 언어 모델은 인간에게는 어떤 의미가 있는 지 이야기해 보는 것은 꼭 필요할 것입니다.
오늘 이야기할 주인공은 바로 이 인공 신경망을 이용한 언어 모델 GPT입니다. AI네트워크가 만든 AI Writer도 GPT 2를 기반으로 만들어졌습니다. 일론 머스크가 만든 비영리 연구재단 Open AI가 만들어 공개한 모델이죠. 이게 공개되고 나서 GPT는 첫 버전에 이어 2번째, 3번째까지 공개된 상황이고 벌써 GPT 4에 대한 이야기도 솔솔 들려오고 있습니다.
2.GPT 발전의 타임라인
GPT라는 언어 모델은 자연어 처리의 기반이 되는 조건부 확률 예측 도구입니다. 사람처럼 문장 자체를 이해하고 써 내려가는 건 아니죠. 여러 텍스트 데이터들을 분석해서 적절한 문장을 만들어내는 것이라 할 수 있는데요. 우리처럼 글을 읽고 다시 쓰고 퇴고하고 치열한 고민을 하는 매커니즘은 아니라는 것이죠. 우리가 키워드를 입력하면 그 키워드와 관련된 모든 자료를 취합해서 사람이 요구하는 텍스트를 만들어 내는 것일 뿐입니다. 글은 그 사람을 드러낸다는 말이 있는데 인공지능에게는 안 통하는 말인 듯 합니다.
그럼에도 인간과 구분할 수 없는 글을 써내려갈 수 있는 비결은 어마어마한 학습량입니다. Open AI가 2018년 첫 출시한 GPT 1은 1억 1700만 개의 매개변수로 학습했습니다. 일 년이 지난 2019년 Open AI는 4번에 걸쳐 GPT 2를 공개했습니다. 모델 크기에 따라 약 1억 2400만 개에서 15억 개로 앞선 버전의 10배 수준으로 파라미터를 늘린 모델이었습니다. 인간과 유사한 수준의 글쓰기로 책 한 페이지의 분량을 단 10초 만에 만들어 낼 수 있는 수준이라고 합니다. 이제 글쓰기까지 인공지능이 대체하는 것이냐 두려움을 줄만 했죠. 여기서 끝이 아니었습니다. GPT 3는 1750억 개의 파라미터를 갖췄는데요. GPT 1의 1000배, GPT 2의 100배 이상 크기로 그 사이 성능도 크게 향상됐습니다. GPT 3가 수행 가능한 작업으로는 각종 언어 관련 문제풀이, 랜덤 글짓기, 간단한 사칙연산, 번역, 주어진 문장에 따른 간단한 웹 코딩이 있다고 합니다.
3. GPT 3의 경쟁자는?
GPT 3의 기반은 트랜스포머(transformers)라 불리는 딥러닝 체계입니다. 트랜스포머에 대한 개념은 2017년 구글 브레인(Google Brain)이 발간한 보고서 ‘필요한 것은 집중(Attention is all you need)’에서 처음 소개됐는데요.트랜스포머는 방대한 크기의 데이터 세트를 학습할 수 있고 효율적으로 비교 가능한 다양한 모델의 밑거름이 됐습니다. 구글 보고서가 발간된 이후 다양한 언어 작업을 처리할 수 있는 슈퍼 모델을 구축하기 위한 경쟁이 시작된 걸 보면 잘 알 수가 있습니다. 구글의 버트(BERT), 마이크로소프트의 튜링NLG와 Open AI의 GPT 3모두 트랜스포머를 기반으로 하는 최신 모델인데요. GPT3가 나오기 전 가장 큰 언어 모델은 2020년 마이크로소프트가 선보인 튜링 NLG였습니다. 170억 개의 매개 변수 언어 모델이죠. GPT3보다 10배나 규모가 작습니다. GPT3가 나오자 마이크로소프트는 경쟁을 포기하고 독점적 사용권을 얻었을 정도로 GPT3는 막강한 글쓰기 실력을 자랑합니다. (물론 일론 머스크는 이걸 비판하기도 했지만요) 구글도 언어모델 BERT를 갖고 있습니다. 검색엔진 답게 단어의 뉘앙스와 문맥을 잘 이해해서 정확한 검색결과를 내는데 도움을 주죠.
4.GPT 3를 공개한 이유는?
그동안 OPEN AI는 설립 목적과 반대로 GPT 3 모델을 오픈 소스로 공개하는 걸 꺼려 왔습니다. 홈페이지를 통해 API를 통해 공개하는 이유에 대해서 이렇게 말했습니다. 기술을 상용화시킨다면 AI 개발을 위한 비용을 절약할 수 있고 막대한 자원을 함께 나누는 개념으로 중소기업과 협업을 원한다고요. API를 통해 공개하면 오남용 사례를 줄일 수 있다고도 봤습니다. 오픈 소스화하면 예방하기 어려운 악의적인 사용 사례를 막을 수 있기 때문이죠.
5.GPT 3의 한계는?
하지만 여전히 한계는 존재합니다. 우선 학습 파라미터 수가 많아질 수 밖에 없습니다. 엄청난 양의 컴퓨팅 파워가 필요한 상황인 것이죠. GPT 3만 해도 무려 1750억 개의 매개 변수를 학습했습니다. 150억 개의 파라미터를 학습했던 GPT 2와 비교하면 거의 100배가 넘는 수준이죠. 과연 진정한 의미의 협업이 가능할 것인지 생각해봐야 할 대목입니다. 많은 파라미터는 엄청난 성능의 증거이기도 하지만 결국 학습하고 활용하는데 그만큼 어려움이 있다는 이야기거든요.
일례로 마이크로소프트가 OPEN AI에게 제공하고 있는 애저 AI 슈퍼 컴퓨터는 28만5천 이상의 CPU 코어를 가지고 1만 GPU가 400Gbps 네트워크로 연결됩니다. 머신러닝이라는 것이 결국 소규모의 개별 AI모델보다 단일 대규모 모델이 더 나은 성과를 내는 게 당연한 결과이다보니 결국 그만큼 ‘모두를 위한 AI’ 개발에서 멀어질 수 밖에 없습니다.
기술적으로 봐도 그렇죠. 사람들은 GPT 3를 두고 인간의 직업을 대체할만한 엄청난 거물이 나타났다고 걱정하고 두려워하지만 사실 GPT 3은 주어진 단어에 대해 통계적으로 가장 어울리는 다음 단어를 생성하는 것 뿐이며 이해하는 것은 아니라는 비판도 있습니다. 생각과 이해는 철학의 영역이죠. 분명한 건 우리 인간은 다음 단어를 예측하는 방법으로 언어를 학습하지 않았다는 점입니다.
6.GPT-4는?
MIT의 렉스 프리드만 교수는 2020년 기준으로 인간 뇌 수준의 인공지능을 훈련시키려면 26억 달러, 원화로 2조 원이 넘는 돈이 들지만 2040년이 되면 8만 달러, 약 8000만원 수준이면 이게 가능해질 거라고 내다봤습니다. 결국 GPT 3에 이어 공개될 GPT 4는 더 적은 비용으로 더 큰 놀라움을 줄 가능성이 큽니다. 그래도 여전히 인공지능의 훈련에 예산과 막대한 자원이 많이 드는 건 필연적입니다.
우리의 AI 네트워크와 함께라면 어떨까요. 생각보다 쉽게 문제가 풀릴 지 모릅니다. 진정한 의미의 OPEN AI를 만들 수 있죠. 전세계를 연결시키는 컴퓨터를 만드는 겁니다. 전세계 개발자와 자원 제공자가 힘을 합한다면 마이크로소프트의 슈퍼 컴퓨터를 능가하는 컴퓨팅 파워를 만들 수 있지 않을까요? 우리 모두가 협업해서 ‘집단 지성’으로 OPEN AI가 걱정하는 나쁜 AI를 물리칠 수도 있을거고요.
여러분의 의견이 궁금해집니다! 여러분의 생각은 어떠신가요? 함께 의견 나눠주세요^^
AI 네트워크는 블록체인 기반 플랫폼으로 인공지능 개발 환경의 혁신을 목표로 하고 있습니다. 수백만 개의 오픈 소스 프로젝트가 라이브로 구현되는 글로벌 백엔드 인프라를 표방합니다.
최신 소식이 궁금하시다면 아래 커뮤니케이션 채널을 참고해주시기 바랍니다. 다시 한 번 감사합니다.
AI네트워크 공식 홈페이지: https://ainetwork.ai/
공식 텔레그램: telegram.com/ainetwork_kr
아이나이즈(Ainize): https://ainize.ai
유튜브: https://www.youtube.com/channel/UCnyBeZ5iEdlKrAcfNbZ-wog