AI/AI 중요뉴스

MS-엔비디아, 초거대 AI ‘MT-NLG’ 공동 개발...규모·정확도 최고 수준

vell_zero 2021. 10. 14. 20:21

MS-엔비디아, 초거대 AI ‘MT-NLG’ 공동 개발...규모·정확도 최고 수준

http://www.aitimes.com/news/articleView.html?idxno=140987 

 

MS-엔비디아, 초거대 AI ‘MT-NLG’ 공동 개발...규모·정확도 최고 수준 - AI타임스

컴퓨팅 기술 강자인 MS와 엔비디아가 손잡고 초거대 인공지능(AI)을 개발했다.두 기업이 개발한 AI 언어 모델의 매개변수(parameter)는 5300억개로 기존 동일 유형 모델(단일 생성 모델) 대비 3배 크기

www.aitimes.com

매개변수 5300억개로 기존 단일 생성 모델 대비 3배 크기
슈퍼컴퓨팅 기술에 분산 학습 SW 스택 활용...거대 모델 훈련 효율화
오픈 소스 더파일과 크롤링으로 2700억개 토큰 데이터셋 구성

(사진=셔터스톡)

컴퓨팅 기술 강자인 MS와 엔비디아가 손잡고 초거대 인공지능(AI)을 개발했다.

두 기업이 개발한 AI 언어 모델의 매개변수(parameter)는 5300억개로 기존 동일 유형 모델(단일 생성 모델) 대비 3배 크기다. 독해는 물론 상식 추론에서도 가장 높은 정확도를 보인다는 주장이다.

대규모 AI 모델 훈련 효율성을 높이는 방법을 제시한 것 또한 주목할 만한 성과다. 각 기업이 보유한 슈퍼컴퓨터 인프라에 분산 학습(distributed learning) 소프트웨어(SW) 스택(stack)을 통합 사용한 것이 비결이다.

MS는 11일(현지시간) 공식블로그에서 엔비디아와 함께 개발한 대규모 AI 언어 모델 'MT-NLG(Megatron-Turing Natural Language Generation model)'를 공개했다.

MS에 따르면 MT-NLG는 현재 같은 유형 모델 중 규모와 정확도 모두에서 최고 수준을 보인다.

MT-NLG는 레프트 투 라이트 트랜스포머(left-to-right transformer)로 매개변수가 5300억개, 레이어 수가 105개다.

해당 모델이 높은 정확도를 보이는 5개 분야는 ▲완료 예측(completion prediction) ▲독해(reading comprehension) ▲상식 추론(commonsense reasoning) ▲자연어 추론(natural language inferences) ▲단어 의미 중의성 해소(word sense disambiguation)다.

활용 가능한 일상 속 AI 서비스로는 요약, 자동 대화 생성, 번역, 의미 검색, 코드 자동완성 등이 있다.
 

◆AI 훈련 효율화 비결은? 최첨단 슈퍼컴퓨팅에 분산 학습 SW 스택 결합

"이번 MT-NLG 성과는 엔비디아 셀린(Selene)과 MS 애저(Azure) NDv4와 같은 슈퍼컴퓨터를 메가트론-LM(Megatron-LM)과 딥스피드(DeepSpeed)라는 획기적인 SW와 함께 사용해 대규모 언어 AI 모델을 훈련했기에 가능한 일입니다."

MT-NLG를 개발한 비결로 MS는 양사의 최첨단 분산 학습 SW 스택을 꼽았다.

MS는 공식블로그에서 "최근 초거대 모델 매개변수 처리는 최고 수준의 GPU 메모리에서도 더이상 불가능한 수준에 이르렀다"고 말했다.

그러면서 "알고리즘, SW, HW 스택 모두에 대한 최적화에 특별한 관심을 기울이지 않으면 (AI 모델) 훈련 시간이 비현실적으로 길어질 수 있다"고 강조했다.

양사는 우선 충분한 컴퓨팅 성능 확보를 위해 엔비디아 셀린과 MS 애저 NDv4라는 최첨단 슈퍼컴퓨팅 클러스터를 사용했다. 이후 이 컴퓨팅 장치들의 잠재력을 최대한 끌어내기 위해 엔비디아의 메가트론-LM과 MS의 딥스피드 SW를 접목했다.

MS는 "컴퓨팅 장치들이 최대 잠재력을 발휘하려면 수천개 GPU에 대한 병렬처리가 필요하다. 기존 병렬화 전략은 메모리와 컴퓨팅 효율성을 달성하는데 상충되는 부분이 있어 초대규모 AI 모델 훈련에 사용할 수 없다"고 설명했다.

이어 "우리는 메가트론-LM과 딥스피드 SW를 함께 사용해 데이터, 파이프라인, 텐서 슬라이싱 기반 병렬 처리를 결합해 효율적이고 확장 가능한 3D 병렬 시스템을 만들었다"고 전했다.
 

◆엘레우테르AI 더파일과 크롤링으로 2700억개 토큰 데이터셋 구성

MT-NLG 훈련 데이터셋은 주로 더파일(The Pile)에서 가져왔다. 더파일은 연구 그룹 엘레우테르AI(EleutherAI)가 오픈 소스로 제공하는 22개 소규모 데이터셋으로 이뤄진 총 835GB 규모 데이터셋이다.

엘레우테르AI는 'GPT의 민주화'를 구호로 2020년 7월 결성된 연구 그룹이다. 이 그룹은 올해 1월 더파일을 무료 공개한 후 3월 GPT-3의 오픈소스 버전 GPT-Neo를 공개한 바 있다.

[관련기사]자연어처리의 민주화인가...GPT-3 독점에 맞선 오픈소스 그룹 새 모델 공개

MS와 엔비디아는 더파일 내 자료 일부와 인터넷상 크롤링 데이터를 결합해 2700억개 토큰(token)으로 구성된 훈련 데이터를 만들었다.

MS는 "우리는 3390억개 토큰으로 구성된 15개 데이터셋을 먼저 만들었다. 이후 훈련 과정에서 데이터셋을 서로 다른 배치로 섞었다. 여기에 사용한 변수 샘플링 가중치는 보다 좋은 퀄리티를 갖춘 데이터셋 위주로 설정했다. 결과적으로 2700억개 토큰을 사용해 모델 훈련을 진행했다"고 전했다.

 

AI타임스 박성은 기자 sage@aitimes.com