2023년 11월의 이벤트 "Microsoft Ignite 2023"에서 발표된 언어 모델 "Phi-2"가 출시되었는데, 파라미터 수는 27억으로 소규모 모델이지만, 최대 25배의 모델과 동등한 성능을 발휘할 수 있다는 것.
"Phi"는 Microsoft Research 기계학습 기반 팀이 개발하고 있는 Transformer 기반의 소규모 언어 모델 시리즈로, 첫 번째 모델인 "Phi-1"은 13억 파라미터로 기존 소규모 언어 모델 중 파이썬 코딩에서 최첨단 성능을 달성. Phi-1을 기점으로 일반적인 추론과 언어 이해 능력을 향상시킨 모델이 "Phi-1.5"로 파라미터 수가 13억으로 작으면서도 5배 큰 모델과 동등한 성능을 발휘하고 있다.
이번에 출시된 Phi-2는 27억 파라미터 모델로, 파라미터 수가 130억 미만인 기본 언어 모델 중 최첨단 성능을 달성할 수 있었다고 하고, 그 외, 다양한 벤치마크를 계측하면, 최대 사이즈가 25배 큰 모델과 동등 이상의 성능을 발휘. 모델 크기가 작아 훈련이나 추론 등의 비용을 줄일 수 있어, 언어 모델을 연구하기에 적합하다는 것.
작은 모델로 큰 모델에 필적하는 성능을 내기 위해, Microsoft는 트레이닝 데이터와 방법에 초점을 맞췄는데, 트레이닝 데이터로는 과학이나 일상생활, 심리 등 상식, 일반 지식을 가르치기 위한 데이터 세트와, 교육적 가치나 콘텐츠 품질에 따라 신중하게 필터링한 웹 데이터 세트를 사용했다는 것. 또, 최초로 Phi-1.5를 트레이닝해, 그 지식을 Phi-2로 이전한다고 하는 방법을 이용하는 것으로, 트레이닝의 수렴을 가속하면서 벤치마크 스코어를 향상시키는데 성공. 훈련 데이터의 양은 1.4조 토큰으로, 96개의 NVIDIA A100 GPU를 사용해 14일에 걸쳐 훈련을 실시했다고 한다.
아래 그림은 ToxiGen을 기반으로 안전성 점수를 산출한 것으로, 점수가 높을수록 무해한 문장을 생성하기 쉽다는 것을 보여준다. Phi-2는 RLHF나 파인 튜닝에 의한 조정을 실시하지 않은 베이스 모델임에도, 독성 및 바이어스에 관해 기존의 조정된 모델인 Llama2-7b보다 우수한 결과를 냈다.
다른 모델과 비교한 벤치마크 결과는 다음과 같은데, Phi-2는 특히 프로그래밍이나 수학 등 여러 단계가 필요한 추론 작업에서 뛰어난 성능을 발휘하고 있다.
2023년 12월 6일에 등장한 Gemini 중 가장 작은 모델인 Gemini Nano2와의 비교는 아래와 같다 .Phi-2는 Gemini Nano 2와 동등 이상의 성능을 가지고 있음을 확인할 수 있다.
벤치마크대로 단순 물리문제라면 어렵지 않게 풀릴 수 있을 것으로 보이고, 제곱근 계산에 대해서도 거의 정확하게 할 수 있었다는.
또한, Phi-2는 연구 용도로만 라이센스로 제공되고 있기 때문에, 상용 이용은 불가능하다는 점에 주의가 필요하다.