양방향 언어 모델(Bidirectional Language Model, 雙方向言語モデル)은 문맥을 이해하기 위해 입력 시퀀스의 앞과 뒤 양쪽 정보를 동시에 고려하여 단어의 의미를 예측하는 방식의 언어 모델이다.
개요
양방향 언어 모델은 문장의 전체 구조를 고려해 더 풍부한 의미 정보를 추출할 수 있다는 장점이 있다. 이는 문맥의 앞뒤 정보를 모두 활용함으로써 자연어 처리 작업에서 더 나은 성능을 보인다. 주요한 활용 분야는 문장 이해, 질의응답, 개체명 인식 등이다.
작동 원리
양방향 언어 모델은 문장을 왼쪽에서 오른쪽으로 읽는 순방향 모델과 오른쪽에서 왼쪽으로 읽는 역방향 모델을 결합하여 단어의 의미를 예측한다. 일반적으로 두 방향의 출력 벡터를 결합하거나 평균 내어 하나의 표현으로 만든다.
대표적인 모델
- BERT (Bidirectional Encoder Representations from Transformers)
- RoBERTa
- ALBERT
- ELECTRA
- ERNIE
장점과 한계
장점
- 문맥의 전후 정보를 동시에 활용하여 이해력이 뛰어나다
- 문장 이해 및 분류 작업에서 높은 성능을 보인다
한계
- 생성 작업에는 부적합하거나 제한이 있다
- 훈련 및 추론 구조가 복잡할 수 있다
응용 분야
- 문장 분류
- 감정 분석
- 질의응답 시스템
- 개체명 인식
- 의미역 결정
자기회귀 언어 모델과의 비교
직관적으로 이해하자면 아래와 같다.
- BERT는 아래처럼 중간에 가려진 단어를 맞히는 식이다.
I love [MASK] learning. → 정답: deep
- GPT는 앞만 보고 다음 단어를 순서대로 생성한다.
Input: I love deep → Predict: learning
같이 보기
참고 문헌
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proceedings of NAACL-HLT.