Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense
(LG AI Research and University of Michigan)
문화적 상식에 대한 LLM(거대 언어 모델)의 가능성과 한계 이해
0. 컨퍼런스와 저자 소개
NAACL
= North American Chapter of the Association for Computational Linguistics
= 북미컴퓨터언어학학회
= 컴퓨터언어학협회(ACL = Association for Computational Linguistics)의 주요 지부
자연어 처리(NLP = Natural Language Processing)와 컴퓨터 언어학 위주
-> NLP, 머신러닝, 언어학 이론, 언어 기술 응용 등 인간 언어의 컴퓨터적 측면 연구
Authors
Siqi Shen (University of Michigan)
Lajanugen Logeswaran
Moontae Lee
Honglak Lee
Soujanya Poria (Singapore University of Technology and Design)
Rada Mihalcea (University of Michigan)
Social Impact Award
2024 소셜 임팩트 어워드에 선정된 근거
- LLM의 문화적 편견에 대한 중요한 이슈를 다룸
- AI 시스템의 안정성과 공정성에 큰 영향을 미칠 수 있는 향후 연구 방향성에 대한 연구
- LLM에 내재된 문화적 편견을 다룸
-> 사회적 편견을 줄이고 AI 기술 포용성 촉진을 위한 문화적 지각을 가진 LLM이 필요하다고 주장.
1. 논문 주요 내용
// 원문
Large language models (LLMs) have demonstrated substantial commonsense understanding
through numerous benchmark evaluations.
However, their understanding of cultural commonsense remains largely unexamined.
In this paper, we conduct a comprehensive examination of the capabilities
and limitations of several state-of-the-art LLMs
in the context of cultural commonsense tasks.
Using several general and cultural commonsense benchmarks,
we find that (1) LLMs have a significant discrepancy in performance
when tested on culture-specific commonsense knowledge for different cultures;
(2) LLMs’ general commonsense capability is affected by cultural context; and
(3) The language used to query the LLMs can impact their performance on cultural-related tasks.
Our study points to the inherent bias in the cultural understanding of LLMs
and provides insights that can help develop culturally-aware language models
1-1. introduction
상식은 사람들 사이에 공통적으로 공유되는 일반적이고 기본적인 지식을 의미한다. LLM (=Large Language Model)은 다수의 사람들이 합의한 지식을 파악하는 상식 벤치마킹 측면에서 우수한 성능을 보여준다. 하지만 상식으로 지칭되는 것들은 집단이나 사회에 따라 달라질 수 있는 가변성을 가진다.
그 예시로 우측통행 국가와 좌측통행 국가를 들며 옳은 통행 방향에 대한 답은 답변하는 사람들의 국적이나 문화적 배경에 따라 달라질 수 있음을 설명한다.
여러 가지의 벤치 마크를 통해 LLM이 상식에 대해 우수한 성능을 보이는 경우가 많았지만 문화적인 요소가 LLM이 상식을 이해하는 데 어떤 영향을 주는지에 대한 분석은 부족했음을 확인하고 이를 지적한다.
해당 논문에서는 다음 질문에 대한 답변을 중심으로 논문을 전개한다.
- LLM의 상식 이해 능력이 문화마다 다른 차이를 보이는가
- 문화적 맥락과 상식에 대한 접근 방법의 관계는 무엇인가
- 위 질문의 답변을 찾아가는 과정에 선택한 언어가 영향을 주는가
1-2. evaluation
질문에 대한 답변을 찾기 위해 고려한 파이프 라인은 다음과 같다
- 서로 다른 작업에 대한 질문 프롬프트 디자인하는 것
- 질문 프롬프트를 다양한 언어로 번역하는 것
- 작업에 대한 여러 종류의 LLM 성능을 입증하는 것
질문 프롬프트를 다양한 언어로 번역하는 것에 대해서 이란과 관련된 상식을 영어와 페르시아어 두 가지 모두 모델 프로빙을 진행하는 것을 예시로 설명한다.
논문에서 초점을 두고 분석한 국가와 언어
국가 - 중국, 인도, 이란, 케나, 미국
언어 - 중국어, 힌디어, 페르시아어, 스와힐리어, 영어
모델
오픈 소스 모델 - Vicuna, Falcon, Llama2
클로즈드 소스 모델 - GPT-3.5-turbo, GPT-4
데이터셋
문화적 상식 데이터셋 - GeoMLAMA, CANDLE
일반적 상식 데이터셋 - GenericsKB
1-3. result
1-3-1. LLM이 문화적 상식을 이해할 수 있는가
문화적 상식을 이해하는지 검증할 때 문화적 상식 QA와 국가 식별이라는 두 가지 작업을 진행하였다
v 문화적 상식 QA 언어별
예시 )
Q 빈칸에 들어갈 가장 적합한 답변 고르기 - 중국에서 운전석은 blank 에 있다
S 좌, 우, 전, 후
A 좌
핵심)
- 영어 및 중국어 모델의 성능이 높은 경향을 보임 : 사전 학습 데이터 중 영어와 중국어의 데이터 차지 비율이 높음
- 모든 모델이 이란과 케냐 관련 상식 주장에서 성능 저하가 발생함
- 페르시아어와 스와힐리어에서 지시 수행 성능이 현저하게 제한적임
- 모델이 문화적 상식을 이해하는지 조사할 때 선택하는 언어는 성능 차이를 완화시키지 못함
- 특정 문화에 해당하는 특정 언어로 구성된 질문을 인풋하더라도 모델이 정확한 답변을 하는 것에 긍정적인 영향을 주지 못함
v 문화적 상식 국가 식별
예시 )
Q 빈칸에 적절한 국가를 답하기 - 노루즈는 지역에 상관없이 전세계의 blank 인들이 기념한다
A 이란
핵심 )
- 모델은 인도 관련 상식에서 더 높은 성능을 보임 : 인도가 특화된 문화적 특징을 가진 국가이기 때문 ( 아유르베다는 인도의 전통적 의학 시스템이다)
- 언어별 문화적 상식 QA와 동일하게 인도와 케냐에 대한 질문에서 모델 성능 저하가 발생함
- 대부분의 모델은 해당 국가의 언어가 아닌 영어로 프로빙한 경우 가장 높은 성능을 발휘함. GPT의 경우에만 해당 국가 언어로 프로빙할 때 일부 성능 개선이 있었음.
1-3-2. LLM이 일반적 상식 주장을 이해할 때 문화적인 맥락의 영향을 받는가
특정 문화에 국한되지 않고 전세계에서 통용되는 일반적인 상식 주장을 LLM이 이해할 때 문화적인 맥락의 영향을 받는지 연구하였다. 건강한 식단은 혈당을 낮추는 데 도움을 준다처럼 문화적 맥락과 관계 없이 사실로 통용되는 주장을 예시로 들었다.
v 상식 연관성
예시 )
Q 건강한 식단은 혈당을 낮추는 데 도움을 준다 true or false ?
A true
핵심 )
- 해당 국가의 언어로 질문했을 떄 GPT에서 균일한 성능 개선이 발생함
v 상식 rjawmd
예시 )
Q 온도가 낮으면 물은 얼음이 된다. 어느 나라에서 일어나는 일인가
S 중국 인도 이란 케냐 미국
A 모델의 국가 선택 분포가 균일할 것 (특정 국가 선호 경향 없음)
핵심 )
- 모든 국가에서 통용되는 일반 상식이지만 미국을 선택하는 경향이 많았음
- 선택된 언어에 매치되는 국가를 선택하는 경향이 있었음 (중국어 질문일 때 중국을 답변으로 선택)
1-4. conclusion
핵심 요약
- LLM은 문화 특이적 상식에 대한 테스트를 할 때 서로 다른 문화에 대해 현저한 성능 차이가 발생
- LLM은 일반 상식을 소수의 지배적인 문화와 연관 시키는 오류를 발생시키는 경향이 있음
- LLM 프롬프트에 작성한 언어는 모델의 문화적 상식 이해에 중대한 영향을 미칠 수 있음
현재 개발된 언어 모델이 문화적인 맥락을 이해하는 능력과 한계치를 확인하기 위한 연구