가톨릭대학교 THE CATHOLIC UNIVERSITY OF KOREA가톨릭대학교 THE CATHOLIC UNIVERSITY OF KOREA

대학장학금입학안내기숙사등록가톨릭대학교대학원입학안내
모바일메뉴

전체메뉴보기

전체메뉴 닫기

The Catholic University of Korea

주요연구성과


가톨릭대 데이터사이언스학과 김강민 교수팀, ‘EMNLP 2025’에 논문 2편 발표

  • 작성자 :대외협력팀
  • 등록일 :2025.11.24
  • 조회수 :114

- 대규모 언어모델 편향성·환각 문제 개선 위한 핵심 기술 제안

- 한국정보과학회 선정 Computer Science 분야 최우수 국제학술대회 EMNLP서 연구성과 발표




사진 (좌): 지난 11월 4일부터 9일까지 중국 수저우에서 열린 최우수 국제 학술대회 ‘EMNLP 2025’에서 발표를 진행 중인 박성진 석사과정생,

사진 (우): 박수형·김호범 학생



 가톨릭대학교(총장 최준규) 데이터사이언스학과·인공지능학과 김강민 교수 연구팀이 자연어처리 분야 최고 권위의 국제 학술대회인 Empirical Methods in Natural Language Processing 2025(EMNLP 2025)에 대규모 언어모델(LLM)의 편향성 및 환각 문제를 완화하는 기술을 제안한 논문 2편을 게재하고 발표했다.



◆ 언론사명에 대한 대규모 언어모델의 정치적 편향 측정 및 완화 기술 개발

  


(그림1) 언론사명에 대한 대규모 언어모델의 정치적 편향 측정 방법론 및 결과 개요


  

 첫 번째 논문 ‘Measuring and Mitigating Media Outlet Name Bias in Large Language Models’는 ChatGPT 등 대규모 언어모델이 뉴스 기사를 처리할 때 언론사명만으로도 정치적 편향을 보이는 현상을 체계적으로 측정하고 이를 완화하는 기술을 제안했다.

  

 연구팀은 동일한 기사라도 대규모 언어모델에 제공된 가상의 출처가 CNN으로 제시된 경우 더 진보적으로, Fox News로 제시된 경우 더 보수적으로 판단하는 등 언론사명에 따라 모델의 판단이 달라지는 ‘앵커링 효과(anchoring effect)'가 존재함을 실험을 통해 확인했다. 이러한 편향을 정량적으로 평가하기 위해 ‘SIPS (Source-Induced Prediction Shift)’라는 새로운 지표를 제안했으며, 절대 민감도·일치성·일관성을 결합해 모델의 편향 정도를 0~1 사이의 값으로 표현할 수 있도록 설계했다.

  

 실험 결과, Qwen-2.5, Mistral-Small, Phi-4, Llama-3.3, Gemma-2, GPT-4.1 등 주요 언어모델 모두 언론사명 기반 편향을 내재하고 있음이 드러났다. 특히 모델 크기가 클수록, 그리고 RLHF(Reinforcement Learning from Human Feedback) 등 정렬 튜닝을 거친 모델일수록 편향이 더 강하게 나타나는 경향을 보였다.

  

 연구팀은 또한 자동화된 프롬프트 최적화 프레임워크를 개발해 편향 완화 가능성을 검증했다. 그 결과, Qwen-2.5 모델의 SIPS 점수는 0.529에서 0.279로, GPT-4.1 모델은 0.421에서 0.293으로 감소하는 등 실질적인 개선 효과가 확인됐다.

 


◆ 지식 그래프 기반 맥락 인식 의료 상담 프레임워크 개발

 


(그림2) 지식 그래프 기반 맥락 인식 의료 상담 프레임워크 전체 구조도


  

 두 번째 논문 ‘Leveraging Knowledge Graph-Enhanced LLMs for Context-Aware Medical Consultation’은 의료 분야에서 대규모 언어모델이 겪는 환각(hallucination) 문제를 완화하고, 보다 정확한 의료 상담을 제공하기 위한 ‘ILlama (Informatics Llama)’ 프레임워크를 제안했다.

 

 기존 의료 상담 시스템인 ChatDoctor 등은 키워드 기반 검색에 의존해 관련 의료 정보를 충분히 찾지 못하거나 부정확한 정보를 생성하는 한계가 있었다. 연구팀은 이를 해결하기 위해 의료 표준 용어 체계인 UMLS(Unified Medical Language System)를 기반으로 한 구조화된 지식 그래프를 활용했다.

  

 ILlama의 핵심은 질병-증상 간 인과관계와 의미적 연관성을 구조적으로 표현하는 ‘서브그래프 기반 검색(subgraph-based retrieval)’ 방식이다. 연구팀은 약 2만 개의 의료 개념, 22개의 관계 유형, 25만 개의 트리플로 구성된 UMLS 지식 그래프를 구축하고, 각 서브그래프를 벡터 데이터베이스에 저장했다. 환자의 질문이 입력되면 시스템이 의미적으로 가장 관련성이 높은 의료 지식을 검색해 답변 생성에 활용하도록 설계했다. 예를 들어 환자가 “기침과 호흡곤란, 피로감이 있다”고 호소할 경우, ILlama는 이들 증상이 폐암, 빈혈 등 특정 질병과 어떻게 연관되는지를 지식 그래프를 통해 파악한다.

  

 성능 평가 결과, ILlama는 HealthCareMagic 데이터셋에서 의미적 유사도 F1 점수 0.884를 기록해 기존 모든 기준 모델을 상회했다. 또한 iCliniq 데이터셋을 사용한 실제 환경 테스트에서도 0.871의 높은 점수를 달성하며 우수한 일반화 성능을 입증했다. OpenAI o1 모델을 활용한 정성 평가에서도 환각 현상이 크게 감소하고 임상적 유용성이 향상된 것으로 확인됐다.

  

 가톨릭대 데이터사이언스학과·인공지능학과 김강민 교수는 “이번 연구는 대규모 언어모델의 편향성과 환각 문제라는 두 가지 핵심 과제를 해결하는 실질적인 방법을 제시했다”며 “언론사명 편향 완화 기술은 AI 기반 뉴스 서비스의 공정성을 높이고, 의료 상담 시스템은 환자 안전성을 확보하는 데 기여할 것”이라고 말했다.

  

 이번 연구는 가톨릭대 데이터사이언스학과·인공지능학과 김강민 교수와 박성진 석사과정생, 박수형·김호범 학생으로 구성된 연구팀이 한국연구재단 우수신진연구자지원사업과 정보통신기획평가원(IITP) 지원사업의 연구비를 받아 수행했다.

QUICK
MENU
맨위로가기