2024.04.26 (금)

  • 흐림속초 0.1℃
  • 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 인천 2.1℃
  • 흐림충주 2.5℃
  • 청주 3.0℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 전주 6.9℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 여수 8.3℃
  • 흐림순천 6.7℃
  • 흐림제주 10.7℃
  • 구름많음서귀포 13.4℃
  • 흐림천안 2.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공
검색창 열기

사회

서울대, 바른 한글 구사하는 '인공지능 학습용 데이터셋' 공개

한국어 언어 모델의 사회적 편향 진단 목적용

URL복사

 

서울대학교 공과대학(학장 이병호)은 지난 9일 한글날을 맞아 윤성로 전기정보공학부 교수팀의 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋(K-StereoSet)를 공개했다.

 

윤성로 교수팀이 공개한 K-StereoSet는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다.

 

약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.

 

데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.

 

연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 unrelated 라벨에 해당하는 문장은 문맥과 전혀 관계 없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.

 

연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.