[스포츠서울 | 표권향기자] 미디어젠 컨소시엄이 과학기술정보통신부(NIA)가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 인공지능(AI) 학습용 데이터 구축 사업인 ‘분야별 한국어 멀티세션 데이터 구축 사업’에 선정됐다고 5일 밝혔다.

미디어젠 컨소시엄의 사업 목적는 챗-GPT 등 질의응답 대화 능력을 탑재한 ‘한국형 생성형 AI 챗봇’을 개발 가능한 한국어 데이터를 구축하는 것이다. 특히 일반인들이 답변하기 어려운 전문 지식 분야 데이터를 대량으로 생성할 계획이다.

이를 위해 미디어젠 컨소시엄은 기술과학, 사회과학, 일상대화의 전문 지식이 담긴 전문 문서 약 25만 건을 자체 아카이브에 디지털화해 저장했다. 또 시간이 지난 후 이전 대화를 기억해 대화할 수 있는 챗봇 알고리즘을 통해 더 친밀한 대화가 이뤄질 수 있게 할 방침이다.

윤종성 미디어젠 AI 연구소 부소장은 “최근 생성형 AI 챗봇 기술에 대한 관심이 높아지고 있으며, 사업에서 구축되는 데이터도 한국형 AI 챗봇 개발에 크게 기여할 것이라고 기대된다”며 “대화 데이터와 함께 질의응답에 사용된 다양한 주제의 전문 문서도 함께 제공되므로 여러 영역에서 지식을 주고받는 AI 챗봇의 확대를 기대할 수 있을 것”이라고 말했다.

분야별 한국어 멀티세션 데이터 구축은 올해 연말까지 진행되며, 구축이 완료된 후 NIA가 운영하는 AI-Hub를 통해 모든 데이터가 일반에게 공개될 예정이다.

한편 미디어젠 컨소시엄은 △비디 △메트릭스 △코리아퍼스텍 △한알음정보 △이즈테크놀로지 등 6개 전문 기업으로 구성됐다. 주관·참여 기관 모두 NIA 인공지능 학습용 데이터 사업 진행 경험을 보유한 전문 기업들이다.

이번 과제에서 각 컨소시엄 참여 기업은 △AI 데이터 설계 △품질 관리 △전문 지식 문서 아카이브 구축 △데이터 정제 및 가공 △데이터 검수 △공정 관리 △AI 모델 생성 및 평가 등 데이터 구축을 위한 역할을 분담한다.

gioia@sportsseoul.com

기사추천