미디어젠 초거대 LLM, TTA 성능 검증 통과…학습용 헬스케어 질의응답 데이터 구축

입력2024-01-17 09:50:25

미디어젠 컨소시엄의 초거대 LLM이 최근 TTA 성능 검증을 통과했다. 사진 | 미디어젠 컨소시엄

[스포츠서울 | 표권향 기자] 미디어젠 컨소시엄의 초거대 언어 모델(LLM)이 최근 TTA 성능 검증을 모두 통과했다고 17일 밝혔다. 이번에 통과한 LLM은 초거대 인공지능(AI) 모델을 위한 AI 데이터 사업에서 구축된 데이터를 활용해 제작됐다.

미디어젠 컨소시엄은 지난해 과학기술정보통신부가 주관하고, 한국지능정보사회진흥원(NIA)이 추진한 AI 학습용 데이터 구축 사업에서 AI 학습용 데이터 구축 사업자로 최종 선정된 바 있다. 이에 회사 측은 약 2억 어절이 넘는 초거대 규모 헬스케어 분야에서 생성형 AI 챗봇의 질의응답 데이터를 구축· 완료했다.

이번 사업은 AI 최신 기술인 초거대 AI 언어 모델 및 응용 서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것이 목표다. 이를 뒷받침하기 위해 실제 일반인 및 의료진의 질의응답 데이터, 전문 의료 서적 데이터, 증강 데이터 등을 모았다.

미디어젠 컨소시엄은 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업으로 구성돼 있다. 이번 심사를 위해 5개 사가 힘을 합쳐 데이터의 △통계적 다양성 △구문·의미 정확성 △유사성 등에 대한 TTA 정밀 검증에서 모두 합격 판정을 이끌어냈다.

특히 LLM 성능을 평가하는 TTA의 유효성 검증에서 챗봇의 답변 성공률에 대한 생성 모델 비교 평가 결과 ROUGE-1, ROUGE-2 기준을 모두 달성했다. 이러한 결과를 통해 미디어젠 컨소시엄의 AI 학습용 데이터 안정성과 LLM 성능을 업계에서 공식 입증받는 계기가 됐다.

이번 TTA 검증에 활용된 데이터는 일반인의 질문 데이터와 의료진이 직접 작성한 헬스케어 데이터가 질의응답을 이루고 있으며, 직접 수집된 데이터 기반으로 증강됐다. 데이터 증강에는 미디어젠이 폴리그롯을 기반으로 직접 개발한 증강 모델이 활용됐으며, 초거대 AI 질의응답 모델은 한국전자통신연구원(ETRI)의 T5 기반 파인 튜닝 모델로 시험을 진행됐다.

송민규 미디어젠 상무는 “초거대 AI 모델의 최적 성능 확보를 위한 증강 데이터와 생성형 질의응답 모델이 TTA 성능 검증을 통과한 것에 매우 기쁘다”라며 “각 산업 영역에서 직접적으로 활용될 수 있는 사업화 초거대 언어 모델을 꾸준히 발표할 예정”이라고 말했다.

한편, 초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 지난달 말까지 데이터 수집 및 AI 모델 검증이 완료됐다. 올 상반기에는 NIA가 운영하는 AI-허브를 통해 모든 데이터가 일반에 공개될 예정이다.

gioia@sportsseoul.com

기사추천