느린 일지/부스트캠프 AI Tech 4기

[학습 일지 / day 63] MRC 시작!

neulvo 2022. 12. 20. 11:59

Level2 기간의 마지막 과제이자 대회인 MRC 프로젝트 기간이 시작되었다.

새로 학습할 강의들이 업데이트 되었고

대회 페이지와 서버, 깃헙 등이 또 다시 열렸다.

 

이번 대회에서 얻고자 하는 것은 무엇일까?

생각해보면 이번에는 정말 결과가 아닐까 싶다.

다들 하는 정도를 원하진 않고

다들 하는 것 이상으로 새로운 무언가를 원한다.

그게 성능에 반영될지는 미지수이지만

일단 내 욕심은 더 좋고 더 새로운 방법론,

이전 기수들에서는 활용하지 않았던 방법론을 찾아 적용하는 것이다.

 

그러기 위해서는 일단 강의 잘 듣고

프로젝트 관리 잘하면서

또 자잘한 Obstacles에 얽매이지 말아야겠다는 생각이 든다.

 

잘 해봐야지. 일단 오늘 학습한 MRC Task에 대한 간략한 요약을 하며 마치겠다. 

아차차 마지막에는 강의의 첨부 링크에 흥미로운 자료가 있어 공유하겠다.

 

MRC의 종류

1) ExtractiveAnswer Datasets
:질의(question)에 대한 답이 항상 주어진 지문(context)의 segment(or span)으로존재

2)Descriptive/NarrativeAnswer Datasets
:답이 지문 내에서 추출한 span이 아니라,질의를 보고 생성된 sentence(or free-form)의 형태

3)Multiple-choice Datasets
:질의에 대한 답을 여러 개의  answer candidates 중 하나로 고르는형태

Challenges in MRC

DuoRC(paraphrasedparagraph)/QuoRef(coreference resolution)
Unanswerablequestions
Multi-hop reasoning
- 여러 개의 document에서 질의에 대한 supporting fact를 찾아야지만 답을 찾을 수 있음


MRC의 평가방법

1)Exact Match / F1Score : For extractive answer and multiple-choice answer datasets
Exact Match(EM)or Accuracy
예측한 답과 ground-truth이 정확히 일치하는 샘플의 비율
(Number of correct samples) / (Number of whole samples)
F1 Score
예측한 답과 ground-truth사이의 token overlap을 F1으로계산

2)ROUGE-L/BLEU : For descriptive answer datasets
⇒ Ground-truth과 예측한 답 사이의 overlap을 계산
ROUGE-L Score
예측한 값과 ground-truth사이의 overlap recall
(ROUGE-L⇒LCS(Longest common subsequence)기반)
BLEU(Bilingual Evaluation Under s tudy)
예측한 답과 ground-truth사이의 precision
(BLEU-n ⇒ uniformn-gram weight)

 

한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례

NAVER Engineering | 발표자: 김명지, 임승영 (LG CNS) 발표월: 2019.1. - 평문 Q&A 뿐 아니라 구조화된 문서에 대한 Q&A를 위해 TableQA, TreeQA 모델이 나오게 된 배경 및 차이점 - LG CNS 연구 내용을 간략히 소개

tv.naver.com

728x90