Data/논문 읽기

[논문 요약] EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

neulvo 2022. 11. 17. 17:30

논문 링크 :

 

EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks

We present EDA: easy data augmentation techniques for boosting performance on text classification tasks. EDA consists of four simple but powerful operations: synonym replacement, random insertion, random swap, and random deletion. On five text classificati

arxiv.org

코드 링크 :

 

GitHub - jasonwei20/eda_nlp: Data augmentation for NLP, presented at EMNLP 2019

Data augmentation for NLP, presented at EMNLP 2019 - GitHub - jasonwei20/eda_nlp: Data augmentation for NLP, presented at EMNLP 2019

github.com

한국어 구현 코드 링크 :

 

GitHub - catSirup/KorEDA: EDA를 한국어 데이터에서도 사용할 수 있도록 WordNet을 추가

EDA를 한국어 데이터에서도 사용할 수 있도록 WordNet을 추가. Contribute to catSirup/KorEDA development by creating an account on GitHub.

github.com

 

내용 요약 :

구현 방식 소개

  • SR : stop words가 아닌 n개의 단어를 무작위로 선택, 랜덤한 유의어로 교체
  • RI : stop word가 아닌 문장 내 무작위 단어의 무작위 유의어를 찾고 문장 내 무작위 위치에 삽입, n번 반복
  • RS : 문장 내 두 단어를 무작위로 선택하고 그 위치를 뒤바꿈, n번 반복
  • RD : p 확률로 문장 내의 각 단어를 무작위로 제거

 

구현 예시

  • SR, RI, RS, RD

 

EDA(Easy data augmentation) 유무에 따른 성능 차이

  • full datasets에 대해 0.8의 평균 성능 향상치, N=500 일 때 3.0%.

 

original 문장과 augmented 문장의 Latent space 시각화

  • 증간된 문장이 원본 문장에 매우 근접해 있음을 확인할 수 있음

 

alpha 값에 따른 성능 변화

  • alpha =0.1 이 sweet spot

 

n (증강 문장 수)에 다른 성능 변화

  • table 3의 파라미터를 추천

 

EDA의 한계

  • 데이터가 충분할 때 성능 향상은 크지 않다.
  • pre-trained 모델 사용 시에 의미 있는 성능 향상을 가지지 못한다.
  • 관련 작업과의 공정한 비교는 중요하지 않다.
728x90