Data/코드 리뷰 8

[Happy_whale] EffNet Train & RAPIDS Clusters

🐳Whales&Dolphins: EffNet Train & RAPIDS Clusters Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 앞서 리뷰한 코드와 같은 사람이 작성한 코드다. 그래서인지 이해하기 수월했고 학습 과정까지 전 과정이 담겨있어서 좋았다. 라이브러리 import하고 색상 설정하는 부분. cuml 라이브러리가 CUDA 호환성 문제로 import 되지 않아서 sklearn의 유사 함수를 불러왔다. 성능 차이가 있는 지는 모르겠지만 코드 실행에는 문제가 없었다. line plot으로 loss를 그려주는 함수. value text를 plo..

Data/코드 리뷰 2022.04.11

[Happy_whale] EffNet Embedding cos Distance

🐬Whales&Dolphins: EffNet Embedding cos Distance Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com HappyWhale 2022 케글 공모전의 코드. 담고 있는 내용이 많고 좋은 것 같아서 리뷰해보고자 한다. 라이브러리 import 및 색상 설정. Wandb에 login하는 코드이다. Wandb는 AI 학습 Tracking 및 시각화 서비스를 제공하는 사이트인데 이번 코드를 통해서 알게 되었다. plot에 text를 출력해주는 함수. v와 h는 vertical, horizontal np.ndenumerate는 배열의..

Data/코드 리뷰 2022.04.07

Evaluating Student Writing_1st Place Solution

feedback-nn-train Explore and run machine learning code with Kaggle Notebooks | Using data from Feedback Prize - Evaluating Student Writing www.kaggle.com 참여했던 캐글 공모전의 1nd place solution을 분석해보려고 한다. 작성된 method 위주로 리뷰를 해보겠다. 교집합, 즉 얼마나 두 집단이 겹쳐있느냐를 파악하는 함수. set()을 활용했다. f1_score를 구하는 함수. log와 slient를 파라미터로 주어 slient에 따라 함수 아래의 문장을 실행하도록 하였다. 예측값과 실제값의 고유값을 비교해주고자 한듯 하다. slient는 오타인 것 같다. 그리고 아래에서..

Data/코드 리뷰 2022.04.03

Evaluating Student Writing_2nd Place Solution

2nd Place Solution - [CV741 Public727 Private740] Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 최근에 참여했던 캐글 공모전의 2nd place를 차지한 코드를 리뷰하고자 한다. 공모전 참여 기간 동안 노트북 작성자의 코드를 보며 많이 배웠기 때문에 최종 코드 또한 살펴보고 싶었다. 코드를 직접 돌려볼 수 있는 환경이 되지 않아서 코드를 읽고 분석하는 작업만 수행하고자 한다. Inference Script with Post Process The following Python script accepts a fi..

Data/코드 리뷰 2022.03.24

Data Augmentation (CSV&TXT) using Back Translation

Data Augmentation (CSV&TXT) using Back Translation Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 캐글 공모전에 참가하면서 분석한 상위 링크의 코드를 리뷰하고자 한다. NLP 문제에 대해 Data Augmentation을 적용해 Train 볼륨을 늘리는 코드이다. Data Augmentation을 위해 NLPaug 라는 라이브러리를 설치하고 관련 패키지를 불러온다. nlpaug — nlpaug 1.1.10 documentation © Copyright 2019, Edward Ma Revision bb2fc63..

Data/코드 리뷰 2022.03.15

TensorFlow LongFormer NER Baseline

TensorFlow - LongFormer - NER - [CV 0.633] Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 캐글 공모전에 참가하면서 분석한 상위 링크의 코드를 리뷰하고자 한다. NLP 문제에 대해 Longformer 모델을 TensorFlow 구문으로 학습한 코드이다. Furthermore this notebook is one fold. It trains with 90% data and validates on 10% data. We can convert this notebook to K-fold or train with 100% d..

Data/코드 리뷰 2022.03.15

two longformer is better than one

two longformers are better than 1 Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 캐글 공모전에 참가하면서 분석한 상위 링크의 코드를 리뷰하고자 한다. NLP 문제에 대해 2개의 롱포머 모델을 사용한 코드이다. 패키지 불러오기 + 캐시 비워주기 NER 토큰 맵 만들어주기 + 경로 설정(배치와 최대 길이) input_ids(시작과 끝 부분에 특수 토큰 만들어주기) 와 attention mask 만들어주기 배치를 하나씩 가져와서 패딩을 달리 해주는 dynamic padding tez.Model을 arg로 받는 함수. AutoC..

Data/코드 리뷰 2022.03.15

Pytorch data Samplers & Sequence bucketing

Guide: Pytorch data Samplers & Sequence bucketing Explore and run machine learning code with Kaggle Notebooks | Using data from CommonLit Readability Prize www.kaggle.com 링크의 내용 리뷰하고자 한다. Data Sampler : 주어진 데이터 풀과 배치 사이즈에서 어떻게 배치를 형성할지 결정해주며, 데이터셋의 순서(order)를 결정하기도 한다. Dataloader가 초기화될 때, 그 안에서 데이터셋의 샘플들의 sequence order를 작성한다. 이때 만들어진 sequence를 통해 데이터셋에서 데이터들이 주어진 배치사이즈만큼 배치의 형태로 나오게 된다. dataset..

Data/코드 리뷰 2022.02.28