분류 전체보기 966

Pytorch data Samplers & Sequence bucketing

Guide: Pytorch data Samplers & Sequence bucketing Explore and run machine learning code with Kaggle Notebooks | Using data from CommonLit Readability Prize www.kaggle.com 링크의 내용 리뷰하고자 한다. Data Sampler : 주어진 데이터 풀과 배치 사이즈에서 어떻게 배치를 형성할지 결정해주며, 데이터셋의 순서(order)를 결정하기도 한다. Dataloader가 초기화될 때, 그 안에서 데이터셋의 샘플들의 sequence order를 작성한다. 이때 만들어진 sequence를 통해 데이터셋에서 데이터들이 주어진 배치사이즈만큼 배치의 형태로 나오게 된다. dataset..

Data/코드 리뷰 2022.02.28

Huggig Face, Tokenizers

The 🤗 Tokenizers library - Hugging Face Course Introduction In Chapter 3, we looked at how to fine-tune a model on a given task. When we do that, we use the same tokenizer that the model was pretrained with — but what do we do when we want to train a model from scratch? In these cases, using a tokeni huggingface.co 코스 6에 해당하는 내용 1. 기존 토크나이저로 새 토크나이저 학습시키기 데이터셋을 불러오고 사용할 데이터를 확인. generator를 활용해 토..

Data/Information 2022.02.25

Hugging Face, Datasets

The 🤗 Datasets library - Hugging Face Course Introduction In Chapter 3 you got your first taste of the 🤗 Datasets library and saw that there were three main steps when it came to fine-tuning a model: Load a dataset from the Hugging Face Hub. Preprocess the data with Dataset.map(). Load and compute huggingface.co 오늘은 chapter 5 내용을 리뷰하고자 한다. 1. Data 불러오기 데이터 로드 및 확인, field를 통해 어디에서 data를 가져올지 지정(j..

Data/Information 2022.02.24