Skim-RoBERTa
Skim-RoBERTa
- RoBERTa(https://arxiv.org/pdf/1907.11692.pdf)
- Dynamic Masking 사용
- 에폭 마다 masking을 다르게 준다.
- NSP을 뺐음
- Downstream 성능이 더 잘나온다는 실험을 함… 논란 중
- Data을 아주 아주 많이 학습
- Byte pair encoding
- 4가지 해서 SOTA 달성
- Dynamic Masking 사용
Comments