Not All LLM Reasoners Are Created Equal skimming
Not All LLM Reasoners Are Created Equal
배경
- LLM 수학 성능 많이 올랐다. MATH 벤치마크 90점대도 이제는 보임. 더 깊은 질문을 하게 됨: 진짜로 개념을 이해해서 reasnoing을 하는 것일까 아니면 여전히 형식에 치우쳐져 있을까? 전자가 Yes이어어ㅑ 진짜로 모델이 reasoning 과 생각을 하는 것이라고 볼 수 있을 것이다.
가설
- 형식을 바꿔서 수학 문제를 풀게 하면 질문에 대한 답을 할 수 있을 것이다.
- GSM8K을 변경해서 test set을 만들어보자. 하나의 문제를 두개로 쪼갠다. Q1, Q2으로 만든다. Q1의 정답을 사용해서 Q2을 풀어야 한다.
- Q2와 상관없는 Q1도 붙인 test set도 만들어본다. 모델이 개별 각각의 문제는 잘 푸는데 형식을 바꿔서 별개의 두가지 문제를 풀게 하면 그대로 잘 풀어줄까?
- 수학 데이터을 과거보다 더 많아지면서 모델이 보게 되는 수 문제 형태가 많아지면서 test set leakage로 인한 성능 향상은 아닐까?
- 수학에 특화된 모델들은 위 두 현상에서 어떻게 반응할까? 형식에 따른 성능이 하락한다면 이 하락의 정도가 일반 모델들보다 적지 않을까?
실험
- GSM somposition 데이터셋을 만들어서 성능 측정
- 한 문제를 Q1, Q2으로 쪼갰을 때 성능 하락함. 문제의 형식에 큰 영향을 받음. 이 현상은 7B 크기의 작은 모델들에서 더 많은 degenerate을 경험함. 큰 모델도 꽤 많은! 성능 하락을 경험함.
- Q2와 상관 없는 Q1을 앞에 붙였을 때도 성능 하락을 경험함. 형식에 큰 영향을 받는다! 그리고 저자들은 이 경우를 distraction이라고 부름. 모델이 한 문제는 잘 푸는데 다른 문제를 같이 보게 되어서 집중력이 떨어진다?!
- 모델이 수학 자체를 못하는 것은 아님 .test set의 숫자들을 바꿔서 풀어도 기존 성능과 크게 차이가 나지는 않음.
결론
- 일부 연구자들이 걱정하던대로 수학 성능의 벤치마크 inflation이 test leakage는 아니었다.
- 하지만 문제를 푸는 형식에는 큰 overfitting을 경험함. practice에서 형식이 변하게 되면 성능이 하락하니까 실생활에 쓰기에는 문제가 있지 않을까?
- 진짜 concept과 reasoning을 하는지 알기 위해서는 단순히 한 문제만 맞는지 검사하는 MATH 벤치마크 말고 새로운 벤치마크가 나와야 하지 않을까?
토의
- 개인적인 경험으로는 instruction tuning을 잘 하면 수학성능을 잘 유지한채로 practical한 service에 충분히 수학 모델을 반영할 수 있다.
Comments