-
MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML논문리뷰 2025. 9. 14. 00:57
https://arxiv.org/pdf/2509.06806
https://huggingface.co/MachineLearningLM/MachineLearningLM-7B-v1
https://github.com/HaoAreYuDong/MachineLearningLM
논문의 목적 / 문제의식
- 기존 대형 언어 모델(LLMs)은 일반적인 지식, 추론 능력 등은 뛰어나지만, many-shot in-context learning (ICL), 즉 여러 개의 데모(예: 마치 학습을 하는 것처럼, 128, 512, 1024개의 예시를 주는 것)를 주는 상황에서 새 ML 태스크를 학습 없이 그냥 prompt만으로 잘 처리하는 능력이 약함. 여러 데모를 줘도 성능이 잘 늘지 않거나, 데모 순서, 예시 선택에 민감한 문제가 있음.
- 반면, 표(tabular) 데이터 위주 ML 태스크들은 이런 many-shot ICL 설정이 가능한 모델이 최근 등장함 (예: TabICL, TabPFN 등), 하지만 이들은 일반 LLM의 지식이나 추론능력, 멀티모달 입력(multimodal inputs), 혹은 자유로운 자연어 처리가 필요한 상황엔 약함.
더보기- TabPFN:
- 아예 처음부터 표 데이터 전용 신경망을 만들고, 수많은 synthetic tabular 데이터셋에서 미리 학습(pretraining)시켜 놓은 모델
입력으로 tabular 데이터를 넣으면, 별도 fine-tuning 없이 바로 예측(inference) 가능 → “out-of-the-box ML 모델”처럼 사용.
- few-shot 상황(데이터셋이 작을 때)에서도 강력.
- inference 속도가 매우 빠름 (트레인 없이 바로 예측).
- 한계:
- 범위가 tabular 데이터에 한정됨 (텍스트/이미지 등 멀티모달 처리는 불가).
- “일반 LLM처럼” 자연어 질의나 reasoning은 못함.
- 따라서 이 논문은 다음 질문을 중심으로 함:
- LLM을 계속(pretraining) 학습시켜 many-shot in-context ML 능력을 강화하면서, 기존의 일반 지식/추론 능력, 멀티모달 입력 처리 능력은 유지할 수 있을까?
제안하는 방법: MachineLearningLM
MachineLearningLM(MLLM)은 위 목표를 이루기 위해 고안된 프레임워크로, 주요 아이디어는 다음과 같음:
- 합성(synthetic) 표(tabular) ML 태스크 생성
- 구조적 인과 모델(structural causal model, SCM) 기반으로 다양한 그래프 구조, 다양한 특징(feature) 타입, 다양한 수치 및 범주형(feature) 분포, 다양한 레이블(label) 메커니즘을 가진 수백만개의 태스크를 만듦.
- 각 태스크 당 다양한 “shots” (예: 데모 샘플의 수)를 할당, 최대 1,024샷까지 사용.
- Random Forest 교사(teacher) 모방(warm-start)
- 처음에는 랜덤포레스트(RF) 모델의 예측을 흉내내는 방식으로 학습을 시작하여, 학습 안정성을 확보하고, 모델이 너무 어려운 태스크에서 무작위 예측(random)만 하는 일이 없게 함.
- 이후에는 교사의 예측을 모방하는 단계(filtering, consensus)도 점점 줄이고, 모델이 자체적으로 in-context 예시를 보고 새 태스크에 예측을 할 수 있도록 전환함.
- 토큰(token) 비용 효율적인 프롬프트(prompt) 디자인
- 표(tabular) 인코딩: 예시들을 자연어 문장 형태가 아니라 콤마로 구분된 행(row)/열(column) 형식으로 정리하여 표현함.
- 수치 정규화 및 정수(integer) 인코딩: 숫자(feature)를 정규화(z-norm) 한 뒤, [0,999] 범위의 정수로 변환하여 표현함. 이렇게 하면 토크나이저(tokenizer)에 따라 분절(fragmentation)이 많이 되는 소수점(decimal)이나 기호(“+”/“-”) 등의 처리를 단순화할 수 있음.
- 배치(batch) 예측(pack batched queries): 여러 개의 test 쿼리(query) 행(row)을 한 시퀀스(sequence)에 묶어서 한 번에 예측하도록 함으로써, 컨텍스트/프롬프트의 instruction/header etc. 오버헤드를 줄임.
- 많은 데모(shots)를 context window 안에 넣기 위해 아래 세 가지 방식 사용됨:
- 순서(order) 불변성 및 투표 기반(self-consistency) 예측
- 데모(예시)의 순서나 feature의 순서를 바꾼 여러 프롬프트 버전을 만들고, 각 버전에서 예측 확률을 얻어, 이를 가중치 투표(weighted voting) 방식으로 합산하여 최종 예측함. 이렇게 하면 데모 순서 등에 따른 편향(bias) 완화 가능.
실험 및 주요 결과
- 베이스라인: 기존 일반 목적 LLM(Qwen-2.5-7B-Instruct), TabICL, TabPFN, 기타 전통적 ML 모델들 (Random Forest, k-NN 등)과 비교.
- 데이터셋:
- TALENT 벤치마크의 여러 표(classification) 데이터셋. 또한, heterogeneous (텍스트 + 숫자) feature를 갖는 태스크들도 포함됨.
- Many-shot 스케일링:
- 데모(shots)의 수가 8 → 512 → 1024로 증가함에 따라 성능이 계속해서 향상됨. 특히 기존 LLM들은 많은 데모를 주면 성능 증가가 정체되거나 오히려 떨어지는 경우 있음. MLLM은 이런 limit 없이 안정적으로 데모 수가 증가함에 따라 성능 증가.
- 비교 성능:
- 많은 shot 수(예: 128-512)에서 GPT-5-mini, o3-mini 등 강한 LLM들을 평균 ~13-16% 차이로 앞섬.
- 일반적인 전통 ML 모델(Random Forest 등) 수준의 정확도를 many-shot 환경에서, 별도의 태스크 fine-tuning 없이 달성함. 일부 태스크에서는 RF보다도 나은 성능을 보임.
- heterogeneous feature (문자+숫자) 태스크에서도 기존 vanilla LLM 대비 좋은 성능 향상 있음.
- 일반적 LLM 능력 유지 여부:
- MMLU (다양한 학문 분야의 테스트)에서 0-shot, 50-shot 등에서 좋은 성능을 가지며, 기존 LLM에 비해 크게 손해보지 않음. 즉, many-shot ICL을 강화했음에도 지식 기반/추론 기반 능력은 유지됨.
한계 및 향후 과제
논문에서 언급한 제약과 개선 가능성은 다음과 같음:
- 태스크의 범위 제한
- 현재는 분류(classification) 문제에 초점 (binary / multiclass), 회귀(regression), 순위(ranking), 시계열(time-series), 구조적 예측(structured prediction) 등은 다루지 않음.
- 레이블 클래스 수(K)가 최대 10으로 제한됨. 많은 클래스가 있는 태스크에서는 다소 제약이 있음.
- 컨텍스트 길이 및 계산 비용
- 사전학습(pretraining)은 32,000 토큰(context) 길이 제한 하에서 이루어짐. 추론(inference) 시에는 더 긴 컨텍스트 (예: 131,000 토큰)까지 일반화 가능함을 보여주었지만, 훨씬 많은 샷을 다루거나 더 긴 입력을 처리하는 것은 여전히 리소스/메모리상 도전적임.
- 수치 인코딩(number encoding)의 절충(trade-off)
- [0-999] 정수 매핑(mapping) 방식은 순서(order)를 보존하지만, 큰 수치(strong magnitudes)나 소수점 이하의 정밀한 정보 등이 의미 있는 경우에는 그 정보가 일부 손실될 수 있음. 예를 들어 나이(age) 같은 특정 수치가 갖는 의미적 임계값(threshold) 등이 왜곡될 가능성 있음.
- Warm-start / 교사 모방의 바이어스
- Random Forest를 통한 warm-up 및 초기 consensus 필터링 단계가, 모델이 초기부터 트리(tree) 기반의 결정 경계(decision boundary)를 더 잘 모방하도록 유도할 수 있음. 이로 인해 최종 모델이 특정한 inductive bias를 갖게 될 가능성 있음. 또한, 현재는 레이블만을 교사로부터 모방(distill)하며, 교사의 reasoning step (왜 그 예측을 했는지에 대한 내부 과정)은 쓰지 않음.
- 스케일 및 적응
- 실험에 사용된 모델은 중간 규모(backbone 7B)와 LoRA 적응(rank-8)임. 더 큰 모델, 다른 adapter 방식, 정규화 및 최적화 방법 등이 성능향상 여지를 가질 것임.
의의 및 기여
- 본 연구는 LLM이 “context 내에서 ML을 학습 없이 수행(in-context ML)” 할 수 있다는 가능성을, synthetic tabular data를 이용한 대규모 continued pretraining으로 실제로 실증한 중요한 작업임.
- many-shot (최대 1024 샷) 환경에서도 성능이 지속적으로 증가하는 스케일링 법칙(scaling law)을 보여줌으로써, “더 많은 예시를 줄수록 성능이 좋아진다”는 expectation이 실제로 유지될 수 있는 방법을 제시함. 이는 많은 기존 연구에서 수차례 한계, plateau 또는 감소를 보였던 부분임.
- 또한 프롬프트 디자인, 숫자 인코딩, 배치 예측 등 실제 실용적 제약(token 예산, 컨텍스트 길이, 계산비용) 하에서도 효율적으로 동작하게 만든 설계 요소들이 포함됨.
- 일반적 LLM의 지식/추론 능력을 크게 해치지 않으면서도, ML 정확도(특히 표 데이터를 다룰 때)를 큰 폭으로 개선함.