MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML

MachineLearningLM: Continued Pretraining Language Models on Millions of Synthetic Tabular Prediction Tasks Scales In-Context ML

논문리뷰 2025. 9. 14. 00:57
https://arxiv.org/pdf/2509.06806

https://huggingface.co/MachineLearningLM/MachineLearningLM-7B-v1

https://github.com/HaoAreYuDong/MachineLearningLM

논문의 목적 / 문제의식

기존 대형 언어 모델(LLMs)은 일반적인 지식, 추론 능력 등은 뛰어나지만, many-shot in-context learning (ICL), 즉 여러 개의 데모(예: 마치 학습을 하는 것처럼, 128, 512, 1024개의 예시를 주는 것)를 주는 상황에서 새 ML 태스크를 학습 없이 그냥 prompt만으로 잘 처리하는 능력이 약함. 여러 데모를 줘도 성능이 잘 늘지 않거나, 데모 순서, 예시 선택에 민감한 문제가 있음.

반면, 표(tabular) 데이터 위주 ML 태스크들은 이런 many-shot ICL 설정이 가능한 모델이 최근 등장함 (예: TabICL, TabPFN 등), 하지만 이들은 일반 LLM의 지식이나 추론능력, 멀티모달 입력(multimodal inputs), 혹은 자유로운 자연어 처리가 필요한 상황엔 약함.

더보기

TabPFN:

아예 처음부터 표 데이터 전용 신경망을 만들고, 수많은 synthetic tabular 데이터셋에서 미리 학습(pretraining)시켜 놓은 모델
입력으로 tabular 데이터를 넣으면, 별도 fine-tuning 없이 바로 예측(inference) 가능 → “out-of-the-box ML 모델”처럼 사용.

few-shot 상황(데이터셋이 작을 때)에서도 강력.

inference 속도가 매우 빠름 (트레인 없이 바로 예측).

한계:

범위가 tabular 데이터에 한정됨 (텍스트/이미지 등 멀티모달 처리는 불가).

“일반 LLM처럼” 자연어 질의나 reasoning은 못함.

따라서 이 논문은 다음 질문을 중심으로 함:

LLM을 계속(pretraining) 학습시켜 many-shot in-context ML 능력을 강화하면서, 기존의 일반 지식/추론 능력, 멀티모달 입력 처리 능력은 유지할 수 있을까?

제안하는 방법: MachineLearningLM

MachineLearningLM(MLLM)은 위 목표를 이루기 위해 고안된 프레임워크로, 주요 아이디어는 다음과 같음:

합성(synthetic) 표(tabular) ML 태스크 생성

구조적 인과 모델(structural causal model, SCM) 기반으로 다양한 그래프 구조, 다양한 특징(feature) 타입, 다양한 수치 및 범주형(feature) 분포, 다양한 레이블(label) 메커니즘을 가진 수백만개의 태스크를 만듦.

각 태스크 당 다양한 “shots” (예: 데모 샘플의 수)를 할당, 최대 1,024샷까지 사용.

Random Forest 교사(teacher) 모방(warm-start)

처음에는 랜덤포레스트(RF) 모델의 예측을 흉내내는 방식으로 학습을 시작하여, 학습 안정성을 확보하고, 모델이 너무 어려운 태스크에서 무작위 예측(random)만 하는 일이 없게 함.

이후에는 교사의 예측을 모방하는 단계(filtering, consensus)도 점점 줄이고, 모델이 자체적으로 in-context 예시를 보고 새 태스크에 예측을 할 수 있도록 전환함.

토큰(token) 비용 효율적인 프롬프트(prompt) 디자인

표(tabular) 인코딩: 예시들을 자연어 문장 형태가 아니라 콤마로 구분된 행(row)/열(column) 형식으로 정리하여 표현함.

수치 정규화 및 정수(integer) 인코딩: 숫자(feature)를 정규화(z-norm) 한 뒤, [0,999] 범위의 정수로 변환하여 표현함. 이렇게 하면 토크나이저(tokenizer)에 따라 분절(fragmentation)이 많이 되는 소수점(decimal)이나 기호(“+”/“-”) 등의 처리를 단순화할 수 있음.

배치(batch) 예측(pack batched queries): 여러 개의 test 쿼리(query) 행(row)을 한 시퀀스(sequence)에 묶어서 한 번에 예측하도록 함으로써, 컨텍스트/프롬프트의 instruction/header etc. 오버헤드를 줄임.

많은 데모(shots)를 context window 안에 넣기 위해 아래 세 가지 방식 사용됨:

순서(order) 불변성 및 투표 기반(self-consistency) 예측

데모(예시)의 순서나 feature의 순서를 바꾼 여러 프롬프트 버전을 만들고, 각 버전에서 예측 확률을 얻어, 이를 가중치 투표(weighted voting) 방식으로 합산하여 최종 예측함. 이렇게 하면 데모 순서 등에 따른 편향(bias) 완화 가능.

실험 및 주요 결과

베이스라인: 기존 일반 목적 LLM(Qwen-2.5-7B-Instruct), TabICL, TabPFN, 기타 전통적 ML 모델들 (Random Forest, k-NN 등)과 비교.

데이터셋:

TALENT 벤치마크의 여러 표(classification) 데이터셋. 또한, heterogeneous (텍스트 + 숫자) feature를 갖는 태스크들도 포함됨.

Many-shot 스케일링:

데모(shots)의 수가 8 → 512 → 1024로 증가함에 따라 성능이 계속해서 향상됨. 특히 기존 LLM들은 많은 데모를 주면 성능 증가가 정체되거나 오히려 떨어지는 경우 있음. MLLM은 이런 limit 없이 안정적으로 데모 수가 증가함에 따라 성능 증가.

비교 성능:

많은 shot 수(예: 128-512)에서 GPT-5-mini, o3-mini 등 강한 LLM들을 평균 ~13-16% 차이로 앞섬.

일반적인 전통 ML 모델(Random Forest 등) 수준의 정확도를 many-shot 환경에서, 별도의 태스크 fine-tuning 없이 달성함. 일부 태스크에서는 RF보다도 나은 성능을 보임.

heterogeneous feature (문자+숫자) 태스크에서도 기존 vanilla LLM 대비 좋은 성능 향상 있음.

일반적 LLM 능력 유지 여부:

MMLU (다양한 학문 분야의 테스트)에서 0-shot, 50-shot 등에서 좋은 성능을 가지며, 기존 LLM에 비해 크게 손해보지 않음. 즉, many-shot ICL을 강화했음에도 지식 기반/추론 기반 능력은 유지됨.

한계 및 향후 과제

논문에서 언급한 제약과 개선 가능성은 다음과 같음:

태스크의 범위 제한

현재는 분류(classification) 문제에 초점 (binary / multiclass), 회귀(regression), 순위(ranking), 시계열(time-series), 구조적 예측(structured prediction) 등은 다루지 않음.

레이블 클래스 수(K)가 최대 10으로 제한됨. 많은 클래스가 있는 태스크에서는 다소 제약이 있음.

컨텍스트 길이 및 계산 비용

사전학습(pretraining)은 32,000 토큰(context) 길이 제한 하에서 이루어짐. 추론(inference) 시에는 더 긴 컨텍스트 (예: 131,000 토큰)까지 일반화 가능함을 보여주었지만, 훨씬 많은 샷을 다루거나 더 긴 입력을 처리하는 것은 여전히 리소스/메모리상 도전적임.

수치 인코딩(number encoding)의 절충(trade-off)

[0-999] 정수 매핑(mapping) 방식은 순서(order)를 보존하지만, 큰 수치(strong magnitudes)나 소수점 이하의 정밀한 정보 등이 의미 있는 경우에는 그 정보가 일부 손실될 수 있음. 예를 들어 나이(age) 같은 특정 수치가 갖는 의미적 임계값(threshold) 등이 왜곡될 가능성 있음.

Warm-start / 교사 모방의 바이어스

Random Forest를 통한 warm-up 및 초기 consensus 필터링 단계가, 모델이 초기부터 트리(tree) 기반의 결정 경계(decision boundary)를 더 잘 모방하도록 유도할 수 있음. 이로 인해 최종 모델이 특정한 inductive bias를 갖게 될 가능성 있음. 또한, 현재는 레이블만을 교사로부터 모방(distill)하며, 교사의 reasoning step (왜 그 예측을 했는지에 대한 내부 과정)은 쓰지 않음.

스케일 및 적응

실험에 사용된 모델은 중간 규모(backbone 7B)와 LoRA 적응(rank-8)임. 더 큰 모델, 다른 adapter 방식, 정규화 및 최적화 방법 등이 성능향상 여지를 가질 것임.

의의 및 기여

본 연구는 LLM이 “context 내에서 ML을 학습 없이 수행(in-context ML)” 할 수 있다는 가능성을, synthetic tabular data를 이용한 대규모 continued pretraining으로 실제로 실증한 중요한 작업임.

many-shot (최대 1024 샷) 환경에서도 성능이 지속적으로 증가하는 스케일링 법칙(scaling law)을 보여줌으로써, “더 많은 예시를 줄수록 성능이 좋아진다”는 expectation이 실제로 유지될 수 있는 방법을 제시함. 이는 많은 기존 연구에서 수차례 한계, plateau 또는 감소를 보였던 부분임.

또한 프롬프트 디자인, 숫자 인코딩, 배치 예측 등 실제 실용적 제약(token 예산, 컨텍스트 길이, 계산비용) 하에서도 효율적으로 동작하게 만든 설계 요소들이 포함됨.

일반적 LLM의 지식/추론 능력을 크게 해치지 않으면서도, ML 정확도(특히 표 데이터를 다룰 때)를 큰 폭으로 개선함.
저작자표시 (새창열림)

ABOUT ME

매일이 주말이라면 좋겠어 매일이 주말이라면 좋겠어

논문의 목적 / 문제의식

제안하는 방법: MachineLearningLM

실험 및 주요 결과

한계 및 향후 과제

의의 및 기여

티스토리툴바