AI Scientist
논문을 읽고, 구조화하고, 재현하고, 확장하는 자율 연구 에이전트.
Preview — In Development
Overview
AI Scientist는 과학 논문을 기계가 다룰 수 있는 형태로 변환하고, 실험을 자동 재현하며, 확장 가능성을 탐색하는 자율 연구 에이전트입니다.
연구자가 매일 반복하는 작업 — 논문 파싱, 인용 추적, 환경 구성, 결과 검증 — 을 자동화하여, 연구의 속도를 높이고 재현성을 보장합니다.
Problem
과학 지식의 대부분은 PDF에 갇혀 있습니다.
| 작업 | 소요 시간 | 자동화 가능성 |
|---|---|---|
| Literature Triage | 수 시간 / 논문 | 높음 |
| Reproduction Setup | 수 일 / 논문 | 중간 |
| Citation Network 구축 | 수 시간 | 높음 |
| Extension Discovery | 가변적 | 중간 |
이 작업들은 고도의 지적 판단이라기보다, 구조화된 정보 처리에 가깝습니다. 에이전트가 잘 할 수 있는 영역입니다.
Pipeline
| Step | Stage | Description |
|---|---|---|
| 01 | Ingestion | PDF / arXiv URL → 논문 구조 파싱 (제목, 섹션, 수식, 테이블, 그림) |
| 02 | Citation Graph | 인용 논문 자동 추적 → 지식 그래프 구성 |
| 03 | RO Compiler | Claim–Evidence–Method–Artifact 스키마로 변환 |
| 04 | Verification | Docker 환경에서 실험 재현 및 결과 비교 |
| 05 | Synthesis | 확장점 탐색 (ablation, 데이터셋, 하이퍼파라미터) |
01 → 02 → 03 → 04 → 05. 각 단계의 출력이 다음 단계의 입력이 됩니다. 실패 시 자동 롤백 후 재시도.
Research Object Schema
논문은 다음과 같은 기계 판독 가능한 구조로 컴파일됩니다. 원본 대비 컨텍스트 비용 50% 이상 절감, 출처 정보 완전 보존.
{
"paper_id": "arxiv:2405.21060",
"title": "Transformers are SSMs",
"claims": [{
"id": "C1",
"statement": "Mamba-2 achieves 8× throughput",
"evidence": ["E1", "E2"],
"confidence": 0.95
}],
"evidence": [{
"id": "E1",
"type": "table",
"location": "Table 3",
"reproducible": true
}],
"methods": [{
"id": "M1",
"description": "Structured State Space Duality",
"artifacts": ["A1"]
}],
"artifacts": [{
"id": "A1",
"type": "code",
"url": "github.com/state-spaces/mamba",
"verified": true
}]
}Execution-Based Verification
요약이 아니라 실행입니다. 코드와 데이터가 있으면 Docker 컨테이너에서 실험을 재현하고, 보고된 지표와 자동 비교합니다.
- Auto Environment Setup — 논문의 requirements에서 Docker 템플릿 자동 구성
- Metric Comparison — 보고값 vs 재현값, 허용 오차 ≤5%
- Mismatch Analysis — 불일치 시 원인 분석 및 수정 방안 제안
Cloud-Based Reproduction
GPU가 필요한 실험도 AWS 인프라에서 자동 프로비저닝합니다.
| Stage | Infrastructure |
|---|---|
| Reproduce | EC2 + SageMaker |
| Verify | Automated Testing Pipeline |
| Deploy | One-Click API Endpoint |
Multi-Model Orchestration
단일 모델이 아닌, 작업 특성에 맞는 복수의 foundation model을 sub-agent로 조합합니다. Supervisor Agent가 작업을 동적으로 라우팅하고 결과를 종합합니다.
| Role | Model | Strength |
|---|---|---|
| Deep Reasoning | Claude Opus 4.5 | 복잡한 논증 구조 분석 |
| Code Execution | GPT 5.2 Pro | 코드 생성 및 실행 |
| Long Context | Gemini 3.0 Pro | 긴 논문 전문 처리 |
Agent Architecture
| Agent | Role |
|---|---|
| Supervisor / Planner | 전체 워크플로우 관리 및 작업 분배 |
| Ingestion Agent | PDF/URL 파싱 |
| Citation Agent | 다중 소스 검색 (arXiv, Crossref, Semantic Scholar, PubMed) |
| RO Compiler Agent | 구조화 변환 |
| Verification Runner | Docker 실행 및 지표 비교 |
| Critic / QA Agent | 품질 검증 |
| Human-in-the-Loop Gate | 최종 승인 |
Infrastructure
- APIs: arXiv, Crossref, Semantic Scholar, PubMed
- Execution: Docker, Jupyter, pytest
- Storage: JSON Research Object DB + Vector indices
- Orchestration: LangGraph + Custom routing
- Optional: RLVR for policy optimization
Target Metrics
| Metric | Target |
|---|---|
| Citation Extraction Accuracy | ≥ 95% |
| Full-text Retrieval Rate | ≥ 70% |
| Context Token Reduction | 50%+ |
| Reproduction Error Threshold | ≤ 5% |
Current Status
파이프라인의 각 단계는 독립적으로 작동합니다. 전체 자율 오케스트레이션은 안정화 진행 중입니다.
Production-ready: 논문 구조화, 인용 그래프 구성 In Progress: 자율 실험 재현, 확장점 탐색 Research Phase: 코드 없는 논문의 방법론 기반 재현
Early access 및 협업 문의: founder@multi-turn.ai