multi-turn inc.

index

AI Scientist

논문을 읽고, 구조화하고, 재현하고, 확장하는 자율 연구 에이전트.

Preview — In Development


Overview

AI Scientist는 과학 논문을 기계가 다룰 수 있는 형태로 변환하고, 실험을 자동 재현하며, 확장 가능성을 탐색하는 자율 연구 에이전트입니다.

연구자가 매일 반복하는 작업 — 논문 파싱, 인용 추적, 환경 구성, 결과 검증 — 을 자동화하여, 연구의 속도를 높이고 재현성을 보장합니다.


Problem

과학 지식의 대부분은 PDF에 갇혀 있습니다.

작업소요 시간자동화 가능성
Literature Triage수 시간 / 논문높음
Reproduction Setup수 일 / 논문중간
Citation Network 구축수 시간높음
Extension Discovery가변적중간

이 작업들은 고도의 지적 판단이라기보다, 구조화된 정보 처리에 가깝습니다. 에이전트가 잘 할 수 있는 영역입니다.


Pipeline

StepStageDescription
01IngestionPDF / arXiv URL → 논문 구조 파싱 (제목, 섹션, 수식, 테이블, 그림)
02Citation Graph인용 논문 자동 추적 → 지식 그래프 구성
03RO CompilerClaim–Evidence–Method–Artifact 스키마로 변환
04VerificationDocker 환경에서 실험 재현 및 결과 비교
05Synthesis확장점 탐색 (ablation, 데이터셋, 하이퍼파라미터)

01 → 02 → 03 → 04 → 05. 각 단계의 출력이 다음 단계의 입력이 됩니다. 실패 시 자동 롤백 후 재시도.


Research Object Schema

논문은 다음과 같은 기계 판독 가능한 구조로 컴파일됩니다. 원본 대비 컨텍스트 비용 50% 이상 절감, 출처 정보 완전 보존.

{
  "paper_id": "arxiv:2405.21060",
  "title": "Transformers are SSMs",
  
  "claims": [{
    "id": "C1",
    "statement": "Mamba-2 achieves 8× throughput",
    "evidence": ["E1", "E2"],
    "confidence": 0.95
  }],
  
  "evidence": [{
    "id": "E1",
    "type": "table",
    "location": "Table 3",
    "reproducible": true
  }],
  
  "methods": [{
    "id": "M1",
    "description": "Structured State Space Duality",
    "artifacts": ["A1"]
  }],
  
  "artifacts": [{
    "id": "A1",
    "type": "code",
    "url": "github.com/state-spaces/mamba",
    "verified": true
  }]
}

Execution-Based Verification

요약이 아니라 실행입니다. 코드와 데이터가 있으면 Docker 컨테이너에서 실험을 재현하고, 보고된 지표와 자동 비교합니다.

  • Auto Environment Setup — 논문의 requirements에서 Docker 템플릿 자동 구성
  • Metric Comparison — 보고값 vs 재현값, 허용 오차 ≤5%
  • Mismatch Analysis — 불일치 시 원인 분석 및 수정 방안 제안

Cloud-Based Reproduction

GPU가 필요한 실험도 AWS 인프라에서 자동 프로비저닝합니다.

StageInfrastructure
ReproduceEC2 + SageMaker
VerifyAutomated Testing Pipeline
DeployOne-Click API Endpoint

Multi-Model Orchestration

단일 모델이 아닌, 작업 특성에 맞는 복수의 foundation model을 sub-agent로 조합합니다. Supervisor Agent가 작업을 동적으로 라우팅하고 결과를 종합합니다.

RoleModelStrength
Deep ReasoningClaude Opus 4.5복잡한 논증 구조 분석
Code ExecutionGPT 5.2 Pro코드 생성 및 실행
Long ContextGemini 3.0 Pro긴 논문 전문 처리

Agent Architecture

AgentRole
Supervisor / Planner전체 워크플로우 관리 및 작업 분배
Ingestion AgentPDF/URL 파싱
Citation Agent다중 소스 검색 (arXiv, Crossref, Semantic Scholar, PubMed)
RO Compiler Agent구조화 변환
Verification RunnerDocker 실행 및 지표 비교
Critic / QA Agent품질 검증
Human-in-the-Loop Gate최종 승인

Infrastructure

  • APIs: arXiv, Crossref, Semantic Scholar, PubMed
  • Execution: Docker, Jupyter, pytest
  • Storage: JSON Research Object DB + Vector indices
  • Orchestration: LangGraph + Custom routing
  • Optional: RLVR for policy optimization

Target Metrics

MetricTarget
Citation Extraction Accuracy≥ 95%
Full-text Retrieval Rate≥ 70%
Context Token Reduction50%+
Reproduction Error Threshold≤ 5%

Current Status

파이프라인의 각 단계는 독립적으로 작동합니다. 전체 자율 오케스트레이션은 안정화 진행 중입니다.

Production-ready: 논문 구조화, 인용 그래프 구성 In Progress: 자율 실험 재현, 확장점 탐색 Research Phase: 코드 없는 논문의 방법론 기반 재현


Early access 및 협업 문의: founder@multi-turn.ai

AI Scientist | Multi-turn Inc.