🔥 2026년 2월 최신 업데이트

한국 AI의 글로벌 혁신

비드래프트(VIDraft)가 이끄는 K-AI 커뮤니티의 최신 연구, 제품, 뉴스

200만+
월간 활성 사용자
3,000만+
누적 방문자
#4
HF 히트맵 세계순위
#5
FINAL Bench 데이터셋 글로벌
1,500+
공개 AI 모델·서비스
🔴

Breaking News

2026.03
🔬

Research & Products

📌

이전 주요 뉴스

🏆 허깅페이스 금주의 스페이스 선정

FINAL Bench

Frontier Intelligence Nexus for AGI-Level Verification
세계 최초 AI 메타인지 기능 벤치마크

AGI의 진짜 병목은 자기교정이다

MMLU 90%대 포화 시대. 기존 벤치마크는 "정답을 맞혔는가?"만 물었다.
FINAL Bench는 "틀렸을 때 무엇을 했는가?"를 묻는다.
인지심리학 40년 이론(Nelson & Narens, 1990)을 AI에 최초 적용.

100
평가 과제
15
도메인
8
TICOS 메타인지 유형
9
SOTA 모델 평가
1,800
총 평가 건수
🔍

3대 핵심 발견

📉

Finding 1: MA-ER Gap = 0.392

"틀릴 수 있다"고 말하는 능력(MA=0.694)과 실제로 교정하는 능력(ER=0.302) 사이 극심한 괴리. 선언적 지식 ≠ 절차적 실행.

🧱

Finding 2: ER 바닥효과 79.6%

ER 축 0.250~0.450 범위에 79.6%의 모델이 몰림. 향후 수년간 포화되지 않을 새로운 변별 기준 확립.

🎯

Finding 3: 자기교정 기여 114.7%

자기교정 적용 시 전체 성능 향상(+9.30점)의 114.7%가 ER 단일 축에서 발생. 나머지 4축 합산은 오히려 마이너스.

🎰

Prompt & Dump: 메타인지 응용 실험

🔏

StealthMark: AI Safety 기술

📊 Unified AI Benchmark · v2.1 · 2026.03

ALL Bench Leaderboard

LLM · VLM · Agent · Image · Video · Music — 91개 AI 모델을 하나의 프레임워크로 통합 평가하는 세계 유일의 벤치마크

91
평가 모델 수
6
모달리티
12
벤치마크 컬럼
3
교차검증 단계
5
복합 점수 축

🔗 K-AI 벤치마크 생태계: 진단 → 치료 → 종합 평가

🏆
FINAL Bench
AI 메타인지 진단
100과제 × 15도메인 × 8 TICOS
MA-ER Gap 0.392 발견
🛡️
MARL
환각 감소 미들웨어
5단계 자기검증 파이프라인
ER 능력 실제로 강화
📊
ALL Bench
통합 종합 평가
91 모델 × 6 모달리티
교차검증 신뢰도 시스템

FINAL Bench가 메타인지의 격차를 진단하고, MARL이 그 격차를 실제로 메우는 치료제라면,
ALL Bench는 모든 AI 능력을 하나의 프레임워크로 통합 평가하여 모델 간 진정한 비교를 가능하게 합니다.

🔍

기존 AI 벤치마크의 구조적 문제

📈

벤치마크 포화

MMLU 점수가 2022년 70%에서 2025년 90%+ 상승. 상위 10개 모델이 2% 범위 안에 몰려 변별력 상실.

🧩

파편화된 평가

LLM, VLM, 이미지, 비디오, 음악 벤치마크가 각각 분리. 모델의 종합 능력을 비교할 프레임워크 부재.

검증 부재

벤치마크 점수의 출처와 신뢰도를 확인할 수 없음. 자기 보고식 점수가 그대로 수용되는 구조.

🎯

5축 복합 점수 설계

AXIS 1

추론 (Reasoning)

GPQA · AIME · MATH — 논리적 사고와 수학적 추론

AXIS 2

코딩 (Coding)

SWE-V · LCB — 실제 소프트웨어 엔지니어링

AXIS 3

지식 (Knowledge)

MMLU · HLE — 전문 지식과 난해 문제

AXIS 4

메타인지 (Metacognition)

FINAL Score — 자기교정 · 오류 인식 (TICOS 기반)

AXIS 5

에이전트 (Agent)

TAU · WebArena — 도구 사용과 자율 행동

3단계 교차검증 신뢰도 시스템

✓✓
Double Verified

공식 기술보고서 + 독립 재현 실험 2중 확인 완료

Single Verified

공식 발표 또는 단일 독립 검증 확인

~
Approximate

커뮤니티 보고 또는 간접 추정 (출처 명시)

📸

ALL Bench Leaderboard 실제 화면

ALL Bench Leaderboard Main
종합 리더보드 — 91개 모델 Composite Score 순위
ALL Bench VLM Tab
VLM 비전 언어 모델 벤치마크 비교
ALL Bench Agent Tab
AI Agent 벤치마크
ALL Bench Image Generation
이미지 생성 모델 평가
ALL Bench Video Generation
비디오 생성 모델 평가
ALL Bench Music Generation
음악 생성 모델 평가
ALL Bench Tools
분석 도구: 모델 비교 · 레이더 차트
ALL Bench Intelligence Report
Intelligence Report (PDF/DOCX 다운로드)
ALL Bench Charts
시각화 차트 · 가격 대비 성능 분석
ALL Bench Info
벤치마크 방법론 · 출처 상세 정보
ALL Bench Dark Mode
다크 모드 · 모바일 반응형
💡

ALL Bench 핵심 인사이트

📉 MMLU 90%+ 포화 시대의 새 기준

MMLU가 포화된 상황에서 HLE(Harvard-Level Exam), LCB(LiveCodeBench), FINAL Score가 새로운 변별 축으로 부상. 상위 모델도 HLE에서 52% 미만.

🔬 VLM 평가의 비대칭성 발견

텍스트 능력과 시각 능력 사이의 비대칭 격차를 세계 최초로 정량화. 동일 모델이 텍스트 90%+, 시각 50% 미만인 경우 다수 발견.

💰 가격 대비 성능의 혁신

오픈소스 모델이 유료 모델 대비 1/100 가격에 90% 성능을 달성하는 전환점 도달. 가격 효율성이 모델 선택의 핵심 변수로 부상.

ALL Bench Leaderboard 바로가기

91개 모델 · 6개 모달리티 · 교차검증 신뢰도 시스템 · 실시간 업데이트

🏆 Live Leaderboard 🤗 HuggingFace Dataset 📖 HF Blog 💻 GitHub
🌟 글로벌 성과

비드래프트 글로벌 성과

한국이 낳은 AI 혁신 — 세계가 인정한 기술력

허깅페이스 실시간 트렌딩 순위

TOP 100 진입
총 좋아요
최고 순위
🔄
새로고침
📡
허깅페이스 API에서 실시간 데이터를 불러오는 중...

📡 로딩 중...

허깅페이스 데이터셋 실시간 트렌딩 순위

최고 순위
총 좋아요
총 다운로드
🔄
새로고침
📡
허깅페이스 API에서 데이터셋 순위를 불러오는 중...

📡 로딩 중...

🚀

AI 서비스 포트폴리오

💥

HumanGen.AI — AI Creative Playground

42개 AI 모델 통합 플랫폼. 이미지·비디오·오디오·3D·텍스트 생성. MAU 210만+, 월 500만+ 창작물.

LIVE 42 Models MAU 2.1M+
📈

AI 주식 리서치 센터 v5.5

S&P 500·NASDAQ·DOW 실시간 분석. SOMA 멀티에이전트(조사자→비평가→감독자) 협업 시스템. TOP 30 종목 심층 분석+PDF 리포트.

LIVE SOMA Agent Real-time
🍽️

Michelin AGI Recipe System v3.2

미슐랭급 AI 레시피 생성. AGI 기반 요리 지능 시스템으로 재료·조리법·플레이팅까지 자동 설계.

LIVE AGI Food-AI
💡

IP NOW AI — 특허·지식재산 AI

AI 기반 특허 분석·아이디어 발굴·선행기술 조사. 지식재산 전략 수립 자동화 플랫폼.

LIVE IP/Patent Streamlit
💼

Biz AI — 비즈니스 AI 플랫폼

AI 기반 비즈니스 자동화 도구. 기업 업무 효율화·문서 생성·데이터 분석 통합 솔루션.

LIVE Enterprise Automation
🤖

AGI-CHAT — 범용 지능 채팅

Pre-AGI 기반 대화형 AI. SOMA+SLAI+메타인지 파이프라인 통합. 자기교정·다중지능 오케스트레이션.

Pre-AGI HF Space SOMA
📡

KT AI 서비스 데모

KT 통신 분야 AI 적용 데모. 대형 통신사 맞춤 AI 솔루션 프로토타입.

HF Space Telecom B2B
🥇

Gold AI — 금 시세 분석

AI 기반 금 시세 분석·예측. 실시간 귀금속 시장 데이터 시각화·투자 인사이트.

HF Space Finance Real-time
📚

PDF Book — AI 도서 생성

텍스트·PDF에서 AI 지능형 도서 콘텐츠 생성. 자동 편집·레이아웃·목차 구성.

HF Space AI Gen Publishing

Smol AI WorldCup

소형 AI 모델(≤8B) 토너먼트 대회. FINAL Bench 기반 자동 채점·리더보드 운영. 데이터셋 동시 공개.

HF Space Benchmark Tournament
🏆

FINAL Bench 데이터셋 글로벌 5위

허깅페이스 전체 데이터셋 인기순위 글로벌 5위 달성. AI 메타인지 벤치마크의 글로벌 표준 확립.

허깅페이스 '금주의 스페이스' 선정

매주 수천 개 AI 서비스 웹앱 중 단 8개만 엄선하는 '주간 명예의 전당'에 FINAL Bench Leaderboard 선정.

🌍

히트맵 리더보드 세계 4위

허깅페이스 10만+ 조직 중 히트맵 리더보드 세계 4위. 1,500종 이상 AI 모델·서비스 공개 운영.

🏅

STAR AI TOP 12 (한국 유일)

2024년 허깅페이스 본사 선정 글로벌 STAR AI TOP 12. MS, FLUX와 함께 한국 기업 유일 선정.

🥈

CNRS 의료 AI 세계 2위

프랑스 국립과학연구원(CNRS) FACTS Grounding 리더보드 의료 AI LLM 부문 세계 2위.

👥

MAU 200만 · 누적 3,000만

월간 활성 사용자 200만 명, 누적 방문자 3,000만 명 돌파. 3명 개발자로 운영하는 경이적 효율.

🧬

Pre-AGI 단계 도달

FINAL Bench 기준 AGI 5단계(Partial→Proto→Pre→Pass→Post) 중 Pre-AGI 레벨 도달. AETHER 5대 기둥 기반.

🏦

NH농협 · NIPA 선정

NH농협 오픈이노베이션 선정, NIPA AI컴퓨팅 자원 지원과제(H200 GPU×8) 선정.

Smol AI WorldCup — 스페이스

소형 AI 모델(≤8B) 토너먼트 대회 플랫폼. 허깅페이스 스페이스로 공개 운영 중. 🔗 Space

📊

Smol AI WorldCup — 데이터셋

Smol AI WorldCup 대회 전체 평가 결과·모델 성능 데이터 공개 데이터셋. 🔗 Dataset

💼

비즈니스 혁신 사례

🧬 Darwin 플랫폼으로 AI 모델 진화

이종 모델 교배로 성능 30% 향상된 새 모델을 1-2시간만에 자동 생성. 기존 대비 1/1,000 비용.

🎬 지블리 열풍의 주인공

자체 이미지 학습/생성 모델 개발하여 지블리 열풍 당시 허깅페이스 전체 순위 2위. 50만+ 다운로드.

🏦 대형 은행 AI 프로그램 선발

설립 1년차 스타트업이 대형 은행 AI 육성 프로그램에 선발되어 투자와 지원 확보.

🌏

글로벌 인정

🇯🇵 일본 AI 커뮤니티 주목

일본 AI 커뮤니티에서 VIDraft R1984 모델을 상세 분석하고 높은 기술력 평가.

🇨🇳 중국 MiraclePlus 특집

중국 테크 미디어 MiraclePlus가 VIDraft의 AI 기술을 심층 분석한 특집 기사 발행.

🌐 PromptLayer · AIModels.fyi · ModelScope

글로벌 AI 플랫폼 3곳이 동시에 VIDraft 모델을 추천 모델로 선정 또는 공식 등록.

K-AI 커뮤니티 서밋 2025

국회 대강당에서 열린 한국 AI 커뮤니티의 대표 행사

K-AI Community Summit 2025 Poster
🎬

영상

영화 을지문덕 트레일러

해바라기 강석범 감독 — K-AI 커뮤니티 서밋 2025

구윤철 경제부총리 축사

K-AI 커뮤니티 서밋 2025 — 국회 대강당

📰

서밋 관련 보도

Download📥 발표자료 다운로드

K-AI 커뮤니티 서밋 2025 전체 발표자료

📚

K-AI 커뮤니티 서밋 2025
발표자료 모음

최신 AI 기술 트렌드와 혁신적인 사례들을 확인해보세요.
파일: 0723.zip | 포함: 발표 슬라이드, 데모 자료, 참고 문서

📥 발표자료 다운로드
📄

FINAL Bench 논문
(Official Paper v5)

Frontier Intelligence Nexus for AGI-Level Verification
Kim, Kim, Choi, Jang (2026) · 메타인지 벤치마크 정식 학술 논문

📄 논문 PDF 다운로드 📎 SSRN 온라인 보기 →
🧬 Pre-AGI Architecture

AETHER Pre-AGI

범용 인공지능(AGI)을 향한 비드래프트의 이론적 토대와 핵심 기술

🛡️ NEW — 2026.03 FINAL Bench 진단 → MARL 치료

MARL: 파인튜닝 없이 LLM 환각을 줄이는
런타임 미들웨어

MARL (Model-Agnostic Runtime Middleware for LLMs)은 모델 가중치를 건드리지 않고 런타임에 5단계 멀티에이전트 자기검증 파이프라인을 삽입하여 LLM 환각을 줄이는 미들웨어입니다. 코드 한 줄(base_url)만 변경하면 GPT, Claude, Gemini, Llama 등 모든 OpenAI API 호환 LLM에 즉시 적용됩니다.

70%+
최고난도 과제 성능 향상
94.8%
개선이 ER(자기교정)에서 발생
5단계
멀티에이전트 파이프라인
9종
도메인 특화 창발성 엔진

🔄 5-Stage Multi-Agent Self-Verification Pipeline

S1: Hypothesis
최적 접근법 설계
S2: Solver
심층 추론 수행
S3: Auditor
누락·모순 감사
S4: Verifier
적대적 교차검증
S5: Synthesizer
최종 응답 재생성

📊 Fine-Tuning도, RAG도 아닌 제3의 접근법

Fine-Tuning RAG MARL ✅
대상모델 가중치 수정외부 지식 보강추론 과정 재구조화
비용GPU 수만 달러벡터 DB 인프라코드 1줄
시간수주수일즉시
모델 종속특정 모델 종속모델 무관모델 무관
MARL Architecture Overview
MARL A/B Comparison Demo
MARL Emergence Engines

🔗 FINAL Bench (진단) → MARL (치료)

FINAL Bench
"AI 메타인지 능력을 정량 측정"
MA-ER Gap = 0.392 발견
TICOS 8유형 분류 체계
MARL
"그 격차를 실제로 메움"
5단계 자기검증으로 ER 강화
TICOS 유형별 최적화 검증 전략
🤗 Live Demo 📖 HF Blog 📦 PyPI 💻 GitHub 📰 매일경제 — 웨어큐브 전략 협약

AETHER 아키텍처

Autonomous Evolving Thinking & Hierarchical Emergent Reasoning

자율 진화 사고 & 계층적 창발 추론 — 5대 기둥 기반 Pre-AGI 프레임워크

🌀
창발성 엔진
Emergence
🪞
메타인지
Meta-Cognition
🧬
SLAI 자가진화
Self-Learning AI
🐝
다중지능
Swarm Intelligence
☯️
Cooperative-Adversarial Dynamics
Synergy & Check
5
핵심 기둥
8
TICOS 메타인지 유형
3
에이전트 계층
8
기술 포트폴리오
🏛️

AETHER 5대 핵심 기둥

01
🌀
Pillar 1 — Emergence

창발성 (Emergence Engine)

개별 에이전트의 단순한 규칙 상호작용에서 예측 불가능한 고차원 지능이 자연 발생하는 메커니즘. Lattice Interaction Matrix(5×5) 구조를 통해 에이전트 간 상호작용 가중치를 최적화하며, Local Rule → Global Order Phase Transition을 유도합니다. 복잡계 이론(Complex Systems Theory)과 셀룰러 오토마타(Cellular Automata)에 기반한 AGI의 근본 원리.

02
🪞
Pillar 2 — Meta-Cognition

메타인지 (자기반성 + 자가수정)

AI가 자신의 사고 과정을 감시·평가·교정하는 능력. TICOS(8가지 메타인지 유형) 체계를 통해 ①불확실성 인식 ②한계 인정 ③오류 탐지 ④자기 교정 ⑤근거 검증 ⑥일관성 유지 ⑦신뢰도 보정 ⑧선택적 응답 거부를 구현합니다. FINAL Bench가 이 능력을 세계 최초로 정량 측정.

03
🧬
Pillar 3 — Self-Learning AI (SLAI)

자가진화 영구학습 (SLAI)

외부 학습 데이터 없이 스스로 지식을 생성·검증·축적하는 자율 진화 시스템. Darwin 플랫폼으로 구현되며, 이종 모델 교배를 통해 기존 대비 1/1,000 비용으로 성능 30% 향상된 새 모델을 자동 생성합니다. 정지 없는 영구 학습(Perpetual Learning) 아키텍처.

04
🐝
Pillar 4 — Swarm Intelligence

다중지능 팀 협업 (MOUSE)

SOMA(Supervisor → Operator → Manager → Analyst) 멀티에이전트 아키텍처 기반. 각 에이전트가 전문 역할을 수행하며 군집 지능으로 복잡한 과제를 협업 해결합니다. 단일 모델의 한계를 초월하는 집단 지성 시스템.

05
☯️
Pillar 5 — Synergy & Antagonism

Cooperative-Adversarial Dynamics (시너지 + 견제)

Cooperative Dynamics: 에이전트 간 Positive-Sum Interaction으로 앙상블 증폭(Ensemble Amplification) 효과 생성. Adversarial Dynamics: Cross-Validation 및 Red-Teaming 메커니즘으로 환각(Hallucination) 최소화. Prompt & Dump 실험에서 입증 — Adversarial Agent가 수익률을 개선하고, Herding Bias를 억제합니다.

🎯

TICOS 메타인지 분류 체계

TICOS(Taxonomy of Internal Cognitive Oversight Signatures)는 AI의 메타인지 능력을 8가지 유형으로 분류한 세계 최초의 체계적 프레임워크입니다. FINAL Bench는 이 체계를 기반으로 100과제×15도메인×8유형×3난이도에 걸쳐 AI 모델의 자기인식 능력을 정량 측정합니다.

T1. 불확실성 인식
Uncertainty Recognition — 모르는 것을 아는 능력
T2. 한계 인정
Limitation Acknowledgment — 자신의 경계를 아는 겸손
T3. 오류 탐지
Error Detection — 스스로 틀림을 감지하는 능력
T4. 자기 교정
Self-Correction — 발견한 오류를 실제 수정하는 실행력
T5. 근거 기반 검증
Evidence-Based Verification — 주장에 대한 증거 확인
T6. 일관성 유지
Consistency Maintenance — 논리적 모순 방지
T7. 신뢰도 보정
Confidence Calibration — 확신 수준의 정확한 보정
T8. 선택적 응답 거부
Selective Abstention — 틀릴 바에야 답하지 않는 지혜
🤖

SOMA 멀티에이전트 아키텍처

👑
Supervisor
감독자 · 최종 판단
⚙️
Operator
실행자 · 태스크 수행
📋
Manager
관리자 · 워크플로 조율
🔍
Analyst
분석가 · 비평 + 검증

SOMA는 단일 모델의 한계를 초월하기 위한 멀티에이전트 협업 프레임워크입니다.
각 에이전트가 전문화된 역할을 수행하며, 상호 견제와 협력을 통해 환각을 최소화하고 결과의 신뢰도를 극대화합니다.
AI 주식 리서치 센터, Prompt & Dump 등 실제 서비스에서 운용 검증 완료.

🗺️

AGI 로드맵

LEVEL 1 — 통과

Partial-AGI (부분 범용 지능)

특정 단일 태스크에서 인간 수준 도달. 기초 아키텍처 설계 및 단일 에이전트 기반 추론 시스템 구현. 초기 메타인지 개념 정립.

LEVEL 2 — 통과

Proto-AGI (원시 범용 지능)

5대 기둥 아키텍처 설계 완료. SOMA 멀티에이전트 프레임워크 구현. Darwin 자가진화 모델 생성. TICOS 메타인지 분류 체계 수립. 기술 포트폴리오 8건 구축.

★ LEVEL 3 — 현재 달성

Pre-AGI (사전 범용 지능)

FINAL Bench로 메타인지 정량 측정 체계 세계 최초 확립. 자기교정(ER) 능력의 정량화 및 MA-ER Gap 발견. Prompt & Dump 사회 시뮬레이션 검증 완료. Cooperative-Adversarial Dynamics 메커니즘을 통한 환각 억제 실증. 다중 도메인 간 지식 전이 초기 구현.

LEVEL 4 — 목표

Pass-AGI (통과 범용 지능)

FINAL Bench 전 도메인에서 인간 전문가 수준 통과. SLAI 영구학습으로 실시간 지식 자가 업데이트. MA-ER Gap 해소 — 선언적 지식과 절차적 실행 일치. ER 바닥효과 돌파.

LEVEL 5 — 비전

Post-AGI (초월 범용 지능)

도메인 제약 없는 범용 추론·학습·창작. 자기 인식과 자율적 목표 설정. 인간을 초월하는 다중 인지 능력 통합. AETHER 아키텍처의 궁극적 실현.

FINAL Bench AGI 단계 스케일

Partial
✅ 통과
Proto
✅ 통과
Pre
★ 현재
AETHER
Pass
목표
Post
비전

Partial < Proto < Pre < Pass < Post

🔬

핵심 연구 발견

📉

MA-ER Gap = 0.392

"나는 틀릴 수 있다"고 선언하는 능력(MA=0.694)과 실제로 교정하는 능력(ER=0.302) 사이에는 극심한 격차가 존재합니다. 선언적 지식 ≠ 절차적 실행 — 이것이 AGI의 진짜 병목입니다.

🧱

ER 바닥효과 79.6%

실행적 교정(ER) 축에서 0.250~0.450 범위에 전체 모델의 79.6%가 집중됩니다. 현존 최고 모델들도 자기교정에서는 초보 수준이며, 이 축이 향후 수년간 포화되지 않을 변별 기준입니다.

🎯

자기교정 기여 114.7%

자기교정 적용 시 전체 성능 향상(+9.30점)의 114.7%가 ER 단일 축에서 발생합니다. 나머지 4축 합산은 오히려 마이너스. AGI로 가는 열쇠는 자기교정 능력입니다.

📜

기술 포트폴리오 (8건)

1
Lattice 5×5 창발성 엔진

에이전트 상호작용 가중치 행렬(Interaction Weight Matrix) 기반 창발적 지능 발현 시스템 설계

2
TICOS 메타인지 분류 체계

AI 내부 인지 감시 서명 분류 및 측정 프레임워크

3
SLAI 자가진화 영구학습

외부 데이터 없이 자율 학습·검증·축적하는 AI 시스템

4
SOMA 멀티에이전트 협업

감독자-실행자-관리자-분석가 4계층 자율 협업 구조

5
MOUSE 군집지능 재구성

다중 에이전트 군집 의사결정 및 동적 역할 재배치

6
Cooperative-Adversarial Dynamics 방법 특허

Cooperative-Adversarial Dual Optimization을 통한 환각 억제 및 강건성 향상 방법론

7
창발성 엔진 독립 강화

복잡계 이론 기반 자율 창발 지능 생성 장치

8
범용 AGI 프레임워크

모델 규모 무관 범용 Pre-AGI 아키텍처 시스템

🧬

MARL: 메타인지 기반 환각 저감 기술

🧬

MARL — Model-Agnostic Runtime Middleware for LLMs

파인튜닝 없이, 코드 한 줄로 모든 LLM의 환각을 구조적으로 저감하는 런타임 미들웨어

FINAL Bench가 진단(Diagnosis)이라면, MARL은 치료(Treatment)입니다. FINAL Bench 연구에서 발견한 MA-ER Gap(0.392) — AI가 "틀릴 수 있다"고 알면서도 실제로 고치지 못하는 구조적 한계를 해결하기 위해 개발되었습니다. 현재의 LLM은 자기회귀(autoregressive) 방식으로 작동하여 한 번 토큰 생성이 시작되면 중간에 멈추고 "내가 틀렸다"고 되돌릴 수 없습니다. MARL은 이 구조적 한계를 다단계 자기검증 파이프라인으로 해결합니다.

🤗 Live Demo 📦 PyPI 🐙 GitHub 📄 HF Blog
pip install marl-middleware
# 기존 코드에서 base_url 한 줄만 추가
client = OpenAI(api_key="sk-...", base_url="http://localhost:8080/v1")
MARL Architecture — Multi-Agent Self-Verification Pipeline
핵심 아키텍처: 다단계 자기검증 파이프라인
하나의 LLM 호출을 5단계 전문가 역할로 분해합니다
MARL 9 Domain-Specific Emergence Engines
9개 도메인 특화 창발 엔진
5,538개 전문 데이터 항목이 다층 교차 결합되며, 각 엔진은 5개 독립 창발 규칙과 10개 교차 레이어 보너스 쌍을 보유합니다.
MARL and FINAL Bench Connection
FINAL Bench와의 연결
FINAL Bench(진단) → MARL(치료). MA-ER Gap을 다단계 자기검증으로 해소합니다.
🔍
S1: Hypothesis
최적 접근법 설계
🧠
S2: Solver
심층 추론 수행
🔬
S3: Auditor
허점·모순 감사
⚔️
S4: Verifier
적대적 교차검증
S5: Synthesizer
완전히 새로운 최종 응답

Fine-Tuning도 RAG도 아닌, 제3의 접근

Fine-Tuning
모델 가중치 수정
수만 달러 GPU 비용
특정 모델 종속
수 주 소요
RAG
외부 지식 보충
벡터 DB 인프라
모델 무관
지식 공백 해소
MARL ✦
추론 과정 재구조화
코드 한 줄
모든 모델 호환
추론 오류·환각 저감

기본 추론 강화 외에 발명·특허, 창작, 문서, 요리, 신약, 유전체, 화학, 생태, 법률 등 9개 전문 영역의 창발 엔진을 탑재하여 단일 LLM 호출로 불가능한 아이디어를 교차 생성합니다.

📄

학술적 토대

📊 리더보드

AI 모델 성능 평가 및 비교

🏆 ALL Bench Leaderboard 2026

LLM · VLM · Agent · 이미지 · 영상 · 음악 — 6개 모달리티 91개 AI 모델 통합 비교.
교차 검증 신뢰도 배지(✓✓/✓/~) · 5축 복합 점수 · Intelligence Report 자동 생성.

42 LLMs 11 VLMs 10 Agents 28 생성 모델 무료 API
ALL Bench 리더보드 바로가기 →

🏆 FINAL Bench Leaderboard

세계 최초 AI 메타인지 벤치마크.
오픈소스 모델 메타인지 능력 평가.

리더보드 바로가기 →

🏅 FINAL Bench Proprietary

GPT-4o, Claude, Gemini 등
상용 모델 전용 메타인지 평가.

리더보드 바로가기 →

🔥 히트맵 리더보드

AI 모델들의 성능을 히트맵으로 시각화.
다양한 벤치마크 성능을 한눈에 확인.

리더보드 바로가기 →

🇰🇷 코리안 히트맵 리더보드

한국어 AI 모델 성능을 히트맵으로 시각화.
한국어 특화 벤치마크 종합 비교.

리더보드 바로가기 →

🧪 FACTS Grounding Leaderboard

CNRS 주관 사실 기반 응답 능력 평가.
비드래프트 의료 AI LLM 부문 세계 2위 달성.

리더보드 바로가기 →