LangChain Skills — AI 코딩 에이전트 성능 혁신

LangChain Claude Code AI Agent Skills

AI 코딩 에이전트의 성능을
4배 끌어올리는 Skills

LangChain이 AI 코딩 에이전트용 Skills를 공개했습니다. Claude Code의 LangChain 태스크 통과율이 25%에서 95%로 올라갔습니다.

2026 · 03 · 10

Resources Performance Progressive Disclosure 3 Repos Insights Self-Improvement

Resources

Links

NotebookLM으로 생성한 슬라이드

Performance

숫자가 말해주는 변화

같은 모델, 같은 에이전트인데 스킬 하나로 이 정도 차이가 납니다.

LangChain 태스크

25% → 95%

에이전트 구축 태스크 통과율

LangSmith 태스크

17% → 92%

트레이싱 & 평가 태스크

일반 태스크

9% → 82%

전반적인 태스크 완료율

Claude Code에게 LangChain으로 에이전트를 만들라고 하면, 스킬 없이는 4번 중 1번(25%)만 성공합니다. 스킬을 장착하면 95%. 같은 도구인데 사용 설명서가 있느냐 없느냐의 차이입니다.

Design Principle

Progressive Disclosure

핵심 설계 원리는 "점진적 공개"입니다. 모든 가이드를 처음부터 넣으면 오히려 성능이 떨어집니다.

문제 컨텍스트AI 모델에게 제공하는 배경 정보. 컨텍스트가 방대해질수록 AI가 핵심 정보를 놓칠 확률이 높아집니다.가 방대해질수록 AI의 추론 성능은 저하됩니다. 모든 매뉴얼을 한 번에 주면 오히려 혼란을 일으킵니다.

해결 에이전트가 특정 난관에 부딪힐 때만, 해당 도메인의 전문 매뉴얼을 동적으로 로드합니다. "모두 알려주기"에서 "필요할 때 꺼내 쓰기"로의 전환.

"모든 것을 알려주는 것이 아니라, 필요할 때 정확한 것을 꺼내주는 것. 그것이 Skills의 핵심입니다."

Repositories

공개된 3개 레포지토리

스킬은 마크다운 파일과 스크립트로 구성되어 있어서, Claude Code뿐 아니라 Cursor, Windsurf 등 어떤 코딩 에이전트에도 이식할 수 있습니다.

🔧

langchain-skills

LangChain / LangGraph / Deep Agents 구축용

11종 스킬 제공
에이전트 아키텍처 가이드
그래프 기반 워크플로우

🔍

langsmith-skills

트레이싱, 데이터셋 구축, 에이전트 평가

3종 스킬 제공
실행 추적 & 디버깅
자동 평가 파이프라인

📊

skills-benchmarks

스킬 성능을 정량적으로 측정하는 평가 프레임워크

Before/After 비교
태스크별 통과율 측정
스킬 호출 정확도 분석

Findings

평가에서 나온 발견들

스킬은 만드는 것보다 적절히 호출되게 하는 것이 더 어렵습니다.

주의 스킬이 항상 올바르게 호출되지는 않았습니다. 특정 태스크에서 관련 스킬 호출률이 70%에 머무는 경우도 있었습니다.

핵심 유사한 스킬이 20개일 때는 오작동이 생겼지만, 12개로 줄이자 정확도가 높아졌습니다. 스킬 수에도 적정선이 존재합니다.

팁 AGENTS.mdAI 코딩 에이전트에게 프로젝트 컨텍스트를 알려주는 설정 파일. CLAUDE.md, .cursorrules 등 도구마다 다른 이름을 사용합니다.나 CLAUDE.md에 "언제 어떤 스킬을 쓰라"고 명시해야 일관성이 올라갔습니다.

Key Takeaway

스킬의 품질만큼이나 스킬 라우팅(어떤 상황에서 어떤 스킬을 호출할지)이 중요합니다. 스킬이 많아질수록 명시적인 호출 규칙이 필요합니다.

Self-Improvement

LangSmith 자기개선 루프

에이전트가 에이전트를 개선하는 흐름이 터미널 기반으로 가능해집니다.

에이전트가 자기 실행 트레이스를 LangSmith로 보내고, 그걸 분석해서 문제점을 파악하고, 테스트 데이터셋과 평가자를 스스로 만드는 자기개선 루프. LangChain은 이 방향이 앞으로의 주류가 될 거라고 보고 있습니다.

🤖

Agent

태스크 실행

→

📡

LangSmith

트레이스 수집 & 분석

→

🧪

Evaluate

데이터셋 & 평가자 생성

→

🔄

Improve

스킬 개선 & 반복