Realtime Voice AI · Settings

Agent

대화의 두뇌

스트리밍 토큰을 받아 자연스러운 한국어 대화로 이어줍니다. MCP 도구와 로컬 메모리를 함께 사용할 수 있습니다.

Backend: -
Provider: -
Model: -
Temp: -

Agent runtime

백엔드, 모델, MCP 도구 호출 방식을 한 곳에서 설정합니다.

Agent backend LangChain Agent는 langchain, langchain-openai, langchain-mcp-adapters 패키지가 필요합니다. LLM provider Base URL 모델 목록에서 고르거나 served model id를 직접 입력할 수 있습니다.

모델 목록을 아직 불러오지 않았습니다.

LangChain system prompt Direct router는 기본 음성 대화 프롬프트를 사용하고, LangChain Agent 선택 시 이 프롬프트가 우선 적용됩니다.

응답 스타일

Temperature 0 → 결정적, 1 → 창의적. 음성 대화는 0.6–0.9 권장. 최대 토큰 한 응답의 최대 토큰 수. 길게 답하려면 1024 이상 권장. 응답 최소 문장 수 시스템 프롬프트에 강제되는 최소 문장 수. 짧은 단답을 막습니다. 응답 최대 문장 수 시스템 프롬프트의 상한. 너무 길어지면 TTS 지연이 커집니다.

MCP 도구 연결

외부 도구를 Agent가 필요할 때 호출합니다.

MCP 사용 켜면 Agent가 필요한 경우 MCP 도구를 호출한 뒤 답변합니다. 최대 도구 수 타임아웃 (초)

서버를 폼으로 편집하면 아래 JSON에 자동 반영됩니다. transport: streamable-http(권장) 또는 stdio.

MCP servers JSON (raw) 고급: 직접 편집. 위 폼과 양방향 동기화됩니다. MCP 도구를 아직 확인하지 않았습니다.

로컬 메모리

SQLite DB에 대화 내용을 저장하고 다음 답변에 참고합니다.

메모리 사용 켜면 대화 턴을 로컬 DB에 저장하고 최근 대화를 prompt에 포함합니다. DB 경로 사용자 ID 최근 턴 수 메모리 상태를 아직 확인하지 않았습니다.

Input

음성을 글로

Whisper 또는 Qwen3-ASR vLLM 서버를 통해 한국어/영어 발화를 텍스트로 옮기고, 응답 언어를 자동으로 라우팅합니다.

Provider: -
ASR language: -
Response language: -

Provider

Provider ASR language auto이면 Whisper가 한국어/영어를 먼저 감지합니다. ko/en으로 고정할 수도 있습니다. Response language auto이면 사용자 발화 언어에 맞춰 LLM/TTS가 한국어 또는 영어로 동작합니다. 언어 자동 감지 ASR 결과와 텍스트 비율로 ko/en을 결정합니다.

ASR 민감도

무음/잡음 오인식과 너무 짧은 발화 판정을 조절합니다.

최소 confidence 높을수록 보수적. 말했는데 무시되면 낮추고, 잡음이 텍스트가 되면 올리세요. No speech threshold Whisper 무음 판정 기준. 높이면 더 잘 받아쓰지만 환각 가능성이 늘 수 있습니다. Logprob threshold 낮을수록 더 많이 통과. 잡음 텍스트가 나오면 -0.6 근처로 올리세요. RMS threshold ASR 전 최소 음량. 마이크 입력이 약하면 낮추세요.

Whisper

provider=whisper / faster-whisper

Whisper model 로컬 .pt 경로 또는 huggingface 모델 이름.

Qwen3-ASR vLLM

provider=qwen3-vllm

Base URL Model

Turn taking

말 시작과 끊김 감지

RMS 에너지 기반 검출과 다단계 barge-in 게이트로 잡음에 의한 오탐을 줄입니다.

Provider: -
Threshold: -
Min speech: -

Detector

Provider Energy threshold 조용한 환경: 0.008–0.012, 시끄러운 환경: 0.018+. Speech start (ms) Speech stop (ms) 사용자가 잠깐 쉬어도 끊지 않도록 기본 2000ms를 권장합니다. Min speech (ms) Min RMS

Barge-in

사용자가 끼어들 때 응답을 끊는 조건

VAD 감지 즉시 중단 켜면 AI가 말하는 중 speech start가 감지되는 즉시 LLM/TTS/WebSocket audio를 중단합니다. Confirm (ms) Min audio (ms) Noise multiplier noise floor × multiplier 이상이면 음성으로 인정. Barge-in RMS 임계값 사용자 음성이 이 RMS 이상이어야 TTS를 끊습니다. 0이면 noise floor 자동 계산만 사용.

Speaker Gate

등록된 목소리만 ASR과 barge-in 통과

Enable speaker gate 켜면 등록된 화자와 유사한 음성만 대화 turn으로 인정합니다. Provider 발화자 이름 웹 이벤트와 로그에 표시되는 등록 화자 라벨입니다. Similarity threshold 높을수록 엄격. ECAPA 기본 권장 시작값: 0.35. Enroll min (ms) Reference path 웹의 Enroll Voice 버튼으로 이 경로에 기준 목소리를 저장합니다.

Output

음성으로 답하기

기본값은 별도 vLLM-Omni 서버의 Qwen3-TTS WebSocket 스트리밍입니다. 브라우저에는 raw PCM을 그대로 중계합니다.

Provider: -
Voice: -
Sample rate: -

Provider

Provider Sample rate (Hz) vLLM-Omni streaming PCM은 24,000 Hz mono raw PCM으로 고정됩니다. Audio format

vLLM-Omni Qwen3-TTS Streaming

provider=vllm-omni

Base URL WebSocket endpoint는 자동으로 /v1/audio/speech/stream을 사용합니다. Voice Task type Language Split granularity Timeout (s) Instructions vLLM-Omni session.config의 instructions로 전달됩니다.

Qwen3 Direct Fallback

provider=qwen3 · FastAPI 내부 모델 로딩

Model Speaker 한국어 대화는 공식 native Korean speaker인 Sohee 권장. Language Instruct prompt 화자에게 전달되는 톤/스타일 지시. 줄바꿈 가능.

Kokoro 82M

provider=kokoro

Model 공식 Kokoro-82M repo ID. 첫 실행 시 Hugging Face에서 가중치를 내려받습니다. Language code Voice voice prefix와 lang_code가 맞아야 자연스럽습니다. 예: af_*는 lang_code=a. Speed 한국어 응답을 읽힐 때는 0.9~1.0 정도가 덜 급합니다.

Kokoro-82M 공식 voice 목록에는 한국어 voice가 없습니다. 한국어 자연스러움은 Qwen3 TTS가 더 적합하고, Kokoro는 영어/일본어/중국어 등 경량 빠른 TTS가 필요할 때 쓰는 옵션입니다.

HTTP TTS

provider=http / cosyvoice-http

Base URL Endpoint

Agents

외부 에이전트 서버 등록

Hermes 같은 외부 에이전트 서버의 IP를 등록하면, 설정 화면 옆 Agents 라이브 페이지에서 작업을 지시하고 응답을 실시간으로 볼 수 있습니다.

Enabled: -
Timeout: -
Servers: 0

매니저 설정

비활성화하면 /agents 페이지와 dispatch API가 비활성화됩니다.

Agent manager 사용 켜면 등록된 외부 에이전트에 health 체크와 dispatch API가 열립니다. Dispatch timeout (초) 긴 작업이라면 60–300초로 늘리세요. 라이브 페이지 열기 Agents 페이지에서 dispatch와 health 체크가 가능합니다.

등록된 에이전트

이름, base_url, capabilities, dispatch endpoint를 폼으로 편집합니다.

기본 dispatch_path는 /v1/tasks, health_path는 /health. 인증이 필요한 서버는 auth_header(예: Authorization)와 auth_value를 채우세요.

agents_servers_json (raw) 고급: 직접 편집. 위 폼과 양방향 동기화됩니다.

Runtime

웜업 & 오디오 I/O

모델 프리로드와 워밍업 메시지, 오디오 샘플 레이트를 제어합니다.

Preload: -
Warmup: -

Warmup

Preload models before accepting traffic 서버 시작 시 ASR/LLM/TTS를 미리 로드. 첫 응답 지연이 줄어듭니다. Warmup text qwen3 TTS 첫 추론으로 사용. 짧은 한국어 문장 권장.