test: Added automatic primary→fallback LLM endpoint switching in ChatSe…

- "backend/chat_service.py" - "backend/tests/test_chat.py" - "docker-compose.yml" GSD-Task: S08/T01
2026-04-04 14:31:28 +00:00 · 2026-04-04 14:31:28 +00:00 · 7b048ccbaf
commit 7b048ccbaf
parent f2edb1f375
3 changed files with 165 additions and 2 deletions
--- a/backend/chat_service.py
+++ b/backend/chat_service.py
@ -59,6 +59,10 @@ class ChatService:
            base_url=settings.llm_api_url,
            api_key=settings.llm_api_key,
        )
        self._fallback_openai = openai.AsyncOpenAI(
            base_url=settings.llm_fallback_url,
            api_key=settings.llm_api_key,
        )
        self._redis = redis
    async def _load_history(self, conversation_id: str) -> list[dict[str, str]]:
@ -244,6 +248,7 @@ class ChatService:
        accumulated_response = ""
        usage_data: dict[str, int] | None = None
        fallback_used = False
        try:
            stream = await self._openai.chat.completions.create(
@ -269,6 +274,44 @@ class ChatService:
                    accumulated_response += text
                    yield _sse("token", text)
        except (openai.APIConnectionError, openai.APITimeoutError, openai.InternalServerError) as exc:
            logger.warning(
                "chat_llm_fallback primary failed (%s: %s), retrying with fallback at %s",
                type(exc).__name__, exc, self.settings.llm_fallback_url,
            )
            fallback_used = True
            accumulated_response = ""
            usage_data = None
            try:
                stream = await self._fallback_openai.chat.completions.create(
                    model=self.settings.llm_fallback_model,
                    messages=messages,
                    stream=True,
                    stream_options={"include_usage": True},
                    temperature=temperature,
                    max_tokens=2048,
                )
                async for chunk in stream:
                    if hasattr(chunk, "usage") and chunk.usage is not None:
                        usage_data = {
                            "prompt_tokens": chunk.usage.prompt_tokens or 0,
                            "completion_tokens": chunk.usage.completion_tokens or 0,
                            "total_tokens": chunk.usage.total_tokens or 0,
                        }
                    choice = chunk.choices[0] if chunk.choices else None
                    if choice and choice.delta and choice.delta.content:
                        text = choice.delta.content
                        accumulated_response += text
                        yield _sse("token", text)
            except Exception:
                tb = traceback.format_exc()
                logger.error("chat_llm_error fallback also failed query=%r cid=%s\n%s", query, conversation_id, tb)
                yield _sse("error", {"message": "LLM generation failed"})
                return
        except Exception:
            tb = traceback.format_exc()
            logger.error("chat_llm_error query=%r cid=%s\n%s", query, conversation_id, tb)
@ -301,7 +344,7 @@ class ChatService:
            query=query,
            usage=usage_data,
            cascade_tier=cascade_tier,
-            model=self.settings.llm_model,
+            model=self.settings.llm_fallback_model if fallback_used else self.settings.llm_model,
            latency_ms=latency_ms,
        )
@ -311,7 +354,7 @@ class ChatService:
            query, creator, cascade_tier, len(sources), latency_ms, conversation_id,
            usage_data.get("total_tokens", 0),
        )
-        yield _sse("done", {"cascade_tier": cascade_tier, "conversation_id": conversation_id})
+        yield _sse("done", {"cascade_tier": cascade_tier, "conversation_id": conversation_id, "fallback_used": fallback_used})
 # ── Helpers ──────────────────────────────────────────────────────────────────
--- a/backend/tests/test_chat.py
+++ b/backend/tests/test_chat.py
@ -20,6 +20,7 @@ from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
 import pytest_asyncio
 import openai
 from httpx import ASGITransport, AsyncClient
 # Ensure backend/ is on sys.path
@ -958,3 +959,120 @@ async def test_personality_weight_string_returns_422(chat_client):
        json={"query": "test", "personality_weight": "high"},
    )
    assert resp.status_code == 422
 # ── LLM fallback tests ──────────────────────────────────────────────────────
@pytest.mark.asyncio
 async def test_chat_fallback_on_connection_error(chat_client):
    """When primary LLM raises APIConnectionError, fallback client serves the response."""
    search_result = _fake_search_result()
    # Primary client raises on create()
    mock_primary = MagicMock()
    mock_primary.chat.completions.create = AsyncMock(
        side_effect=openai.APIConnectionError(request=MagicMock()),
    )
    # Fallback client succeeds
    mock_fallback = MagicMock()
    mock_fallback.chat.completions.create = AsyncMock(
        return_value=_mock_openai_stream(["fallback ", "answer"]),
    )
    # AsyncOpenAI is called 3 times in ChatService.__init__:
    #   1. SearchService (irrelevant, search is mocked)
    #   2. self._openai (primary)
    #   3. self._fallback_openai (fallback)
    call_count = 0
    def _make_client(**kwargs):
        nonlocal call_count
        call_count += 1
        if call_count == 2:
            return mock_primary
        if call_count == 3:
            return mock_fallback
        return MagicMock()
    with (
        patch("chat_service.SearchService.search", new_callable=AsyncMock, return_value=search_result),
        patch("chat_service.openai.AsyncOpenAI", side_effect=_make_client),
    ):
        resp = await chat_client.post("/api/v1/chat", json={"query": "test fallback"})
    assert resp.status_code == 200
    events = _parse_sse(resp.text)
    event_types = [e["event"] for e in events]
    assert "sources" in event_types
    assert "token" in event_types
    assert "done" in event_types
    assert "error" not in event_types
    # Verify tokens came from fallback
    token_texts = [e["data"] for e in events if e["event"] == "token"]
    combined = "".join(token_texts)
    assert "fallback answer" in combined
    # Done event should have fallback_used=True
    done_data = next(e for e in events if e["event"] == "done")["data"]
    assert done_data["fallback_used"] is True
@pytest.mark.asyncio
 async def test_chat_fallback_on_internal_server_error(chat_client):
    """When primary LLM raises InternalServerError, fallback client serves the response."""
    search_result = _fake_search_result()
    # Primary client raises InternalServerError on create()
    mock_primary = MagicMock()
    mock_primary.chat.completions.create = AsyncMock(
        side_effect=openai.InternalServerError(
            message="GPU OOM",
            response=MagicMock(status_code=500),
            body=None,
        ),
    )
    # Fallback client succeeds
    mock_fallback = MagicMock()
    mock_fallback.chat.completions.create = AsyncMock(
        return_value=_mock_openai_stream(["recovered ", "response"]),
    )
    call_count = 0
    def _make_client(**kwargs):
        nonlocal call_count
        call_count += 1
        if call_count == 2:
            return mock_primary
        if call_count == 3:
            return mock_fallback
        return MagicMock()
    with (
        patch("chat_service.SearchService.search", new_callable=AsyncMock, return_value=search_result),
        patch("chat_service.openai.AsyncOpenAI", side_effect=_make_client),
    ):
        resp = await chat_client.post("/api/v1/chat", json={"query": "test ise fallback"})
    assert resp.status_code == 200
    events = _parse_sse(resp.text)
    event_types = [e["event"] for e in events]
    assert "sources" in event_types
    assert "token" in event_types
    assert "done" in event_types
    assert "error" not in event_types
    # Verify tokens from fallback
    token_texts = [e["data"] for e in events if e["event"] == "token"]
    combined = "".join(token_texts)
    assert "recovered response" in combined
    # Done event should have fallback_used=True
    done_data = next(e for e in events if e["event"] == "done")["data"]
    assert done_data["fallback_used"] is True
--- a/docker-compose.yml
+++ b/docker-compose.yml
@ -121,6 +121,8 @@ services:
      REDIS_URL: redis://chrysopedia-redis:6379/0
      QDRANT_URL: http://chrysopedia-qdrant:6333
      EMBEDDING_API_URL: http://chrysopedia-ollama:11434/v1
      LLM_FALLBACK_URL: http://chrysopedia-ollama:11434/v1
      LLM_FALLBACK_MODEL: fyn-llm-agent-chat
      PROMPTS_PATH: /prompts
    volumes:
      - /vmPool/r/services/chrysopedia_data:/data