Add vibe-aware playlists with CLAP text embeddings

Blend taste profile with text-embedded mood descriptions (e.g. "chill ambient lo-fi") using pre-blended vector search against the existing HNSW index. New optional `vibe` and `alpha` params on playlist generate and recommendations endpoints. Backward compatible — no vibe = pure taste profile (alpha=1.0). Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-02-22 13:14:28 -06:00
parent 23fd0e9804
commit 1b739fbd20
9 changed files with 146 additions and 12 deletions
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -41,6 +41,16 @@ curl http://192.168.86.51:8321/api/recommendations?limit=20
 curl -X POST http://192.168.86.51:8321/api/playlists/generate \
  -H "Content-Type: application/json" \
  -d '{"total_tracks":20,"known_pct":30,"speaker_entity":"media_player.living_room_speaker_2","auto_play":true}'
 # Generate a vibe-based playlist (mood/activity matching)
 curl -X POST http://192.168.86.51:8321/api/playlists/generate \
  -H "Content-Type: application/json" \
  -d '{"total_tracks":15,"vibe":"chill ambient lo-fi","speaker_entity":"media_player.living_room_speaker_2","auto_play":true}'
 # Vibe with custom blend (alpha: 0=pure vibe, 0.5=blend, 1=pure taste)
 curl -X POST http://192.168.86.51:8321/api/playlists/generate \
  -H "Content-Type: application/json" \
  -d '{"total_tracks":15,"vibe":"upbeat party music","alpha":0.3,"auto_play":true,"speaker_entity":"media_player.living_room_speaker_2"}'
 ```
 ## Environment Variables
--- a/README.md
+++ b/README.md
@@ -51,7 +51,7 @@ docker exec haunt-fm alembic upgrade head
 | POST | `/api/history/webhook` | Log a listen event (from HA automation) |
 | POST | `/api/admin/discover` | Expand listening history via Last.fm |
 | POST | `/api/admin/build-taste-profile` | Rebuild taste profile from embeddings |
-| GET | `/api/recommendations?limit=50` | Get ranked recommendations |
+| GET | `/api/recommendations?limit=50&vibe=chill+ambient` | Get ranked recommendations (optional vibe) |
 | POST | `/api/playlists/generate` | Generate and optionally play a playlist |
 ## Usage
@@ -69,11 +69,26 @@ curl -X POST http://192.168.86.51:8321/api/playlists/generate \
  }'
 ```
 ### Generate a vibe-based playlist
 ```bash
 curl -X POST http://192.168.86.51:8321/api/playlists/generate \
  -H "Content-Type: application/json" \
  -d '{
    "total_tracks": 15,
    "vibe": "chill ambient lo-fi",
    "speaker_entity": "media_player.living_room_speaker_2",
    "auto_play": true
  }'
 ```
 **Parameters:**
 - `total_tracks` — number of tracks in the playlist (default 20)
 - `known_pct` — percentage of known-liked tracks vs new discoveries (default 30)
 - `speaker_entity` — Music Assistant entity ID (must be a `_2` suffix entity)
 - `auto_play` — `true` to immediately play on the speaker
 - `vibe` — text description of the desired mood/vibe (e.g. "chill lo-fi beats", "upbeat party music"). Uses CLAP text embeddings to match tracks in the same vector space as audio.
 - `alpha` — blend factor between taste profile and vibe (default 0.5). `1.0` = pure taste profile, `0.0` = pure vibe match, `0.5` = equal blend. Ignored when no vibe is provided.
 ### Speaker entities
@@ -113,6 +128,9 @@ curl -X POST http://192.168.86.51:8321/api/admin/build-taste-profile
 # Get recommendations (without playing)
 curl http://192.168.86.51:8321/api/recommendations?limit=20
 # Get vibe-matched recommendations
 curl "http://192.168.86.51:8321/api/recommendations?limit=20&vibe=dark+electronic&alpha=0.3"
 ```
 ## Pipeline Stages
--- a/alembic/versions/002_add_playlist_vibe.py
+++ b/alembic/versions/002_add_playlist_vibe.py
@@ -0,0 +1,26 @@
 """Add vibe and alpha columns to playlists
 Revision ID: 002
 Revises: 001
 Create Date: 2026-02-22
 """
 from typing import Sequence, Union
 import sqlalchemy as sa
 from alembic import op
 revision: str = "002"
 down_revision: Union[str, None] = "001"
 branch_labels: Union[str, Sequence[str], None] = None
 depends_on: Union[str, Sequence[str], None] = None
 def upgrade() -> None:
    op.add_column("playlists", sa.Column("vibe", sa.Text, nullable=True))
    op.add_column("playlists", sa.Column("alpha", sa.REAL, nullable=True))
 def downgrade() -> None:
    op.drop_column("playlists", "alpha")
    op.drop_column("playlists", "vibe")
--- a/src/haunt_fm/api/playlists.py
+++ b/src/haunt_fm/api/playlists.py
@@ -1,5 +1,5 @@
 from fastapi import APIRouter, Depends
-from pydantic import BaseModel
+from pydantic import BaseModel, Field
 from sqlalchemy import select
 from sqlalchemy.ext.asyncio import AsyncSession
@@ -17,15 +17,31 @@ class GenerateRequest(BaseModel):
    name: str | None = None
    speaker_entity: str | None = None
    auto_play: bool = False
    vibe: str | None = None
    alpha: float = Field(default=0.5, ge=0.0, le=1.0)
@router.post("/generate")
 async def generate(req: GenerateRequest, session: AsyncSession = Depends(get_session)):
    # Compute text embedding for vibe description
    vibe_embedding = None
    if req.vibe:
        from haunt_fm.services.embedding import embed_text, is_model_loaded, load_model
        if not is_model_loaded():
            load_model()
        vibe_embedding = embed_text(req.vibe)
    # Force pure taste when no vibe provided (preserves current behavior)
    alpha = req.alpha if req.vibe else 1.0
    playlist = await generate_playlist(
        session,
        total_tracks=req.total_tracks,
        known_pct=req.known_pct,
        name=req.name,
        vibe_embedding=vibe_embedding,
        alpha=alpha,
        vibe_text=req.vibe,
    )
    # Load playlist tracks with track info
@@ -58,6 +74,8 @@ async def generate(req: GenerateRequest, session: AsyncSession = Depends(get_ses
        "name": playlist.name,
        "total_tracks": playlist.total_tracks,
        "known_pct": playlist.known_pct,
        "vibe": playlist.vibe,
        "alpha": playlist.alpha,
        "tracks": track_list,
        "auto_played": req.auto_play and req.speaker_entity is not None,
    }
--- a/src/haunt_fm/api/recommendations.py
+++ b/src/haunt_fm/api/recommendations.py
@@ -11,9 +11,22 @@ router = APIRouter(prefix="/api")
 async def recommendations(
    limit: int = Query(default=50, ge=1, le=200),
    include_known: bool = Query(default=False),
    vibe: str | None = Query(default=None),
    alpha: float = Query(default=0.5, ge=0.0, le=1.0),
    session: AsyncSession = Depends(get_session),
 ):
    vibe_embedding = None
    if vibe:
        from haunt_fm.services.embedding import embed_text, is_model_loaded, load_model
        if not is_model_loaded():
            load_model()
        vibe_embedding = embed_text(vibe)
    # Force pure taste when no vibe provided
    effective_alpha = alpha if vibe else 1.0
    results = await get_recommendations(
-        session, limit=limit, exclude_known=not include_known
+        session, limit=limit, exclude_known=not include_known,
        vibe_embedding=vibe_embedding, alpha=effective_alpha,
    )
-    return {"recommendations": results, "count": len(results)}
+    return {"recommendations": results, "count": len(results), "vibe": vibe, "alpha": effective_alpha}
--- a/src/haunt_fm/models/track.py
+++ b/src/haunt_fm/models/track.py
@@ -94,6 +94,8 @@ class Playlist(Base):
    name: Mapped[str | None] = mapped_column(Text)
    known_pct: Mapped[int] = mapped_column(Integer, nullable=False)
    total_tracks: Mapped[int] = mapped_column(Integer, nullable=False)
    vibe: Mapped[str | None] = mapped_column(Text)
    alpha: Mapped[float | None] = mapped_column(REAL)
    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), server_default=func.now())
    tracks: Mapped[list["PlaylistTrack"]] = relationship(back_populates="playlist", cascade="all, delete-orphan")
--- a/src/haunt_fm/services/embedding.py
+++ b/src/haunt_fm/services/embedding.py
@@ -53,3 +53,23 @@ def embed_audio(audio: np.ndarray, sample_rate: int = 48000) -> np.ndarray:
    # Normalize to unit vector
    emb = emb / np.linalg.norm(emb)
    return emb
 def embed_text(text: str) -> np.ndarray:
    """Embed a text description into the same 512-dim CLAP space as audio."""
    import torch
    if _model is None or _processor is None:
        raise RuntimeError("CLAP model not loaded. Call load_model() first.")
    inputs = _processor(text=[text], return_tensors="pt", padding=True)
    with torch.no_grad():
        output = _model.get_text_features(**inputs)
    if hasattr(output, "pooler_output"):
        emb = output.pooler_output[0].numpy()
    else:
        emb = output[0].numpy()
    emb = emb / np.linalg.norm(emb)
    return emb
--- a/src/haunt_fm/services/playlist_generator.py
+++ b/src/haunt_fm/services/playlist_generator.py
@@ -1,6 +1,7 @@
 import logging
 import random
 import numpy as np
 from sqlalchemy import func, select
 from sqlalchemy.ext.asyncio import AsyncSession
@@ -20,6 +21,9 @@ async def generate_playlist(
    total_tracks: int = 20,
    known_pct: int = 30,
    name: str | None = None,
    vibe_embedding: np.ndarray | None = None,
    alpha: float = 0.5,
    vibe_text: str | None = None,
 ) -> Playlist:
    """Generate a playlist mixing known-liked tracks with new recommendations.
@@ -48,7 +52,10 @@ async def generate_playlist(
        new_count = total_tracks - known_count
    # Get new recommendations
-    recs = await get_recommendations(session, limit=new_count * 2, exclude_known=True)
+    recs = await get_recommendations(
        session, limit=new_count * 2, exclude_known=True,
        vibe_embedding=vibe_embedding, alpha=alpha,
    )
    new_tracks = [(r["track_id"], r["similarity"]) for r in recs[:new_count]]
    # Interleave: spread known tracks throughout the playlist
@@ -84,6 +91,8 @@ async def generate_playlist(
        name=name or f"haunt-fm mix ({len(interleaved)} tracks)",
        known_pct=known_pct,
        total_tracks=len(interleaved),
        vibe=vibe_text,
        alpha=alpha if vibe_text else None,
    )
    session.add(playlist)
    await session.flush()
--- a/src/haunt_fm/services/recommender.py
+++ b/src/haunt_fm/services/recommender.py
@@ -1,5 +1,6 @@
 import logging
 import numpy as np
 from sqlalchemy import select, text
 from sqlalchemy.ext.asyncio import AsyncSession
@@ -18,22 +19,40 @@ async def get_recommendations(
    limit: int = 50,
    exclude_known: bool = True,
    profile_name: str = "default",
    vibe_embedding: np.ndarray | None = None,
    alpha: float = 0.5,
 ) -> list[dict]:
-    """Get track recommendations ranked by cosine similarity to taste profile."""
+    """Get track recommendations ranked by cosine similarity to taste profile.
    Args:
        vibe_embedding: Optional 512-dim text embedding for vibe/mood matching.
        alpha: Blend factor. 1.0 = pure taste, 0.0 = pure vibe, 0.5 = equal blend.
    """
    # Load taste profile
    profile = (
        await session.execute(select(TasteProfile).where(TasteProfile.name == profile_name))
    ).scalar_one_or_none()
-    if profile is None:
+    if profile is None and vibe_embedding is None:
        return []
    # Determine query vector: blend taste profile with vibe embedding
    if vibe_embedding is not None and profile is not None:
        taste_emb = np.array(profile.embedding, dtype=np.float32)
        vibe_emb = vibe_embedding.astype(np.float32)
        query_emb = alpha * taste_emb + (1.0 - alpha) * vibe_emb
        norm = np.linalg.norm(query_emb)
        if norm > 0:
            query_emb = query_emb / norm
    elif vibe_embedding is not None:
        # No taste profile yet — pure vibe (cold start)
        query_emb = vibe_embedding.astype(np.float32)
    else:
        query_emb = np.array(profile.embedding, dtype=np.float32)
    # Use pgvector cosine distance operator (<=>)
    # Lower distance = more similar
    if exclude_known:
        # Subquery: track IDs that have listen events
        known_ids_subq = select(ListenEvent.track_id).distinct().subquery()
        query = text("""
            SELECT t.id, t.title, t.artist, t.album, t.genre,
                   1 - (te.embedding <=> :profile_embedding) AS similarity
@@ -54,8 +73,7 @@ async def get_recommendations(
        """)
    # Format embedding as pgvector literal: [n1,n2,...]
-    emb = profile.embedding
+    emb_str = "[" + ",".join(str(float(x)) for x in query_emb) + "]"
    emb_str = "[" + ",".join(str(float(x)) for x in emb) + "]"
    result = await session.execute(
        query,