Episode 04: Recording Pipeline & AI Shownotes (Trilogy)

Episode 04: Recording Pipeline & AI Shownotes (Trilogy)

Datum: 09.02.2026 | Zeit: 19:51 - 23:15 (CET)

Recording IDs: 008, 009, 010 (3 parts)

Status: ✅ Complete


Über diese Episode

Eine technische Deep-Dive Trilogy! Wir haben eine komplette automatische Recording-Pipeline deployed, die BBB-Aufnahmen verarbeitet, transkribiert und AI-generierte Shownotes erstellt. Die längste Session bisher mit 3 Parts!

Session Parts

Part Recording ID Zeit (CET) Dauer Status Inhalt
Part 1 008 19:51 22 min ✅ Processed Pipeline deployment, erste Transkription
Part 2 009 20:26 98 min ✅ Processed Obsidian sync, Knowledge graphs, Player accounts
Part 3 010 22:05 228 min (3h 48min) ✅ Transcribed Nextcloud Sync, OCR Invoicing, Quest Processing

Total Duration: ~6 hours (across 3 parts)

Teilnehmer

  • Emil

    • Alex

    Themen & Tags

    • Recording-Pipeline

      • Whisper-Transcription

        • AI-Shownotes

          • Ollama-LLM

            • BBB-Processing

              • BBB-Debugging

                • Redis-Pubsub

                  • FFmpeg-Fixes

                  🚀 Recording Pipeline

                  Das Highlight dieser Episode! Wir haben eine vollautomatische Pipeline deployed:

                  BBB Recording → Extract → Convert → Transcribe → Shownotes → Package
                                     ↓         ↓          ↓            ↓          ↓
                                 raw files   MP3/MP4   SRT/VTT    AI Summary   .tar.gz

                  Deployed Scripts

                  Auf bbb.foss.systems:/opt/liveplay-processing/scripts/:

                  Script Funktion
                  bbb-list-recordings.sh Verfügbare Aufnahmen auflisten
                  extract-media.sh Raw-Dateien extrahieren
                  process-media.sh Opus→WAV/MP3, WebM→MP4
                  transcribe-whisper.sh Deutsche Transkription
                  generate-shownotes.sh AI-Zusammenfassung mit Ollama
                  package-episode.sh Tarball erstellen
                  process-all.sh Master-Orchestrator

                  Technologie-Stack

                  • Whisper (base model) - Deutsche Spracherkennung
                  • Ollama (llama3.2:3b) - AI Shownotes Generation
                  • FFmpeg - Media-Konvertierung
                  • Python - Metadata-Extraktion

                  Part 1: Pipeline Deployment

                  Was wurde gemacht?

                  • ✅ 7 Processing-Scripts auf BBB-Server deployed
                  • ✅ Whisper & Ollama installiert und konfiguriert
                  • ✅ Erste Aufnahme verarbeitet (22 Minuten → 2271 Wörter)
                  • ✅ AI-Shownotes generiert mit Kapitelmarkern
                  • ✅ Episode als 145MB Tarball paketiert

                  Verarbeitete Ausgabe

                  episode-04-2026-02-09/
                  ├── manifest.json
                  ├── media/
                  │   ├── audio.mp3 (16MB)
                  │   ├── audio.opus (10MB)
                  │   └── deskshare.mp4 (48MB)
                  ├── transcripts/
                  │   ├── transcript-full.txt
                  │   ├── transcript.srt
                  │   ├── transcript.vtt
                  │   └── transcript.json
                  └── shownotes/
                      └── summary.md

                  Part 2: Dashboard & Accounts

                  Was wurde gemacht?

                  • ✅ Dashboard aktualisiert (13 Quests, 4 Episoden)
                  • ✅ 6 individuelle Player-Accounts erstellt
                  • ✅ Episode 03 & 04 zur Website hinzugefügt
                  • ✅ Quest 013 (WhisperX Speaker Diarization) erstellt

                  Neue Player-Accounts

                  Player Role
                  emil Member (Admin)
                  alex Member (Admin)
                  boba Player
                  yuri Player
                  fcpennerschnaps Player
                  gogo Player

                  Part 3: Nextcloud Sync & OCR Success (3h 48min)

                  Vollständig transkribiert: ✅ 2,437 Segmente, 228 Minuten

                  Was wurde gemacht?

                  • Nextcloud Sync erfolgreich - 4.7 GB Recording-Daten (352 Dateien, 143 Ordner)
                  • OCR Rechnungsgenerierung - Von 1h manuell auf 1 Minute automatisch!
                  • Quest System Testing - Alex mit Full Admin Access
                  • Chunked Transcription - 8 × 30min Segmente mit Whisper "small" model
                  • Knowledge Graph Demo - AI Agents mit Kontext

                  Teilnehmer Part 3

                  • Emil - Pipeline Development, Whisper Integration
                  • Alex - Community Coordination, Quest System
                  • Yuri, Gogo, Jens, Boba - Testing, Feedback, Community

                  Highlights

                  📊 OCR-Workflow Erfolg:

                  • Handschriftliche Notizen automatisch erkannt
                  • Vorher: 1+ Stunde manuelle Eingabe
                  • Jetzt: 1 Minute (Foto → OCR → Rechnung)
                  • Use Case: Stiefbruder schickt handschriftlichen Zettel → Foto → KI erkennt 1:1 alle Positionen

                  🔧 Technische Achievements:

                  • BBB Recordings automatisch zu Nextcloud synchronisiert
                  • Whisper Transcription in 5 Formaten (TXT, SRT, VTT, TSV, JSON)
                  • Knowledge Graph Visualisierung für AI Agent Context

                  Probleme & Lösungen

                  Problem: Python-Syntax-Fehler verhindert Merge der Transcription-Chunks Status: Gefixt am 2026-02-17 Impact: Blockierte Episode-Verarbeitung (CRITICAL)

                  Problem: Audio-Qualität bei Boba's Recording (Quest 002) Status: Open, Critical Priority XP: 150 XP

                  Neue Quest-Kandidaten aus Part 3

                  • Fix Python Syntax Error - 50 XP (Critical) - ✅ FIXED
                  • Better Naming for BBB Recordings - 100 XP (Medium)
                  • Upgrade Recording Sync Pipeline - 300 XP (Medium)
                  • AI Agent Context System - 250 XP (Low/Experimental)

                  Transkript-Details

                  • Dauer: 3h 48min (228 Minuten)
                  • Segmente: 2,437 Whisper segments
                  • Zeilen: 2,456 lines
                  • Formate: TXT (88 KB), SRT (171 KB), VTT (158 KB), TSV (123 KB), JSON (1.3 MB)
                  • Model: Whisper "small" (Deutsch)
                  • Processing: Chunked (8 × 30min)

                  Neue Quest

                  🗣️ Quest 013: WhisperX Speaker Diarization

                  Ziel: "Wer hat was gesagt" zu Transkriptionen hinzufügen

                  Requirements:

                  • HuggingFace Account
                  • pyannote/speaker-diarization Modell
                  • WhisperX Installation

                  Output-Format:

                  [00:00:00] SPEAKER_00: Ich habe hier einen Grundgeräusche...
                  [00:00:23] SPEAKER_01: ich weiß, ich könnte die Waschmaschine sein...

                  Status: New | XP: 400 | Assignee: @emil


                  Topics Discussed

                  Technische Themen

                  • BBB Recording-Struktur (raw vs published)
                  • Whisper-Modelle (base vs medium vs large)
                  • Ollama lokale LLM-Inferenz
                  • Speaker Diarization mit pyannote

                  Projekte erwähnt

                  • Obsidian vault sync via Nextcloud/Git
                  • Nikita's Multiple Intelligences Framework
                  • Corinna's Marms Downtown Projekt

                  Downloads & Ressourcen

                  Transkripte

                  AI-Shownotes

                  Scripts


                  Part 3: BBB Debugging & Fixes

                  BBB Pubsub Disconnection Issue

                  Während Part 3 wurden wir mehrfach aus dem BBB-Meeting geworfen. Die Ursache wurde identifiziert:

                  Problem: Redis Pubsub Failures durch Server-Überlastung

                  Zeit (UTC) Event
                  20:44:18 Pubsub Error - Disconnection
                  20:45:46 Recovered (1.5 min Ausfall)
                  23:10:42 Pubsub Error - Disconnection
                  23:12:47 Recovered (2 min Ausfall)

                  Root Cause:

                  • BBB Server hat nur 7.6GB RAM
                  • Whisper Transkription verbraucht ~1GB zusätzlich
                  • Load Average stieg auf 29.89
                  • Redis konnte Pubsub-Messages nicht mehr verarbeiten

                  Lösung: Schwere Transkriptions-Jobs außerhalb der Live-Sessions oder auf separatem Server ausführen.

                  Video Conversion Fix

                  Problem: FFmpeg H.264 Encoding schlägt bei ungeraden Dimensionen fehl

                  [libx264] width not divisible by 2 (371x494)

                  Fix angewandt: Padding-Filter zu process-media.sh hinzugefügt:

                  -vf "pad=ceil(iw/2)*2:ceil(ih/2)*2"

                  Dies paddet Videos mit ungeraden Dimensionen automatisch auf gerade Werte.


                  Statistiken

                  • Session-Dauer: ~6 Stunden (Trilogy: Part 1: 22min, Part 2: 98min, Part 3: 228min)
                  • Recording IDs: 008, 009, 010
                  • Transkribierte Minuten: 348 (alle 3 Parts vollständig)
                  • Transkript-Segmente: 2,437 (Part 3 allein)
                  • Wörter transkribiert: ~20,000+
                  • Scripts deployed: 7
                  • Scripts gefixt: 2 (process-media.sh, whisper-merge Python bug)
                  • Neue Quests: 1 (Quest 013)
                  • Quest Candidates: 4 (aus Part 3 diskutiert)
                  • Neue Accounts: 6
                  • Bugs gefunden: 3 (Pubsub, Video dimensions, Python syntax)
                  • BBB Known Issues dokumentiert: 2
                  • Nextcloud Sync: 4.7 GB (352 files, 143 folders)
                  • OCR Workflow: Von 1h → 1min (100x speedup!)

                  Links & Referenzen

                  Tools & Projekte

                  Verwandte Episoden


                  Alle Episoden | Vorherige Episode | Nächste Episode | Dashboard