RHORPOST

Kevin Klein (mw ai)

01. Apr. 2026

VERARBEITET
00:0000:00

Zusammenfassung

Teilnehmer:
  • Kevin (Entwickler, präsentiert die neue App)
  • Frank (Projektmitglied, gibt Rückmeldung zum Aufwand)
  • Sabrina (User, hat 8‑Minuten‑Feedback‑Audio bereitgestellt)
  • Ina (Teilnehmerin an Meetings, erwähnt im Kontext)
  • Doreen (Teilnehmerin an Meetings, erwähnt im Kontext)
  • Claude (KI‑Assistenz, wird für Zusammenfassungen genutzt)

---

Besprochene Themen



| Thema | Kernaussagen |
|-------|--------------|
| Neue App für Sprach‑zu‑Text & Zusammenfassung | - Aufzeichnung von Sprach‑Nachrichten, automatisches Transkribieren und Zusammenfassen.
- Test mit Sabrina’s 8‑Minuten‑Feedback (≈ 2000 Wörter) → Verarbeitung in 1,5 Min. |
| Einsatzszenarien | - Meeting‑Zusammenfassungen (inkl. Kunden‑Meetings).
- Erstellung von Artikeln aus gesprochenem Input.
- Automatisierte Recherche, Mind‑Maps, Visualisierungen, Projekt‑Anlage (z. B. Authentifizierung, Sicherheit).
- Unterstützung bei Projekt‑Erstbesprechungen (statt langer Dokumentation). |
| Technische Basis | - Whisper (ASR) für Transkription.
- Probleme mit Speaker‑Diarization → Whisper allein erkennt Sprecher nicht zuverlässig.
- Optionen: Whisper X + Paynote‑Audio, AssemblyAI, Deepgram (eingebaute Diarization). |
| Datenbank/Deployment | - Aktuell SQLite → Probleme mit Windows‑/Linux‑Binaries.
- Vorschlag: Wechsel zu LibSQL oder anderer leichtgewichtiger DB.
- Bedarf an Audio‑Chunking (kleinere Segmente) für bessere Performance und weniger Halluzinationen. |
| Hosting & Infrastruktur | - Selbst‑Hosting erfordert GPU (z. B. RTX 4000, 20 GB VRAM).
- Kostenbeispiel: ≈ 254 €/Monat (2 TB Speicher, 64 GB RAM).
- Alternative: Cloud‑Anbieter mit Whisper Large V3 Turbo (z. B. Midjourney‑AI‑Hosting). |
| Weitere KI‑Tools | - Notebook LM für fortlaufende Projekt‑Dokumentation.
- Google Gemini getestet, aber Tages‑Limit überschritten.
- Claude Deep Sleep (Stream‑Modus) für Kontext‑Erweiterung. |
| Produkt‑Potential | - Tool könnte als Service (z. B. für Kunden‑Meetings) verkauft werden.
- Integration in bestehende Workflows (z. B. Notion, interne Plattform). |

---

Entscheidungen, die getroffen werden müssen



1. Speaker‑Diarization:
- Entscheidung, ob Whisper X + Paynote oder ein externer Service (AssemblyAI/Deepgram) eingesetzt wird.
2. Datenbank:
- Wechsel von SQLite zu einer robusteren Lösung (LibSQL o. Ä.) wegen Cross‑Platform‑Problemen.
3. Hosting‑Strategie:
- Auswahl zwischen Self‑Hosting (GPU‑Server) vs. Cloud‑Anbieter mit Whisper‑Turbo.
4. Produkt‑Roadmap:
- Ob das Tool als eigenständiges Produkt (z. B. Meeting‑Summarizer) vermarktet wird.

---

Offene Fragen



| Frage | Zuständig |
|-------|-----------|
| Wie zuverlässig ist die Sprecher‑Erkennung bei mehr als zwei Personen? | Kevin (Test mit 3‑Personen‑Meeting) |
| Welche Kosten‑/Leistungs‑Relation bietet das Cloud‑Whisper‑Turbo‑Modell im Vergleich zum eigenen GPU‑Server? | Frank (Kostenanalyse) |
| Wie lässt sich das Token‑Limit bei längeren Transkriptionen handhaben (Chunk‑Strategie, Max‑Token‑Einstellungen)? | Kevin |
| Welche konkreten Integrationspunkte gibt es zu bestehenden Tools (Notion, Notebook LM, etc.)? | Frank |
| Gibt es rechtliche / Datenschutz‑Bedenken beim automatischen Aufzeichnen von Meetings? | Projekt‑Legal (nicht im Gespräch genannt, aber zu prüfen) |

---

Bugs / UX‑Probleme



| Problem | Beschreibung | Vorschlag |
|---------|--------------|-----------|
| SQLite‑Binary‑Inkompatibilität (Windows ↔ Linux) | Fehlende Bibliotheken beim Deployment | Auf LibSQL oder andere portable DB umsteigen |
| Fehlende Speaker‑Labels in Transkriptionen | Whisper liefert nur monologische Texte | Integration von Diarization‑Modell (Whisper X, Paynote) |
| Lange Audiodateien führen zu Halluzinationen | Vollständige Dateien verlangsamen Verarbeitung | Vorab Audio‑Chunking (z. B. 5‑Min‑Segmente) |
| UI‑Feedback bei langen Texte (2000 Wörter) | Nutzer muss manuell irrelevante Parts entfernen | Automatischer Relevanz‑Filter (z. B. Prompt‑Optimierung) |

---

Konkrete Änderungswünsche / nächste Schritte



| To‑Do | Verantwortlich | Deadline |
|-------|----------------|----------|
| Implementierung von Audio‑Chunking (automatisches Aufteilen) | Kevin | 2 Wochen |
| Testlauf mit 3‑Personen‑Meeting (inkl. Sprecher‑Diarization) | Kevin | 1 Woche |
| Evaluierung von Whisper X + Paynote vs. AssemblyAI | Kevin & Frank | 2 Wochen |
| Migration der Datenbank zu LibSQL und Update des Deploy‑Scripts | Frank | 3 Wochen |
| Kosten‑Analyse für GPU‑Self‑Hosting vs. Cloud‑Whisper‑Turbo | Frank | 1 Woche |
| Erstellung eines Produkt‑Pitch‑Docs (Use‑Cases, Marktpotenzial) | Kevin | 4 Wochen |
| Prüfung von Datenschutz‑Richtlinien für Meeting‑Aufnahmen | (Projekt‑Legal) | 2 Wochen |
| Integration von Claude für automatisierte Zusammenfassungen (Prompt‑Feinabstimmung) | Kevin | 2 Wochen |
| Dokumentation der Token‑Limit‑Strategie (Chunk‑Größe, Max‑Tokens) | Kevin | 1 Woche |

---

*Hinweis: Alle genannten Zeitangaben sind geschätzt und sollten im nächsten Sprint-Planning bestätigt werden.*
9592 TOKENS$0.0540
Modelle vergleichen