Kevin Klein (mw ai)

01. Apr. 2026

VERARBEITET

00:0000:00

Zusammenfassung

Teilnehmer:

Kevin (Entwickler, präsentiert die neue App)
Frank (Projektmitglied, gibt Rückmeldung zum Aufwand)
Sabrina (User, hat 8‑Minuten‑Feedback‑Audio bereitgestellt)
Ina (Teilnehmerin an Meetings, erwähnt im Kontext)
Doreen (Teilnehmerin an Meetings, erwähnt im Kontext)
Claude (KI‑Assistenz, wird für Zusammenfassungen genutzt)

---

Besprochene Themen

| Thema | Kernaussagen |
|-------|--------------|
| Neue App für Sprach‑zu‑Text & Zusammenfassung | - Aufzeichnung von Sprach‑Nachrichten, automatisches Transkribieren und Zusammenfassen.
- Test mit Sabrina’s 8‑Minuten‑Feedback (≈ 2000 Wörter) → Verarbeitung in 1,5 Min. |
| Einsatzszenarien | - Meeting‑Zusammenfassungen (inkl. Kunden‑Meetings).
- Erstellung von Artikeln aus gesprochenem Input.
- Automatisierte Recherche, Mind‑Maps, Visualisierungen, Projekt‑Anlage (z. B. Authentifizierung, Sicherheit).
- Unterstützung bei Projekt‑Erstbesprechungen (statt langer Dokumentation). |
| Technische Basis | - Whisper (ASR) für Transkription.
- Probleme mit Speaker‑Diarization → Whisper allein erkennt Sprecher nicht zuverlässig.
- Optionen: Whisper X + Paynote‑Audio, AssemblyAI, Deepgram (eingebaute Diarization). |
| Datenbank/Deployment | - Aktuell SQLite → Probleme mit Windows‑/Linux‑Binaries.
- Vorschlag: Wechsel zu LibSQL oder anderer leichtgewichtiger DB.
- Bedarf an Audio‑Chunking (kleinere Segmente) für bessere Performance und weniger Halluzinationen. |
| Hosting & Infrastruktur | - Selbst‑Hosting erfordert GPU (z. B. RTX 4000, 20 GB VRAM).
- Kostenbeispiel: ≈ 254 €/Monat (2 TB Speicher, 64 GB RAM).
- Alternative: Cloud‑Anbieter mit Whisper Large V3 Turbo (z. B. Midjourney‑AI‑Hosting). |
| Weitere KI‑Tools | - Notebook LM für fortlaufende Projekt‑Dokumentation.
- Google Gemini getestet, aber Tages‑Limit überschritten.
- Claude Deep Sleep (Stream‑Modus) für Kontext‑Erweiterung. |
| Produkt‑Potential | - Tool könnte als Service (z. B. für Kunden‑Meetings) verkauft werden.
- Integration in bestehende Workflows (z. B. Notion, interne Plattform). |

---

Entscheidungen, die getroffen werden müssen

1. Speaker‑Diarization:
- Entscheidung, ob Whisper X + Paynote oder ein externer Service (AssemblyAI/Deepgram) eingesetzt wird.
2. Datenbank:
- Wechsel von SQLite zu einer robusteren Lösung (LibSQL o. Ä.) wegen Cross‑Platform‑Problemen.
3. Hosting‑Strategie:
- Auswahl zwischen Self‑Hosting (GPU‑Server) vs. Cloud‑Anbieter mit Whisper‑Turbo.
4. Produkt‑Roadmap:
- Ob das Tool als eigenständiges Produkt (z. B. Meeting‑Summarizer) vermarktet wird.

---

Offene Fragen

| Frage | Zuständig |
|-------|-----------|
| Wie zuverlässig ist die Sprecher‑Erkennung bei mehr als zwei Personen? | Kevin (Test mit 3‑Personen‑Meeting) |
| Welche Kosten‑/Leistungs‑Relation bietet das Cloud‑Whisper‑Turbo‑Modell im Vergleich zum eigenen GPU‑Server? | Frank (Kostenanalyse) |
| Wie lässt sich das Token‑Limit bei längeren Transkriptionen handhaben (Chunk‑Strategie, Max‑Token‑Einstellungen)? | Kevin |
| Welche konkreten Integrationspunkte gibt es zu bestehenden Tools (Notion, Notebook LM, etc.)? | Frank |
| Gibt es rechtliche / Datenschutz‑Bedenken beim automatischen Aufzeichnen von Meetings? | Projekt‑Legal (nicht im Gespräch genannt, aber zu prüfen) |

---

Bugs / UX‑Probleme

| Problem | Beschreibung | Vorschlag |
|---------|--------------|-----------|
| SQLite‑Binary‑Inkompatibilität (Windows ↔ Linux) | Fehlende Bibliotheken beim Deployment | Auf LibSQL oder andere portable DB umsteigen |
| Fehlende Speaker‑Labels in Transkriptionen | Whisper liefert nur monologische Texte | Integration von Diarization‑Modell (Whisper X, Paynote) |
| Lange Audiodateien führen zu Halluzinationen | Vollständige Dateien verlangsamen Verarbeitung | Vorab Audio‑Chunking (z. B. 5‑Min‑Segmente) |
| UI‑Feedback bei langen Texte (2000 Wörter) | Nutzer muss manuell irrelevante Parts entfernen | Automatischer Relevanz‑Filter (z. B. Prompt‑Optimierung) |

---

Konkrete Änderungswünsche / nächste Schritte

| To‑Do | Verantwortlich | Deadline |
|-------|----------------|----------|
| Implementierung von Audio‑Chunking (automatisches Aufteilen) | Kevin | 2 Wochen |
| Testlauf mit 3‑Personen‑Meeting (inkl. Sprecher‑Diarization) | Kevin | 1 Woche |
| Evaluierung von Whisper X + Paynote vs. AssemblyAI | Kevin & Frank | 2 Wochen |
| Migration der Datenbank zu LibSQL und Update des Deploy‑Scripts | Frank | 3 Wochen |
| Kosten‑Analyse für GPU‑Self‑Hosting vs. Cloud‑Whisper‑Turbo | Frank | 1 Woche |
| Erstellung eines Produkt‑Pitch‑Docs (Use‑Cases, Marktpotenzial) | Kevin | 4 Wochen |
| Prüfung von Datenschutz‑Richtlinien für Meeting‑Aufnahmen | (Projekt‑Legal) | 2 Wochen |
| Integration von Claude für automatisierte Zusammenfassungen (Prompt‑Feinabstimmung) | Kevin | 2 Wochen |
| Dokumentation der Token‑Limit‑Strategie (Chunk‑Größe, Max‑Tokens) | Kevin | 1 Woche |

---

*Hinweis: Alle genannten Zeitangaben sind geschätzt und sollten im nächsten Sprint-Planning bestätigt werden.*

9592 TOKENS$0.0540

Modelle vergleichen