Sprechererkennung

Sprechererkennung auf Deutsch — bis zu 32 Sprecher automatisch unterscheiden

Ohne Sprecher-Labels weiß man nach dem Meeting nicht mehr, wer was gesagt hat — Entscheidungen und Action Items hängen in der Luft. BonusVoice labelt jedes Transkript-Segment automatisch, lässt Sprecher umbenennen und mehrere Stimmen zusammenführen. Alles in deutscher Sprache, alles in der EU verarbeitet.

  • Bis zu 32 Sprecher automatisch unterscheiden
  • Sprecher nach der Aufnahme manuell umbenennen
  • Mehrere Stimmen zu einem Sprecher zusammenführen
  • Funktioniert auf Deutsch und 12 weiteren nativ unterstützten Sprachen
  • Mistral AI in Paris — kein OpenAI, kein Google
  • Hetzner Server in Deutschland — DSGVO-konform
Vier Personen sitzen an einem Konferenztisch. Im Hintergrund ein Display, auf dem Stimm-Wellenformen in unterschiedlichen Farben für jeden Sprecher dargestellt werden.

So funktioniert Sprechererkennung mit BonusVoice

1

Aufnehmen oder Datei hochladen

Web-, Desktop- oder Mobile-App nimmt das Meeting auf — oder Sie laden eine bestehende WAV/MP3/M4A-Datei hoch. Auch für Workshops, Kundengespräche, Mandantengespräche.

2

BonusVoice labelt jeden Sprecher automatisch

Die KI analysiert Stimmcharakteristik und Segmentlängen und ordnet jedem Satz einen Sprecher zu. Das Ergebnis: ein Transkript mit klaren Sprecher-Labels (Sprecher 1, Sprecher 2, Sprecher 3, ...).

3

Sprecher umbenennen und Notizen ergänzen

Nach der Analyse können Sprecher umbenannt werden — aus Sprecher 1 wird zum Beispiel Frau Dr. Müller. Mehrere Sprecher-IDs lassen sich zusammenführen, falls die KI eine Person versehentlich in zwei Stimmen aufgeteilt hat. Notizen kommen direkt im Transkript dazu.

Warum BonusVoice für Sprechererkennung in Deutschland und der EU

Bis zu 32 Sprecher gleichzeitig

Otter unterstützt 4, Fireflies bis zu 8 Sprecher — BonusVoice geht bis 32. Ideal für Workshops, Vorstandssitzungen und große Kundenrunden, wo viele Stimmen sauber getrennt werden müssen.

Manuell editierbar nach der Analyse

Sprecher-Labels sind kein finales Black-Box-Ergebnis. Sie können einzelne Sprecher umbenennen, mehrere Stimm-IDs zusammenführen oder splitten, und das Transkript direkt im Editor anpassen — Audio synchron als Referenz.

DSGVO-konform — 100% in der EU

Audio-Aufnahmen werden auf deutschen Hetzner-Servern gespeichert, die Sprechererkennung läuft bei Mistral AI in Paris. Kein OpenAI, kein Google Cloud, kein AWS — die Stimmcharakteristik verlässt nie die EU.

Speaker-Labels in der Zusammenfassung

Die KI-Zusammenfassung übernimmt die Sprechernamen aus dem Transkript. Action Items werden direkt der Person zugeordnet, die sie zugesagt hat. Entscheidungen werden namentlich dokumentiert.

13 nativ unterstützte Sprachen

Sprechererkennung arbeitet sprachunabhängig — Stimmen werden über Stimmcharakteristik getrennt, nicht über Worte. Die Transkription selbst läuft in 13 nativ unterstützten Sprachen, darunter Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch. Auch bei Sprachwechsel mitten im Meeting bleibt jeder Sprecher korrekt zugeordnet.

Stimmcharakteristik verlässt die EU nicht

Stimme ist ein biometrisches Merkmal und unterliegt der DSGVO. BonusVoice verarbeitet Audio ausschließlich auf europäischen Servern — kein Cloud-Act-Risiko, kein US-Behördenzugriff, kein Trainingsmissbrauch.

Häufige Fragen zur Sprechererkennung

Wie genau ist die Sprechererkennung bei sich überlappenden Sprechern?+

Bei sauberem Audio liefert BonusVoice in der Praxis 92–96 % korrekte Zuordnung. Überlappende Sprache reduziert die Genauigkeit von BonusVoice etwas — daher sollten Teilnehmer wenn möglich nicht durcheinander reden. Bei Konferenzaufnahmen mit mehreren räumlich getrennten Mikrofonen ist die Sprechererkennung von BonusVoice.de deutlich präziser.

Wie kommen die echten Namen der Sprecher in das Transkript?+

Nach der Transkription öffnet BonusVoice den Sprecher-Editor: dort sehen Sie alle erkannten Stimmen mit kurzen Audio-Snippets als Beleg und können jeden Sprecher umbenennen — aus Sprecher 1 wird zum Beispiel Frau Dr. Müller. BonusVoice übernimmt die Namen anschließend automatisch ins gesamte Transkript und in die KI-Zusammenfassung auf BonusVoice.de.

Was passiert bei einem Meeting mit mehr als 32 Sprechern?+

Über 32 Sprecher hinaus weist BonusVoice automatisch ein Sammel-Label für weitere Sprecher zu. Das ist ein Limit der zugrundeliegenden Diarization-Engine — in der Praxis hat noch kein BonusVoice-Kunde mehr als 32 individuell identifizierbare Stimmen in einem einzelnen Termin erreicht. Bei sehr großen Veranstaltungen empfiehlt BonusVoice die Aufteilung in Themen-Sessions.

Funktioniert die Sprechererkennung zuverlässig auf Deutsch?+

Ja, BonusVoice nutzt Mistral Voxtral Transcribe 2 — ein europäisches Modell, das gezielt auf europäische Sprachen inklusive deutscher Dialekte trainiert wurde. Damit erkennt BonusVoice süddeutsche, österreichische und schweizerische Akzente zuverlässig. Bei sehr starkem Dialekt empfiehlt BonusVoice ein individuelles Vokabular für Eigennamen direkt auf BonusVoice.de.

Wie unterscheidet sich BonusVoice von Otter oder Fireflies bei der Sprechererkennung?+

Otter ist auf maximal 4 Sprecher begrenzt und arbeitet ausschließlich auf US-Servern. Fireflies geht bis 8 Sprecher, ebenfalls US-basiert. BonusVoice unterscheidet bis zu 32 Sprecher und verarbeitet alles in der EU — Audio auf Hetzner Deutschland, Diarization bei Mistral in Paris. Damit ist BonusVoice für DSGVO-sensible Branchen die wesentlich bessere Wahl.

Ist Sprechererkennung DSGVO-relevant?+

Ja, die Stimme einer identifizierten Person ist ein biometrisches Datum im Sinne von Art. 9 DSGVO. Verarbeitung außerhalb der EU (z.B. via OpenAI/Whisper in den USA) ist für Unternehmen, Kanzleien und Behörden in Deutschland praktisch nicht rechtssicher darstellbar. BonusVoice verarbeitet ausschließlich auf EU-Servern und stellt den Auftragsverarbeitungsvertrag direkt auf BonusVoice.de bereit.

Bereit für Sprechererkennung mit deutscher Qualität und EU-Verarbeitung?

30 Minuten Transkription mit Sprechererkennung pro Monat kostenlos. Keine Kreditkarte, kein Vertragszwang. Bis zu 32 Sprecher, manuell editierbar, DSGVO-konform.

Kostenlos starten

Kostenlos — keine Kreditkarte erforderlich