Sprechererkennung auf Deutsch — bis zu 32 Sprecher automatisch unterscheiden
Ohne Sprecher-Labels weiß man nach dem Meeting nicht mehr, wer was gesagt hat — Entscheidungen und Action Items hängen in der Luft. BonusVoice labelt jedes Transkript-Segment automatisch, lässt Sprecher umbenennen und mehrere Stimmen zusammenführen. Alles in deutscher Sprache, alles in der EU verarbeitet.
- Bis zu 32 Sprecher automatisch unterscheiden
- Sprecher nach der Aufnahme manuell umbenennen
- Mehrere Stimmen zu einem Sprecher zusammenführen
- Funktioniert auf Deutsch und 12 weiteren nativ unterstützten Sprachen
- Mistral AI in Paris — kein OpenAI, kein Google
- Hetzner Server in Deutschland — DSGVO-konform

So funktioniert Sprechererkennung mit BonusVoice
Aufnehmen oder Datei hochladen
Web-, Desktop- oder Mobile-App nimmt das Meeting auf — oder Sie laden eine bestehende WAV/MP3/M4A-Datei hoch. Auch für Workshops, Kundengespräche, Mandantengespräche.
BonusVoice labelt jeden Sprecher automatisch
Die KI analysiert Stimmcharakteristik und Segmentlängen und ordnet jedem Satz einen Sprecher zu. Das Ergebnis: ein Transkript mit klaren Sprecher-Labels (Sprecher 1, Sprecher 2, Sprecher 3, ...).
Sprecher umbenennen und Notizen ergänzen
Nach der Analyse können Sprecher umbenannt werden — aus Sprecher 1 wird zum Beispiel Frau Dr. Müller. Mehrere Sprecher-IDs lassen sich zusammenführen, falls die KI eine Person versehentlich in zwei Stimmen aufgeteilt hat. Notizen kommen direkt im Transkript dazu.
Warum BonusVoice für Sprechererkennung in Deutschland und der EU
Bis zu 32 Sprecher gleichzeitig
Otter unterstützt 4, Fireflies bis zu 8 Sprecher — BonusVoice geht bis 32. Ideal für Workshops, Vorstandssitzungen und große Kundenrunden, wo viele Stimmen sauber getrennt werden müssen.
Manuell editierbar nach der Analyse
Sprecher-Labels sind kein finales Black-Box-Ergebnis. Sie können einzelne Sprecher umbenennen, mehrere Stimm-IDs zusammenführen oder splitten, und das Transkript direkt im Editor anpassen — Audio synchron als Referenz.
DSGVO-konform — 100% in der EU
Audio-Aufnahmen werden auf deutschen Hetzner-Servern gespeichert, die Sprechererkennung läuft bei Mistral AI in Paris. Kein OpenAI, kein Google Cloud, kein AWS — die Stimmcharakteristik verlässt nie die EU.
Speaker-Labels in der Zusammenfassung
Die KI-Zusammenfassung übernimmt die Sprechernamen aus dem Transkript. Action Items werden direkt der Person zugeordnet, die sie zugesagt hat. Entscheidungen werden namentlich dokumentiert.
13 nativ unterstützte Sprachen
Sprechererkennung arbeitet sprachunabhängig — Stimmen werden über Stimmcharakteristik getrennt, nicht über Worte. Die Transkription selbst läuft in 13 nativ unterstützten Sprachen, darunter Deutsch, Englisch, Französisch, Italienisch, Spanisch und Niederländisch. Auch bei Sprachwechsel mitten im Meeting bleibt jeder Sprecher korrekt zugeordnet.
Stimmcharakteristik verlässt die EU nicht
Stimme ist ein biometrisches Merkmal und unterliegt der DSGVO. BonusVoice verarbeitet Audio ausschließlich auf europäischen Servern — kein Cloud-Act-Risiko, kein US-Behördenzugriff, kein Trainingsmissbrauch.
Häufige Fragen zur Sprechererkennung
Wie genau ist die Sprechererkennung bei sich überlappenden Sprechern?+
Bei sauberem Audio liefert BonusVoice in der Praxis 92–96 % korrekte Zuordnung. Überlappende Sprache reduziert die Genauigkeit von BonusVoice etwas — daher sollten Teilnehmer wenn möglich nicht durcheinander reden. Bei Konferenzaufnahmen mit mehreren räumlich getrennten Mikrofonen ist die Sprechererkennung von BonusVoice.de deutlich präziser.
Wie kommen die echten Namen der Sprecher in das Transkript?+
Nach der Transkription öffnet BonusVoice den Sprecher-Editor: dort sehen Sie alle erkannten Stimmen mit kurzen Audio-Snippets als Beleg und können jeden Sprecher umbenennen — aus Sprecher 1 wird zum Beispiel Frau Dr. Müller. BonusVoice übernimmt die Namen anschließend automatisch ins gesamte Transkript und in die KI-Zusammenfassung auf BonusVoice.de.
Was passiert bei einem Meeting mit mehr als 32 Sprechern?+
Über 32 Sprecher hinaus weist BonusVoice automatisch ein Sammel-Label für weitere Sprecher zu. Das ist ein Limit der zugrundeliegenden Diarization-Engine — in der Praxis hat noch kein BonusVoice-Kunde mehr als 32 individuell identifizierbare Stimmen in einem einzelnen Termin erreicht. Bei sehr großen Veranstaltungen empfiehlt BonusVoice die Aufteilung in Themen-Sessions.
Funktioniert die Sprechererkennung zuverlässig auf Deutsch?+
Ja, BonusVoice nutzt Mistral Voxtral Transcribe 2 — ein europäisches Modell, das gezielt auf europäische Sprachen inklusive deutscher Dialekte trainiert wurde. Damit erkennt BonusVoice süddeutsche, österreichische und schweizerische Akzente zuverlässig. Bei sehr starkem Dialekt empfiehlt BonusVoice ein individuelles Vokabular für Eigennamen direkt auf BonusVoice.de.
Wie unterscheidet sich BonusVoice von Otter oder Fireflies bei der Sprechererkennung?+
Otter ist auf maximal 4 Sprecher begrenzt und arbeitet ausschließlich auf US-Servern. Fireflies geht bis 8 Sprecher, ebenfalls US-basiert. BonusVoice unterscheidet bis zu 32 Sprecher und verarbeitet alles in der EU — Audio auf Hetzner Deutschland, Diarization bei Mistral in Paris. Damit ist BonusVoice für DSGVO-sensible Branchen die wesentlich bessere Wahl.
Ist Sprechererkennung DSGVO-relevant?+
Ja, die Stimme einer identifizierten Person ist ein biometrisches Datum im Sinne von Art. 9 DSGVO. Verarbeitung außerhalb der EU (z.B. via OpenAI/Whisper in den USA) ist für Unternehmen, Kanzleien und Behörden in Deutschland praktisch nicht rechtssicher darstellbar. BonusVoice verarbeitet ausschließlich auf EU-Servern und stellt den Auftragsverarbeitungsvertrag direkt auf BonusVoice.de bereit.
Bereit für Sprechererkennung mit deutscher Qualität und EU-Verarbeitung?
30 Minuten Transkription mit Sprechererkennung pro Monat kostenlos. Keine Kreditkarte, kein Vertragszwang. Bis zu 32 Sprecher, manuell editierbar, DSGVO-konform.
Kostenlos startenKostenlos — keine Kreditkarte erforderlich