Audio zu Text

Audio-Dateien zu Text konvertieren — DSGVO-konform, deutsche Qualität

MP3, WAV, M4A, MP4 oder MOV hochladen — wenige Minuten später liegt das Transkript mit Sprecher-Labels und KI-Zusammenfassung bereit. Bis zu 5 Stunden Audio pro Datei, Verarbeitung ausschließlich auf europäischen Servern.

  • Formate: MP3, WAV, M4A, FLAC, MP4, MOV (Video mit Audio-Spur)
  • Bis zu 5 Stunden Audio pro Datei
  • Sprechererkennung bis zu 32 Sprecher
  • KI-Zusammenfassung mit Action Items und Entscheidungen
  • Export als PDF, Word und Markdown
  • Audio bleibt auf Hetzner-Servern in Deutschland
Eine Hand hält ein Smartphone auf einem Schreibtisch. Über dem Bildschirm sind Audio-Wellen zu sehen, die in fließende Schriftzeichen übergehen.

So konvertieren Sie Audio zu Text

1

Datei hochladen

Über die Web-App oder Mobile-App eine Audio- oder Video-Datei auswählen. Die Datei wird verschlüsselt zu Hetzner-Servern in Deutschland übertragen. Auch große Dateien bis 5 Stunden Spielzeit sind möglich.

2

Automatische Verarbeitung

BonusVoice analysiert Sprecher, transkribiert in Deutsch oder einer der 12 weiteren nativ unterstützten Sprachen (Englisch, Französisch, Spanisch, Italienisch, Niederländisch, Portugiesisch, Russisch, Arabisch, Chinesisch, Hindi, Japanisch, Koreanisch), erstellt eine KI-Zusammenfassung mit Action Items und Entscheidungen. Bei einer Stunde Audio dauert das in der Regel 5–10 Minuten.

3

Transkript bearbeiten und exportieren

Im Editor können Sie das Transkript korrigieren, Sprecher umbenennen, Notizen ergänzen. Export als PDF mit Sprecher-Labels und Zeitstempeln, als Word-Dokument zum Weiterbearbeiten oder als Markdown für die Wissensdatenbank.

Warum BonusVoice für Audio-zu-Text-Konvertierung in der EU

Alle gängigen Audio-Formate

MP3, WAV, M4A, FLAC und OGG werden direkt verarbeitet. Die Datei muss nicht erst manuell konvertiert werden. Auch Aufnahmen vom Diktiergerät, vom Smartphone oder von externen Mikrofonen wie DJI Mic 3 funktionieren ohne Vorbereitung.

Auch Video-Dateien — Audio-Spur wird extrahiert

MP4 und MOV werden ebenfalls akzeptiert. BonusVoice extrahiert die Audio-Spur automatisch und transkribiert sie. Ideal für Webinare, Schulungsaufzeichnungen oder Teams- und Zoom-Cloud-Aufnahmen.

Bis zu 5 Stunden Audio pro Datei

Lange Workshops, ganztägige Schulungen oder Konferenz-Aufnahmen werden in einem Stück verarbeitet — kein manuelles Aufteilen, kein Verlust von Kontext. Die KI-Zusammenfassung berücksichtigt das gesamte Material.

Verschlüsselter Upload nach Deutschland

Audio-Dateien werden über TLS 1.3 verschlüsselt an Hetzner-Server in Helsinki/Nürnberg übertragen und dort AES-256 verschlüsselt gespeichert. Kein Zwischenstopp bei US-Anbietern, kein automatisches Hochladen in die Cloud.

Mehr als nur Text — KI-Zusammenfassung inklusive

Aus jedem Audio-Transkript entsteht automatisch eine strukturierte Zusammenfassung: Kernpunkte, Action Items, Entscheidungen, Stakeholder, offene Fragen. Sie sparen die manuelle Nachbereitung — bei jeder einzelnen Aufnahme.

DSGVO-konform — keine US-Cloud

Verarbeitung ausschließlich auf europäischen Servern. Speicher Hetzner Deutschland, KI-Verarbeitung Mistral AI in Paris. Kein OpenAI Whisper, kein Google Speech-to-Text, kein AWS Transcribe. AVV direkt in der App downloadbar.

Häufige Fragen zur Audio-zu-Text-Konvertierung

Welche Audio- und Video-Formate werden unterstützt?+

BonusVoice unterstützt MP3, WAV, M4A, FLAC, OGG und AAC für reine Audio-Dateien sowie MP4, MOV, WEBM und AVI für Video-Dateien (BonusVoice extrahiert die Audio-Spur automatisch). Die Datei muss vor dem Upload auf BonusVoice.de nicht konvertiert werden. Bei seltenen Formaten ergänzt BonusVoice die Unterstützung meist innerhalb weniger Tage nach Anfrage.

Wie groß darf eine Audio-Datei sein?+

Bei BonusVoice sind bis zu 5 Stunden Audio pro Datei in den Tarifen Pro und Business möglich. Im Starter-Tarif von BonusVoice liegt das Limit pro Datei bei 60 Minuten — für die meisten Meetings vollkommen ausreichend. Bei sehr großen Dateien (4 GB+) kann der Upload auf BonusVoice.de je nach Internet-Verbindung etwas dauern, die Verarbeitung läuft danach im Hintergrund.

Wie lange dauert die Transkription pro Stunde Audio?+

Bei BonusVoice dauert die Transkription im Durchschnitt 5–10 Minuten pro Stunde Audio. Bei Lastspitzen oder besonders langen Aufnahmen kann es etwas länger dauern — BonusVoice schickt automatisch eine E-Mail, sobald das Transkript fertig ist. Sie müssen also nicht im Browser auf BonusVoice.de warten.

Was passiert mit der Audio-Datei nach der Transkription?+

Die Audio-Datei bleibt in Ihrem BonusVoice-Account gespeichert und ist nur für Sie und Mitglieder Ihrer Organisation zugänglich. Sie können sie auf BonusVoice.de jederzeit manuell löschen oder eine automatische Aufbewahrungsfrist einstellen (z.B. 30 oder 90 Tage). BonusVoice nutzt Ihre Audio-Dateien nicht für Modelltraining oder andere Zwecke — Ihre Daten bleiben Ihre Daten.

Kann ich mehrere Dateien gleichzeitig hochladen?+

Ja, BonusVoice unterstützt Bulk-Upload über die Web-App auf BonusVoice.de. Einfach mehrere Dateien gleichzeitig auswählen oder per Drag-and-Drop hineinziehen — BonusVoice verarbeitet sie parallel. Im Business-Tarif von BonusVoice gibt es zusätzlich eine API, mit der Sie programmgesteuert große Mengen an Audio-Dateien einreichen können.

Was ist mit Aufnahmen von Diktiergeräten und externen Mikrofonen?+

Funktionieren ohne Probleme. BonusVoice verarbeitet WAV/MP3-Dateien von gängigen Diktiergeräten wie Olympus, Sony oder Philips, von externen Mikrofonen wie DJI Mic 3, Rode Wireless oder Bluetooth-Headsets. Die einzige Voraussetzung für BonusVoice: das Audio enthält erkennbare Sprache und keine reine Musik oder Geräusche. Lade die Datei einfach auf BonusVoice.de hoch.

Bereit, Ihre Audio-Dateien zu Text zu konvertieren?

30 Minuten Transkription pro Monat kostenlos. Keine Kreditkarte, kein Vertragszwang. Audio bleibt auf deutschen Servern, KI in Paris — kein US-Anbieter in der Verarbeitung.

Kostenlos starten

Kostenlos — keine Kreditkarte erforderlich