Voice-Tracking-Technologie: Warum Sehen Glauben ist

By Lumens

Juni 06, 2025 624

"Wir sind visuelle Wesen. Visuelle Dinge bleiben an Ort und Stelle, während Klänge verblassen." Sagte der Harvard-Psychologe Steven Pinker.

Dies mag zwar umstritten sein (vor allem bei Musikern!), aber Forscher haben vorgeschlagen, dass in einem persönlichen Gespräch mindestens 50 % der Kommunikation nonverbal ist. Das bedeutet, dass in Besprechungen der Videoteil der audiovisuellen (AV) Technologie unerlässlich ist.

Was uns vor ein Problem stellt.

▶ Was ist Meeting Equity?

Moderne Videokonferenzkameras erzeugen erstaunlich klare und helle Bilder. Sie sind oft mit einer cleveren Auto-Framing-Technologie ausgestattet und können automatisch heranzoomen, um die Personen in einem Raum und nicht den Raum um sie herum zu erfassen. Das Ergebnis ist gut, wobei die Teilnehmer im Mittelpunkt stehen. Aber es löst ein zentrales Problem nicht vollständig.

Für Remote-Teilnehmer kann es immer noch schwierig sein, Gesprächen zu folgen. Es ist schwer zu sagen, wer mit wem spricht oder antwortet. Dies führt zu einem Problem, das als Meeting-Gerechtigkeit bezeichnet wird und bei dem persönliche Teilnehmer ein besseres Erlebnis haben als virtuelle Teilnehmer.

▶ Die televisuelle Lösung

Produzenten machen seit Jahrzehnten fesselnde TV-Diskussionsshows und schaffen damit das ideale Modell, um die Aufmerksamkeit der Zuschauer zu fokussieren und die Geschichte effektiv zu erzählen. Es gibt Standardelemente, die Rundfunkanstalten auf der ganzen Welt und im Laufe der Jahrzehnte repliziert haben. Dazu gehören:

- Mehrere Kamerawinkel
- Weite Einspielungen, um einer Diskussion einen Kontext zu geben
- Nahaufnahmen des aktiven Sprechers
- Framing mehrerer Personen während Hin- und Her-Diskussionen
- Intelligente Kameraumschaltung, um den besten Winkel zu erhalten

▶ Kann AV mit dem Fernsehen mithalten?

Alle diese Techniken stehen Meeting-Profis zur Verfügung. Bei hochkarätigen öffentlichen Treffen, wie z. B. einem G20-Treffen, wird die AV-Ausrüstung, die den Gipfel aufzeichnet und überträgt, mit der Technologie eines Fernsehsenders vergleichbar sein.

Für bestimmte Vorstandssitzungen und öffentliche Sitzungen ist ein einzelner Bediener, der mehrere PTZ-Kameras verwaltet, die Antwort. Außergewöhnliche Ergebnisse können von einem erfahrenen Produzenten am Controller erzielt werden, der Erfahrung und Intuition einsetzt, um die Diskussion treu und überzeugend für Zuschauer und entfernte Teilnehmer festzuhalten.

Die Bedeutung der Wahrung der Vertraulichkeit (z. B. bei Finanz-, Gesundheits- oder Sozialgesprächen), die praktischen Aspekte der Installation und des Betriebs komplexer Geräte und die notwendigerweise hohen Kosten bedeuten jedoch, dass dies eher die Ausnahme als die Regel ist. Darüber hinaus ist es angesichts der dramatischen Zunahme virtueller Meetings in den letzten Jahren eindeutig unpraktisch, für jedes Meeting und jeden Konferenzraum einen Operator zur Verfügung zu haben.

Die AV-Lösung: Voice-Tracking-Technologie
▶ Was ist Voice Tracking?

Eine neue Generation von Mikrofonen für Besprechungsräume (z. B. Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 und dergleichen) ist da. Diese Produkte verfügen über die DOA-Technologie (Direction of Arrival), die den Standort einer Schallquelle erkennt. Warum ist das wichtig?

1. Sprachverfolgungsmikrofone helfen dabei, häufige Frustrationen bei Meetings wie gedämpfte Stimmen, entfernte Geräuschaufnahme und überlappende Sprache zu beseitigen. Sie sorgen dafür, dass jeder Teilnehmer, unabhängig von seinem Standort, klar und mühelos zu hören ist.

2. Dies kann dazu beitragen, dass Videokameras automatisch auf die sprechende Person fokussieren.

Dies ist ein Game Changer für Videokonferenzen. Die Sprachverfolgung verändert jetzt die Art und Weise, wie Kameras Live-Diskussionen integrieren und mit ihnen interagieren.

▶ Integration von Sprecher-Tracking in Kameras

Durch die Nutzung der Leistungsfähigkeit der Sprachverfolgung werden die Standortdaten des Mikrofon-Arrays in Echtzeit mit einem externen Prozessor geteilt. Dies wiederum lässt sich mit mehreren PTZ-Kameras verbinden. Die Kamera-Mikrofon-Kombination ermöglicht es den Kameras, sofort auf die aktiven Stimmen in einem Besprechungsraum zu fokussieren. Dies wird erreicht, indem die Kamera so gesteuert wird, dass sie sich mit diesen Schallverfolgungsdaten koordiniert. Mit dem Kamerawinkel, der auf den Daten des Mikrofons basiert, kann ein Meeting automatisch erstellt werden, wobei die Videoausgabe von Teams, Zoom oder den meisten anderen Plattformen für die Konferenzsitzung verwendet wird.

▶ Was ist Sprecher-Tracking?

Bei Produkten wie CamConnect Pro kombiniert Lumens Sprach-Tracking-Mikrofone mit PTZ-Kamerasystemen, um eine intelligente Sprecherverfolgung zu ermöglichen.

Und so funktioniert es:

• Ein Sprecher beginnt zu sprechen, → Kamera 1 zoomt auf ihn heran.
• Der Video-Feed wechselt zu Kamera 1.
• Eine andere Person beginnt zu sprechen→ Kamera 2 auf sie heranzoomt.
• Das System schaltet automatisch auf Kamera 2 um.

Das AV-System erstellt jetzt eine TV-ähnliche Produktion, ohne dass eine Benutzereingabe erforderlich ist. Und sie kann große Besprechungen verwalten: Jede Kamera wird einfach mehreren Teilnehmern zugewiesen, um jeden Teilnehmer im Raum abzudecken.

▶ Die Evolution des Sprecher-Trackings

Das Verbinden von Mikrofonen mit Kameras ist nicht neu. Entwickler sind seit einigen Jahren in der Lage, AV-Controller so zu programmieren, dass sie auf Live-Sprachverfolgungsdaten reagieren. Aufgrund der Komplexität und Einzigartigkeit jeder Installation kann der Prozess teuer werden. Was Hersteller wie Lumens erreicht haben, ist der Game-Changer: CamConnect kann im Netzwerk installiert, konfiguriert und mit mehreren Mikrofonarrays und bis zu 4 PTZ-Kameras in wenigen Minuten verwendet werden. Es ist keine Programmierung erforderlich.

▶ Von der Gleichberechtigung von Meetings bis zur Massenakzeptanz

Mit der Einführung der VC-TR60A-Kamera hat Lumens stattdessen eine Sprecherverfolgung in die PTZ implementiert. Anstatt sich auf ein an der Decke oder an der Wand montiertes Mikrofon zu verlassen, um die Position einer Stimme zu erkennen, verfügt diese Kamera über eine Reihe von Schalldetektoren in ihrer Basis. Mit seinem AI-fähigen Bildanalysetool kann der VC-TR60A erkennen, ob das von seinen Sensoren geortete Geräusch von einer Person im Raum stammt und nicht von einer sich schließenden Tür oder einem draußen startenden Auto. Der VC-TR60A rahmt dann automatisch die aktive Stimme ein und verfolgt die Diskussion.

▶ Wie effektiv ist das Sprecher-Tracking?

Die Sprecherverfolgung kann unglaublich genau sein und eine Person auswählen, die Schulter an Schulter mit Kollegen in einer idealen Umgebung sitzt. Es gibt jedoch Faktoren, die die Präzision verringern können.

- Raumgröße: Die Genauigkeit der Standortdaten hängt grundlegend von der Präzision des Mikrofons ab. Je weiter der Abstand zum Mikrofon ist, desto ungenauer sind die Daten. Die gute Nachricht ist, dass Lautsprecher-Tracking-Systeme wie CamConnect mehrere Mikrofone unterstützen können, die an der Decke oder an den Wänden eines großen Veranstaltungsortes installiert werden können. Durch die korrekte Kartierung eines Besprechungsbereichs und das Festlegen von Kameravoreinstellungen können die Ergebnisse wirklich außergewöhnlich sein.

- Akustik: Auch auf die Minimierung von Echos und Reflexionen muss geachtet werden: Ein gut schallisolierter Raum ist leistungsfähiger als eine höhlenartige Halle mit Holzboden. Ein DSP kann viele dieser Probleme minimieren.

▶ Das menschliche Element

Menschen zappeln. Sie rücken ihre Stühle um. Sie sitzen selten still. Da die Sprecherverfolgung von den voreingestellten Positionen der Kamera abhängt, führte dies zu Schwierigkeiten bei älteren Systemen, die von falschen Bildverhältnissen einer Person geplagt wurden. Mit neuen AI-fähigen Systemen wie CamConnect Pro können Presets automatisch neu gerahmt werden, um die perfekte Aufnahme zu gewährleisten.

▶ Diskussionsverfolgung: Den Ping-Pong-Effekt vermeiden

Niemand möchte sich einen Videocall ansehen, bei dem die Kamera wie bei einem Tennismatch ständig zwischen den Lautsprechern hin und her springt. Um dies zu vermeiden, sind einige Systeme in der Lage, einen mehrstimmigen Framing-Modus zu aktivieren, der auf eine breitere Aufnahme zoomt, die alle aktiven Stimmen erfasst.

▶ Die Zukunft des Speaker-Trackings

Multi-Voice-Framing ist nur der Anfang. Mit der Verbesserung der Automatisierung könnte sich das Speaker-Tracking zu einem vollautomatischen AV-Produktionssystem entwickeln, das mit einer professionellen TV-Übertragung konkurrieren kann. Nur die Zeit wird zeigen, wie weit diese Technologie gehen wird – aber im Moment verändert sie bereits die Art und Weise, wie wir virtuelle Meetings erleben.

Etikett： Einführung Sprachverfolgung Sprecherverfolgung

AI Voice-Tracking

PRO AV

CaptureVision

AVoIP

Ladibug

Software

Zubehör

Legacy-Modelle

Voice-Tracking-Technologie: Warum Sehen Glauben ist

▶ Was ist Meeting Equity?

▶ Die televisuelle Lösung

▶ Kann AV mit dem Fernsehen mithalten?

Die AV-Lösung: Voice-Tracking-Technologie
▶ Was ist Voice Tracking?

▶ Integration von Sprecher-Tracking in Kameras

▶ Was ist Sprecher-Tracking?

▶ Die Evolution des Sprecher-Trackings

▶ Von der Gleichberechtigung von Meetings bis zur Massenakzeptanz

▶ Wie effektiv ist das Sprecher-Tracking?

▶ Das menschliche Element

▶ Diskussionsverfolgung: Den Ping-Pong-Effekt vermeiden

▶ Die Zukunft des Speaker-Trackings

Beliebte Beiträge

【ProAV Lab】A Beginner's Guide to PTZ Camera

【ProAV Lab】introAVoIP#01 - What is AV over IP?

【ProAV Lab】introNDI#03 - Lumens' Guide to NDI|HX3

ProAV Lab

Fallstudie

AI Voice-Tracking

PRO AV

CaptureVision

AVoIP

Ladibug

Software

Zubehör

Legacy-Modelle

Wählen Sie Ihre Sprache

Voice-Tracking-Technologie: Warum Sehen Glauben ist

▶ Was ist Meeting Equity?

▶ Die televisuelle Lösung

▶ Kann AV mit dem Fernsehen mithalten?

Die AV-Lösung: Voice-Tracking-Technologie▶ Was ist Voice Tracking?

▶ Integration von Sprecher-Tracking in Kameras

▶ Was ist Sprecher-Tracking?

▶ Die Evolution des Sprecher-Trackings

▶ Von der Gleichberechtigung von Meetings bis zur Massenakzeptanz

▶ Wie effektiv ist das Sprecher-Tracking?

▶ Das menschliche Element

▶ Diskussionsverfolgung: Den Ping-Pong-Effekt vermeiden

▶ Die Zukunft des Speaker-Trackings

Beliebte Beiträge

【ProAV Lab】A Beginner's Guide to PTZ Camera

【ProAV Lab】introAVoIP#01 - What is AV over IP?

【ProAV Lab】introNDI#03 - Lumens' Guide to NDI|HX3

ProAV Lab

Fallstudie

Die AV-Lösung: Voice-Tracking-Technologie
▶ Was ist Voice Tracking?