By Lumens
Juni 06, 2025 624
"Wir sind visuelle Wesen. Visuelle Dinge bleiben an Ort und Stelle, während Klänge verblassen." Sagte der Harvard-Psychologe Steven Pinker.
Dies mag zwar umstritten sein (vor allem bei Musikern!), aber Forscher haben vorgeschlagen, dass in einem persönlichen Gespräch mindestens 50 % der Kommunikation nonverbal ist. Das bedeutet, dass in Besprechungen der Videoteil der audiovisuellen (AV) Technologie unerlässlich ist.
Moderne Videokonferenzkameras erzeugen erstaunlich klare und helle Bilder. Sie sind oft mit einer cleveren Auto-Framing-Technologie ausgestattet und können automatisch heranzoomen, um die Personen in einem Raum und nicht den Raum um sie herum zu erfassen. Das Ergebnis ist gut, wobei die Teilnehmer im Mittelpunkt stehen. Aber es löst ein zentrales Problem nicht vollständig.
Für Remote-Teilnehmer kann es immer noch schwierig sein, Gesprächen zu folgen. Es ist schwer zu sagen, wer mit wem spricht oder antwortet. Dies führt zu einem Problem, das als Meeting-Gerechtigkeit bezeichnet wird und bei dem persönliche Teilnehmer ein besseres Erlebnis haben als virtuelle Teilnehmer.
Alle diese Techniken stehen Meeting-Profis zur Verfügung. Bei hochkarätigen öffentlichen Treffen, wie z. B. einem G20-Treffen, wird die AV-Ausrüstung, die den Gipfel aufzeichnet und überträgt, mit der Technologie eines Fernsehsenders vergleichbar sein.
Für bestimmte Vorstandssitzungen und öffentliche Sitzungen ist ein einzelner Bediener, der mehrere PTZ-Kameras verwaltet, die Antwort. Außergewöhnliche Ergebnisse können von einem erfahrenen Produzenten am Controller erzielt werden, der Erfahrung und Intuition einsetzt, um die Diskussion treu und überzeugend für Zuschauer und entfernte Teilnehmer festzuhalten.
Die Bedeutung der Wahrung der Vertraulichkeit (z. B. bei Finanz-, Gesundheits- oder Sozialgesprächen), die praktischen Aspekte der Installation und des Betriebs komplexer Geräte und die notwendigerweise hohen Kosten bedeuten jedoch, dass dies eher die Ausnahme als die Regel ist. Darüber hinaus ist es angesichts der dramatischen Zunahme virtueller Meetings in den letzten Jahren eindeutig unpraktisch, für jedes Meeting und jeden Konferenzraum einen Operator zur Verfügung zu haben.
Eine neue Generation von Mikrofonen für Besprechungsräume (z. B. Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 und dergleichen) ist da. Diese Produkte verfügen über die DOA-Technologie (Direction of Arrival), die den Standort einer Schallquelle erkennt. Warum ist das wichtig?
1. Sprachverfolgungsmikrofone helfen dabei, häufige Frustrationen bei Meetings wie gedämpfte Stimmen, entfernte Geräuschaufnahme und überlappende Sprache zu beseitigen. Sie sorgen dafür, dass jeder Teilnehmer, unabhängig von seinem Standort, klar und mühelos zu hören ist.
2. Dies kann dazu beitragen, dass Videokameras automatisch auf die sprechende Person fokussieren.
Dies ist ein Game Changer für Videokonferenzen. Die Sprachverfolgung verändert jetzt die Art und Weise, wie Kameras Live-Diskussionen integrieren und mit ihnen interagieren.
Durch die Nutzung der Leistungsfähigkeit der Sprachverfolgung werden die Standortdaten des Mikrofon-Arrays in Echtzeit mit einem externen Prozessor geteilt. Dies wiederum lässt sich mit mehreren PTZ-Kameras verbinden. Die Kamera-Mikrofon-Kombination ermöglicht es den Kameras, sofort auf die aktiven Stimmen in einem Besprechungsraum zu fokussieren. Dies wird erreicht, indem die Kamera so gesteuert wird, dass sie sich mit diesen Schallverfolgungsdaten koordiniert. Mit dem Kamerawinkel, der auf den Daten des Mikrofons basiert, kann ein Meeting automatisch erstellt werden, wobei die Videoausgabe von Teams, Zoom oder den meisten anderen Plattformen für die Konferenzsitzung verwendet wird.
Und so funktioniert es:
• Ein Sprecher beginnt zu sprechen, → Kamera 1 zoomt auf ihn heran.
• Der Video-Feed wechselt zu Kamera 1.
• Eine andere Person beginnt zu sprechen→ Kamera 2 auf sie heranzoomt.
• Das System schaltet automatisch auf Kamera 2 um.
Das AV-System erstellt jetzt eine TV-ähnliche Produktion, ohne dass eine Benutzereingabe erforderlich ist. Und sie kann große Besprechungen verwalten: Jede Kamera wird einfach mehreren Teilnehmern zugewiesen, um jeden Teilnehmer im Raum abzudecken.
Das Verbinden von Mikrofonen mit Kameras ist nicht neu. Entwickler sind seit einigen Jahren in der Lage, AV-Controller so zu programmieren, dass sie auf Live-Sprachverfolgungsdaten reagieren. Aufgrund der Komplexität und Einzigartigkeit jeder Installation kann der Prozess teuer werden. Was Hersteller wie Lumens erreicht haben, ist der Game-Changer: CamConnect kann im Netzwerk installiert, konfiguriert und mit mehreren Mikrofonarrays und bis zu 4 PTZ-Kameras in wenigen Minuten verwendet werden. Es ist keine Programmierung erforderlich.
Mit der Einführung der VC-TR60A-Kamera hat Lumens stattdessen eine Sprecherverfolgung in die PTZ implementiert. Anstatt sich auf ein an der Decke oder an der Wand montiertes Mikrofon zu verlassen, um die Position einer Stimme zu erkennen, verfügt diese Kamera über eine Reihe von Schalldetektoren in ihrer Basis. Mit seinem AI-fähigen Bildanalysetool kann der VC-TR60A erkennen, ob das von seinen Sensoren geortete Geräusch von einer Person im Raum stammt und nicht von einer sich schließenden Tür oder einem draußen startenden Auto. Der VC-TR60A rahmt dann automatisch die aktive Stimme ein und verfolgt die Diskussion.
Die Sprecherverfolgung kann unglaublich genau sein und eine Person auswählen, die Schulter an Schulter mit Kollegen in einer idealen Umgebung sitzt. Es gibt jedoch Faktoren, die die Präzision verringern können.
- Raumgröße: Die Genauigkeit der Standortdaten hängt grundlegend von der Präzision des Mikrofons ab. Je weiter der Abstand zum Mikrofon ist, desto ungenauer sind die Daten. Die gute Nachricht ist, dass Lautsprecher-Tracking-Systeme wie CamConnect mehrere Mikrofone unterstützen können, die an der Decke oder an den Wänden eines großen Veranstaltungsortes installiert werden können. Durch die korrekte Kartierung eines Besprechungsbereichs und das Festlegen von Kameravoreinstellungen können die Ergebnisse wirklich außergewöhnlich sein.
- Akustik: Auch auf die Minimierung von Echos und Reflexionen muss geachtet werden: Ein gut schallisolierter Raum ist leistungsfähiger als eine höhlenartige Halle mit Holzboden. Ein DSP kann viele dieser Probleme minimieren.
Menschen zappeln. Sie rücken ihre Stühle um. Sie sitzen selten still. Da die Sprecherverfolgung von den voreingestellten Positionen der Kamera abhängt, führte dies zu Schwierigkeiten bei älteren Systemen, die von falschen Bildverhältnissen einer Person geplagt wurden. Mit neuen AI-fähigen Systemen wie CamConnect Pro können Presets automatisch neu gerahmt werden, um die perfekte Aufnahme zu gewährleisten.
Niemand möchte sich einen Videocall ansehen, bei dem die Kamera wie bei einem Tennismatch ständig zwischen den Lautsprechern hin und her springt. Um dies zu vermeiden, sind einige Systeme in der Lage, einen mehrstimmigen Framing-Modus zu aktivieren, der auf eine breitere Aufnahme zoomt, die alle aktiven Stimmen erfasst.
Multi-Voice-Framing ist nur der Anfang. Mit der Verbesserung der Automatisierung könnte sich das Speaker-Tracking zu einem vollautomatischen AV-Produktionssystem entwickeln, das mit einer professionellen TV-Übertragung konkurrieren kann. Nur die Zeit wird zeigen, wie weit diese Technologie gehen wird – aber im Moment verändert sie bereits die Art und Weise, wie wir virtuelle Meetings erleben.