音声追跡技術:百聞は一見にしかず、なぜ信じるのか

By Lumens

June 06, 2025 614

 

「私たちは視覚的な生き物です。視覚的なものはそのままで、音は消えていきます。」ハーバード大学の心理学者スティーブン・ピンカーは言った。

これは議論の余地があるかもしれませんが(特にミュージシャンの場合)、研究者は、対面での会話では、コミュニケーションの少なくとも50%が非言語的であると示唆しています。つまり、会議では、オーディオビジュアル(AV)テクノロジーのビデオ部分が不可欠です。

これが問題を引き起こします。

▶ ミーティング・エクイティとは?

最新のビデオ会議カメラは、驚くほど鮮明で明るい画像を生成します。多くの場合、巧妙な自動フレーミング技術が搭載されており、周囲の空間ではなく、部屋にいる人々を自動的にズームインしてキャプチャできます。結果は良好で、出席者に正面から焦点が当てられています。しかし、それは重要な問題を完全に解決するわけではありません。

リモートの参加者にとって、会話をフォローするのは依然として難しい場合があります。誰が話しているのか、誰に応答しているのかを見分けるのは難しいです。これにより、会議の公平性と呼ばれる問題が生じ、対面の出席者は仮想の参加者よりも優れたエクスペリエンスを得ることができます。

▶ テレビ映像ソリューション

プロデューサーは何十年にもわたって魅力的なテレビディスカッションショーを制作し、視聴者の注意を引き、ストーリーを効果的に伝えるための理想的なモデルを作成してきました。放送局が世界中で、そして何十年にもわたって再現してきた標準的な要素があります。これには、次のものが含まれます。
 
- 複数のカメラアングル
- 議論に文脈を与えるためのワイドなエスタブリッシングショット
- アクティブスピーカーのクローズアップショット
- 前後の議論中に複数の人をフレーミングする
- 最適な角度を得るためのスマートカメラの切り替え

 

▶ AVはテレビに匹敵しますか?

これらのテクニックはすべて、会議の専門家が利用できます。G20のような注目度の高い公開会議では、サミットを録画・放送するAV機器は、テレビ局の技術と同等になります。

特定のエグゼクティブミーティングや公開セッションでは、1人のオペレーターが複数のPTZカメラを管理することが解決策です。コントローラーの熟練したプロデューサーが、経験と直感を使用して、視聴者やリモート参加者にとって説得力のある方法でディスカッションを忠実にキャプチャすることで、優れた結果を得ることができます。

しかし、会議の機密保持の重要性(例えば、財政、健康、社会福祉の議論)、複雑な機器の設置と運用の実用性、そして必然的に高コストであることは、これがルールではなく例外であることを意味します。さらに、ここ数年で仮想会議が劇的に増加しているため、各会議やすべての会議スペースにオペレーターを配置できることは明らかに非現実的です。
 

AVソリューション:音声追跡技術
▶ ボイストラッキングとは?

新しいタイプの会議室用マイク(Sennheiser TCC2、Yamaha RM-CG、Shure MXA920、ニューエバHDL410など)が登場しました。これらの製品は、音源の位置を検出するDOA(Direction of Arrival)技術を採用しています。なぜこれが重要なのですか?

1.音声追跡マイクは、こもった声、遠くの音の拾い上げ、会話の重なりなど、一般的な会議の不満を排除するのに役立ちます。彼らは、場所に関係なく、すべての参加者がはっきりと楽に聞こえるようにします。

2.これにより、ビデオカメラは話している人に自動的に焦点を合わせることができます。

これは、ビデオ会議のゲームチェンジャーです。音声トラッキングは、カメラがライブディスカッションと統合し、対話する方法を変えています。
 

 

▶ スピーカートラッキングとカメラの統合

音声トラッキングの力を活用して、マイクアレイの位置データは外部プロセッサとリアルタイムで共有されます。これにより、複数のPTZカメラとリンクします。カメラとマイクの組み合わせにより、カメラは会議スペースのアクティブな音声にすぐに焦点を合わせることができます。これは、カメラをこのサウンドトラッキングデータと協調するように指示することで実現されます。マイクからのデータに基づくカメラアングルを使用すると、会議を自動的に作成でき、ビデオ出力はTeams、Zoom、またはその他のほとんどのプラットフォームで会議セッションに使用されます。

▶ スピーカートラッキングとは?

CamConnect Proなどの製品により、Lumensは音声追跡マイクとPTZカメラシステムを組み合わせて、インテリジェントなスピーカー追跡を提供します。

その仕組みは次のとおりです。

• スピーカーが話し始める→、カメラ 1 がスピーカーにズームインします。
•ビデオフィードがカメラ1に切り替わります。
• カメラ 2 がその人にズームイン→、別の人が話し始めます。
•システムは自動的にカメラ2に切り替わります。

AVシステムは現在、ユーザーの入力を必要とせずに、テレビのような作品を作成しています。また、大規模な会議を管理することもできます:各カメラは複数の参加者に割り当てられ、部屋にいるすべての出席者をカバーできます。

▶ スピーカートラッキングの進化

マイクとカメラの接続は新しいものではありません。開発者は、数年前から、ライブ音声追跡データに応答するようにAVコントローラーをプログラムすることができました。各インストールの複雑さと独自性のため、このプロセスにはコストがかかる場合があります。Lumensなどのメーカーが達成したのは、ゲームチェンジャーです:CamConnectをネットワークにインストールし、構成し、複数のマイクアレイと最大4台のPTZカメラを数分で使用できるようにすることができます。プログラミングは必要ありません。

▶ ミーティングエクイティからマスアダプションまで

VC-TR60Aカメラの登場により、Lumensは代わりにPTZにスピーカートラッキングを実装しました。このカメラは、声の位置を検出するために設置された天井や壁に取り付けられたマイクに頼るのではなく、ベースに一連の音声検出器が含まれています。VC-TR60Aは、AI対応の画像分析ツールを使用して、センサーによって位置を特定した音が、ドアが閉まる音や車が外から発進する音ではなく、部屋にいる個人から来ているかどうかを特定できます。その後、VC-TR60Aは自動的にアクティブボイスをフレーミングし、ディスカッションをフォローします。
 

 

▶ スピーカートラッキングはどのくらい効果的ですか?

スピーカーの追跡は非常に正確で、理想的な環境で同僚と肩を並べて座っている個人を選び出します。ただし、その精度を低下させる要因があります。

- 部屋のサイズ: 位置データの精度は、基本的にマイクの精度に依存します。マイクからの距離が遠いほど、データの精度は低下します。幸いなことに、CamConnectなどのスピーカートラッキングシステムは、天井スペース全体または大規模な会場の壁に沿って設置できる複数のマイクをサポートできることです。ミーティングエリアを正しくマッピングし、カメラのプリセット位置を設定することで、非常に優れた結果を得ることができます。

- 音響:エコーや反射を最小限に抑えるための注意も払う必要があります:十分に遮音された部屋は、洞窟のような木の床のホールよりも優れたパフォーマンスを発揮します。DSPは、これらの問題の多くを最小限に抑えることができます。

▶ 人間的な要素

人間はそわそわします。彼らは椅子を動かします。彼らはめったにじっと座っていません。スピーカートラッキングがカメラのプリセット位置に依存している場合、古いシステムでは問題を引き起こし、個人のフレーミングミスに悩まされていました。CamConnect Proなどの新しいAI対応システムでは、プリセットを自動的にリフレーミングして、完璧なショットを撮ることができます。

▶ ディスカッションの追跡:ピンポン効果の回避

テニスの試合のように、カメラがスピーカー間を絶えず行き来するビデオ通話を見たい人はいません。これを避けるために、一部のシステムでは、すべてのアクティブボイスをキャプチャするワイドショットにズームするマルチボイスフレーミングモードを使用することができます。

▶ スピーカートラッキングの未来

マルチボイスフレーミングは始まりにすぎません。自動化が進むにつれて、スピーカートラッキングは、プロのテレビ放送に匹敵する全自動のAV制作システムに進化する可能性があります。このテクノロジーがどこまで進歩するかは、時間が経たないとわかりませんが、今のところ、すでにバーチャル会議の体験方法を変えています。
 





 
戻る