เทคโนโลยีการติดตามเสียง: ทําไมการมองเห็นถึงเชื่อ

By Lumens

มิถุนายน 06, 2568 629

 

"เราเป็นสิ่งมีชีวิตที่มองเห็นได้ สิ่งที่มองเห็นยังคงอยู่ ในขณะที่เสียงจางหายไป" สตีเวน พิงเกอร์ นักจิตวิทยาของฮาร์วาร์ดกล่าว

แม้ว่าสิ่งนี้อาจเป็นที่ถกเถียงกัน (โดยเฉพาะกับนักดนตรี!) แต่นักวิจัยได้แนะนําว่าในการสนทนาแบบเห็นหน้ากันอย่างน้อย 50% ของการสื่อสารเป็นแบบไม่ใช้คําพูด นั่นหมายความว่าในการประชุม ส่วนวิดีโอของเทคโนโลยีภาพและเสียง (AV) เป็นสิ่งสําคัญ

ซึ่งทําให้เรามีปัญหา

▶ การประชุมอิควิตี้คืออะไร?

กล้องวิดีโอคอนเฟอเรนซ์สมัยใหม่ให้ภาพที่ชัดเจนและสดใสอย่างน่าอัศจรรย์ พวกเขามักจะติดตั้งเทคโนโลยีการจัดเฟรมอัตโนมัติที่ชาญฉลาด จึงสามารถซูมเข้าโดยอัตโนมัติเพื่อจับภาพผู้คนในห้อง ไม่ใช่พื้นที่รอบตัว ผลลัพธ์ที่ได้นั้นดี โดยมุ่งเน้นไปที่ผู้เข้าร่วมโดยตรง แต่มันไม่ได้แก้ปัญหาสําคัญอย่างเต็มที่

สําหรับผู้เข้าร่วมระยะไกล การติดตามการสนทนาอาจเป็นเรื่องยาก เป็นการยากที่จะบอกว่าใครกําลังพูดหรือตอบสนองต่อใคร สิ่งนี้สร้างปัญหาที่เรียกว่าความเท่าเทียมกันในการประชุม ซึ่งผู้เข้าร่วมประชุมแบบตัวต่อตัวมีประสบการณ์ที่ดีกว่าผู้เข้าร่วมเสมือนจริง

▶ โซลูชันโทรทัศน์

ผู้ผลิตได้สร้างรายการสนทนาทางทีวีที่น่าสนใจมานานหลายทศวรรษ โดยสร้างแบบจําลองในอุดมคติสําหรับการดึงดูดความสนใจของผู้ชมและบอกเล่าเรื่องราวอย่างมีประสิทธิภาพ มีองค์ประกอบมาตรฐานที่ผู้แพร่ภาพกระจายเสียงได้ทําซ้ําไปทั่วโลกและตลอดหลายทศวรรษที่ผ่านมา ซึ่งรวมถึง:
 
- มุมกล้องหลายมุม
- ภาพที่จัดตั้งกว้างเพื่อให้บริบทในการอภิปราย
- ภาพระยะใกล้ของผู้พูดที่ใช้งานอยู่
- กรอบคนหลายคนระหว่างการอภิปรายไปมา
- การสลับกล้องอัจฉริยะเพื่อให้ได้มุมที่ดีที่สุด

 

▶ AV สามารถจับคู่ทีวีได้หรือไม่?

เทคนิคทั้งหมดนี้มีให้สําหรับผู้เชี่ยวชาญด้านการประชุม ในการประชุมสาธารณะที่มีชื่อเสียง เช่น การประชุม G20 การบันทึกและออกอากาศอุปกรณ์ AV จะเทียบเท่ากับเทคโนโลยีที่ใช้โดยสถานีโทรทัศน์

สําหรับการประชุมผู้บริหารและเซสชันสาธารณะบางราย ผู้ปฏิบัติงานคนเดียวที่จัดการกล้อง PTZ หลายตัวคือคําตอบ ผลลัพธ์ที่ยอดเยี่ยมสามารถทําได้โดยผู้ผลิตที่มีทักษะที่ผู้ควบคุมโดยใช้ประสบการณ์และสัญชาตญาณในการจับภาพการสนทนาอย่างซื่อสัตย์และในลักษณะที่น่าสนใจสําหรับผู้ชมและผู้เข้าร่วมระยะไกล

ความสําคัญของการรักษาความลับของการประชุม (เช่นในการอภิปรายด้านการเงินสุขภาพหรือการดูแลสังคม) การปฏิบัติจริงของการติดตั้งและใช้งานอุปกรณ์ที่ซับซ้อนและต้นทุนสูงที่จําเป็นหมายความว่านี่เป็นข้อยกเว้นมากกว่ากฎ ยิ่งไปกว่านั้นด้วยการประชุมเสมือนจริงที่เพิ่มขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมาการมีโอเปอเรเตอร์สําหรับการประชุมแต่ละครั้งและพื้นที่การประชุมทุกแห่งนั้นไม่สามารถทําได้อย่างชัดเจน
 

โซลูชัน AV: เทคโนโลยีการติดตามเสียง
▶ การติดตามด้วยเสียงคืออะไร?

ไมโครโฟนในห้องประชุมสายพันธุ์ใหม่ (ลองนึกถึง Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 และอื่น ๆ ที่คล้ายกัน) มาถึงแล้ว ผลิตภัณฑ์เหล่านี้มีเทคโนโลยี DOA (ทิศทางการมาถึง) ที่ตรวจจับตําแหน่งของแหล่งกําเนิดเสียง เหตุใดสิ่งนี้จึงสําคัญ

1. ไมโครโฟนติดตามเสียงช่วยขจัดความยุ่งยากในการประชุมทั่วไป เช่น เสียงอู้อี้ การรับเสียงระยะไกล และคําพูดที่ทับซ้อนกัน พวกเขาทําให้แน่ใจว่าผู้เข้าร่วมทุกคนไม่ว่าจะอยู่ที่ไหนจะได้ยินอย่างชัดเจนและง่ายดาย

2. สิ่งนี้สามารถช่วยให้กล้องวิดีโอโฟกัสไปที่บุคคลที่พูดได้โดยอัตโนมัติ

นี่คือตัวเปลี่ยนเกมสําหรับการประชุมทางวิดีโอ การติดตามด้วยเสียงกําลังเปลี่ยนวิธีการรวมกล้องและโต้ตอบกับการสนทนาสด
 

 

▶ การรวมการติดตามผู้พูดกับกล้อง

การใช้ประโยชน์จากพลังของการติดตามด้วยเสียง ข้อมูลตําแหน่งของอาร์เรย์ไมโครโฟนจะถูกแชร์แบบเรียลไทม์กับโปรเซสเซอร์ภายนอก สิ่งนี้จะเชื่อมโยงกับกล้อง PTZ หลายตัว การผสมผสานระหว่างกล้อง/ไมโครโฟนช่วยให้กล้องสามารถโฟกัสที่เสียงที่ใช้งานอยู่ในพื้นที่ประชุมได้ทันที ทําได้โดยการสั่งให้กล้องประสานงานกับข้อมูลการติดตามเสียงนี้ ด้วยมุมกล้องตามข้อมูลจากไมโครโฟน การประชุมจึงสามารถสร้างได้โดยอัตโนมัติ โดยมีเอาต์พุตวิดีโอที่ใช้โดย Teams, Zoom หรือแพลตฟอร์มอื่นๆ ส่วนใหญ่สําหรับเซสชันการประชุม

▶ การติดตามผู้พูดคืออะไร?

ด้วยผลิตภัณฑ์อย่าง CamConnect Pro Lumens ผสมผสานไมโครโฟนติดตามเสียงเข้ากับระบบกล้อง PTZ เพื่อมอบการติดตามผู้พูดอัจฉริยะ

นี่คือวิธีการทํางาน:

• ลําโพงเริ่มพูด→กล้อง 1 ซูมเข้าที่ลําโพง
• ฟีดวิดีโอจะเปลี่ยนเป็นกล้อง 1
• อีกคนหนึ่งเริ่มพูด→กล้อง 2 ซูมเข้าที่พวกเขา
• ระบบจะเปลี่ยนเป็นกล้อง 2 โดยอัตโนมัติ

ขณะนี้ระบบ AV กําลังสร้างการผลิตที่เหมือนทีวีโดยไม่จําเป็นต้องป้อนข้อมูลจากผู้ใช้ และสามารถจัดการการประชุมขนาดใหญ่ได้: กล้องแต่ละตัวถูกมอบหมายให้กับผู้แทนหลายคนเพื่อให้ครอบคลุมผู้เข้าร่วมทุกคนในห้อง

▶ วิวัฒนาการของการติดตามลําโพง

การเชื่อมต่อไมโครโฟนกับกล้องไม่ใช่เรื่องใหม่ นักพัฒนาสามารถตั้งโปรแกรมคอนโทรลเลอร์ AV เพื่อตอบสนองต่อข้อมูลการติดตามเสียงสดได้เป็นเวลาหลายปี เนื่องจากความซับซ้อนและความเป็นเอกลักษณ์ของการติดตั้งแต่ละครั้งกระบวนการจึงอาจมีราคาแพง สิ่งที่ผู้ผลิตเช่น Lumens ประสบความสําเร็จคือตัวเปลี่ยนเกม: สามารถติดตั้ง CamConnect บนเครือข่าย กําหนดค่า และพร้อมใช้งานกับอาร์เรย์ไมโครโฟนหลายตัวและกล้อง PTZ สูงสุด 4 ตัวในเวลาไม่กี่นาที ไม่จําเป็นต้องเขียนโปรแกรม

▶ จากการประชุมความเท่าเทียมกันสู่การยอมรับจํานวนมาก

ด้วยการมาถึงของกล้อง VC-TR60A Lumens ได้นําการติดตามลําโพงมาใช้ใน PTZ แทน แทนที่จะพึ่งพาไมโครโฟนติดเพดานหรือติดผนังเพื่อตรวจจับตําแหน่งของเสียง กล้องนี้มีเครื่องตรวจจับเสียงมากมายที่ฐาน การใช้เครื่องมือวิเคราะห์ภาพที่เปิดใช้งาน AI VC-TR60A สามารถระบุได้ว่าเสียงที่เซ็นเซอร์ระบุมาจากบุคคลในห้องหรือไม่ ไม่ใช่การปิดประตูหรือรถสตาร์ทภายนอก จากนั้น VC-TR60A จะจัดกรอบเสียงที่ใช้งานอยู่โดยอัตโนมัติและติดตามการอภิปราย
 

 

▶ การติดตามผู้พูดมีประสิทธิภาพแค่ไหน?

การติดตามผู้พูดสามารถแม่นยําอย่างไม่น่าเชื่อ โดยเลือกบุคคลที่นั่งเคียงบ่าเคียงไหล่กับเพื่อนร่วมงานในสภาพแวดล้อมที่เหมาะสม อย่างไรก็ตาม มีปัจจัยที่สามารถลดความแม่นยําได้

-  ขนาดห้อง: ความถูกต้องของข้อมูลตําแหน่งขึ้นอยู่กับความแม่นยําของไมโครโฟน ยิ่งห่างจากไมโครโฟนมากเท่าไหร่ ข้อมูลก็จะยิ่งแม่นยําน้อยลงเท่านั้น ข่าวดีก็คือระบบติดตามลําโพง เช่น CamConnect สามารถรองรับไมโครโฟนหลายตัวที่สามารถติดตั้งบนพื้นที่เพดานหรือตามผนังของสถานที่ขนาดใหญ่ได้ ด้วยการแมปพื้นที่ประชุมอย่างถูกต้องและการตั้งค่าตําแหน่งที่ตั้งไว้ล่วงหน้าของกล้อง ผลลัพธ์จะยอดเยี่ยมอย่างแท้จริง

- อะคูสติก: ต้องใช้ความระมัดระวังเพื่อลดเสียงสะท้อนและการสะท้อน: ห้องที่หุ้มฉนวนกันเสียงได้ดีจะทํางานได้ดีกว่าห้องโถงพื้นไม้ในถ้ํา DSP สามารถลดปัญหาเหล่านี้ได้หลายประการ

▶ องค์ประกอบของมนุษย์

มนุษย์อยู่ไม่สุข พวกเขาย้ายเก้าอี้ พวกเขาไม่ค่อยนั่งนิ่ง ในกรณีที่การติดตามผู้พูดขึ้นอยู่กับตําแหน่งที่ตั้งไว้ล่วงหน้าของกล้องสิ่งนี้ทําให้เกิดปัญหากับระบบรุ่นเก่าซึ่งได้รับผลกระทบจากการจัดเฟรมที่ไม่ถูกต้อง ด้วยระบบใหม่ที่เปิดใช้งาน AI เช่น CamConnect Pro สามารถจัดเฟรมค่าที่ตั้งไว้ล่วงหน้าใหม่โดยอัตโนมัติเพื่อให้แน่ใจว่าได้ภาพที่สมบูรณ์แบบ

▶ การติดตามการสนทนา: หลีกเลี่ยงเอฟเฟกต์ปิงปอง

ไม่มีใครอยากดูแฮงเอาท์วิดีโอที่กล้องกระโดดไปมาระหว่างลําโพงตลอดเวลาเหมือนการแข่งขันเทนนิส เพื่อหลีกเลี่ยงปัญหานี้บางระบบสามารถใช้โหมดการจัดเฟรมหลายเสียงซึ่งจะซูมไปยังช็อตที่กว้างขึ้นซึ่งจับเสียงที่ใช้งานอยู่ทั้งหมด

▶ อนาคตของการติดตามลําโพง

การจัดเฟรมหลายเสียงเป็นเพียงจุดเริ่มต้น การติดตามผู้พูดสามารถพัฒนาเป็นระบบการผลิต AV อัตโนมัติเต็มรูปแบบ ซึ่งแข่งขันกับการออกอากาศทางทีวีระดับมืออาชีพ เวลาเท่านั้นที่จะบอกได้ว่าเทคโนโลยีนี้จะไปได้ไกลแค่ไหน แต่สําหรับตอนนี้ เทคโนโลยีนี้ได้เปลี่ยนวิธีที่เราสัมผัสกับการประชุมเสมือนจริงแล้ว
 





 
ย้อนกลับ