By Lumens
มิถุนายน 06, 2568 611
"เราเป็นสิ่งมีชีวิตที่มองเห็นได้ สิ่งที่มองเห็นยังคงอยู่ ในขณะที่เสียงจางหายไป" สตีเวน พิงเกอร์ นักจิตวิทยาของฮาร์วาร์ดกล่าว
แม้ว่าสิ่งนี้อาจเป็นที่ถกเถียงกัน (โดยเฉพาะกับนักดนตรี!) แต่นักวิจัยได้แนะนําว่าในการสนทนาแบบเห็นหน้ากันอย่างน้อย 50% ของการสื่อสารเป็นแบบไม่ใช้คําพูด นั่นหมายความว่าในการประชุม ส่วนวิดีโอของเทคโนโลยีภาพและเสียง (AV) เป็นสิ่งสําคัญ
กล้องวิดีโอคอนเฟอเรนซ์สมัยใหม่ให้ภาพที่ชัดเจนและสดใสอย่างน่าอัศจรรย์ พวกเขามักจะติดตั้งเทคโนโลยีการจัดเฟรมอัตโนมัติที่ชาญฉลาด จึงสามารถซูมเข้าโดยอัตโนมัติเพื่อจับภาพผู้คนในห้อง ไม่ใช่พื้นที่รอบตัว ผลลัพธ์ที่ได้นั้นดี โดยมุ่งเน้นไปที่ผู้เข้าร่วมโดยตรง แต่มันไม่ได้แก้ปัญหาสําคัญอย่างเต็มที่
สําหรับผู้เข้าร่วมระยะไกล การติดตามการสนทนาอาจเป็นเรื่องยาก เป็นการยากที่จะบอกว่าใครกําลังพูดหรือตอบสนองต่อใคร สิ่งนี้สร้างปัญหาที่เรียกว่าความเท่าเทียมกันในการประชุม ซึ่งผู้เข้าร่วมประชุมแบบตัวต่อตัวมีประสบการณ์ที่ดีกว่าผู้เข้าร่วมเสมือนจริง
เทคนิคทั้งหมดนี้มีให้สําหรับผู้เชี่ยวชาญด้านการประชุม ในการประชุมสาธารณะที่มีชื่อเสียง เช่น การประชุม G20 การบันทึกและออกอากาศอุปกรณ์ AV จะเทียบเท่ากับเทคโนโลยีที่ใช้โดยสถานีโทรทัศน์
สําหรับการประชุมผู้บริหารและเซสชันสาธารณะบางราย ผู้ปฏิบัติงานคนเดียวที่จัดการกล้อง PTZ หลายตัวคือคําตอบ ผลลัพธ์ที่ยอดเยี่ยมสามารถทําได้โดยผู้ผลิตที่มีทักษะที่ผู้ควบคุมโดยใช้ประสบการณ์และสัญชาตญาณในการจับภาพการสนทนาอย่างซื่อสัตย์และในลักษณะที่น่าสนใจสําหรับผู้ชมและผู้เข้าร่วมระยะไกล
ความสําคัญของการรักษาความลับของการประชุม (เช่นในการอภิปรายด้านการเงินสุขภาพหรือการดูแลสังคม) การปฏิบัติจริงของการติดตั้งและใช้งานอุปกรณ์ที่ซับซ้อนและต้นทุนสูงที่จําเป็นหมายความว่านี่เป็นข้อยกเว้นมากกว่ากฎ ยิ่งไปกว่านั้นด้วยการประชุมเสมือนจริงที่เพิ่มขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมาการมีโอเปอเรเตอร์สําหรับการประชุมแต่ละครั้งและพื้นที่การประชุมทุกแห่งนั้นไม่สามารถทําได้อย่างชัดเจน
ไมโครโฟนในห้องประชุมสายพันธุ์ใหม่ (ลองนึกถึง Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 และอื่น ๆ ที่คล้ายกัน) มาถึงแล้ว ผลิตภัณฑ์เหล่านี้มีเทคโนโลยี DOA (ทิศทางการมาถึง) ที่ตรวจจับตําแหน่งของแหล่งกําเนิดเสียง เหตุใดสิ่งนี้จึงสําคัญ
1. ไมโครโฟนติดตามเสียงช่วยขจัดความยุ่งยากในการประชุมทั่วไป เช่น เสียงอู้อี้ การรับเสียงระยะไกล และคําพูดที่ทับซ้อนกัน พวกเขาทําให้แน่ใจว่าผู้เข้าร่วมทุกคนไม่ว่าจะอยู่ที่ไหนจะได้ยินอย่างชัดเจนและง่ายดาย
2. สิ่งนี้สามารถช่วยให้กล้องวิดีโอโฟกัสไปที่บุคคลที่พูดได้โดยอัตโนมัติ
นี่คือตัวเปลี่ยนเกมสําหรับการประชุมทางวิดีโอ การติดตามด้วยเสียงกําลังเปลี่ยนวิธีการรวมกล้องและโต้ตอบกับการสนทนาสด
การใช้ประโยชน์จากพลังของการติดตามด้วยเสียง ข้อมูลตําแหน่งของอาร์เรย์ไมโครโฟนจะถูกแชร์แบบเรียลไทม์กับโปรเซสเซอร์ภายนอก สิ่งนี้จะเชื่อมโยงกับกล้อง PTZ หลายตัว การผสมผสานระหว่างกล้อง/ไมโครโฟนช่วยให้กล้องสามารถโฟกัสที่เสียงที่ใช้งานอยู่ในพื้นที่ประชุมได้ทันที ทําได้โดยการสั่งให้กล้องประสานงานกับข้อมูลการติดตามเสียงนี้ ด้วยมุมกล้องตามข้อมูลจากไมโครโฟน การประชุมจึงสามารถสร้างได้โดยอัตโนมัติ โดยมีเอาต์พุตวิดีโอที่ใช้โดย Teams, Zoom หรือแพลตฟอร์มอื่นๆ ส่วนใหญ่สําหรับเซสชันการประชุม
นี่คือวิธีการทํางาน:
• ลําโพงเริ่มพูด→กล้อง 1 ซูมเข้าที่ลําโพง
• ฟีดวิดีโอจะเปลี่ยนเป็นกล้อง 1
• อีกคนหนึ่งเริ่มพูด→กล้อง 2 ซูมเข้าที่พวกเขา
• ระบบจะเปลี่ยนเป็นกล้อง 2 โดยอัตโนมัติ
ขณะนี้ระบบ AV กําลังสร้างการผลิตที่เหมือนทีวีโดยไม่จําเป็นต้องป้อนข้อมูลจากผู้ใช้ และสามารถจัดการการประชุมขนาดใหญ่ได้: กล้องแต่ละตัวถูกมอบหมายให้กับผู้แทนหลายคนเพื่อให้ครอบคลุมผู้เข้าร่วมทุกคนในห้อง
การเชื่อมต่อไมโครโฟนกับกล้องไม่ใช่เรื่องใหม่ นักพัฒนาสามารถตั้งโปรแกรมคอนโทรลเลอร์ AV เพื่อตอบสนองต่อข้อมูลการติดตามเสียงสดได้เป็นเวลาหลายปี เนื่องจากความซับซ้อนและความเป็นเอกลักษณ์ของการติดตั้งแต่ละครั้งกระบวนการจึงอาจมีราคาแพง สิ่งที่ผู้ผลิตเช่น Lumens ประสบความสําเร็จคือตัวเปลี่ยนเกม: สามารถติดตั้ง CamConnect บนเครือข่าย กําหนดค่า และพร้อมใช้งานกับอาร์เรย์ไมโครโฟนหลายตัวและกล้อง PTZ สูงสุด 4 ตัวในเวลาไม่กี่นาที ไม่จําเป็นต้องเขียนโปรแกรม
ด้วยการมาถึงของกล้อง VC-TR60A Lumens ได้นําการติดตามลําโพงมาใช้ใน PTZ แทน แทนที่จะพึ่งพาไมโครโฟนติดเพดานหรือติดผนังเพื่อตรวจจับตําแหน่งของเสียง กล้องนี้มีเครื่องตรวจจับเสียงมากมายที่ฐาน การใช้เครื่องมือวิเคราะห์ภาพที่เปิดใช้งาน AI VC-TR60A สามารถระบุได้ว่าเสียงที่เซ็นเซอร์ระบุมาจากบุคคลในห้องหรือไม่ ไม่ใช่การปิดประตูหรือรถสตาร์ทภายนอก จากนั้น VC-TR60A จะจัดกรอบเสียงที่ใช้งานอยู่โดยอัตโนมัติและติดตามการอภิปราย
การติดตามผู้พูดสามารถแม่นยําอย่างไม่น่าเชื่อ โดยเลือกบุคคลที่นั่งเคียงบ่าเคียงไหล่กับเพื่อนร่วมงานในสภาพแวดล้อมที่เหมาะสม อย่างไรก็ตาม มีปัจจัยที่สามารถลดความแม่นยําได้
- ขนาดห้อง: ความถูกต้องของข้อมูลตําแหน่งขึ้นอยู่กับความแม่นยําของไมโครโฟน ยิ่งห่างจากไมโครโฟนมากเท่าไหร่ ข้อมูลก็จะยิ่งแม่นยําน้อยลงเท่านั้น ข่าวดีก็คือระบบติดตามลําโพง เช่น CamConnect สามารถรองรับไมโครโฟนหลายตัวที่สามารถติดตั้งบนพื้นที่เพดานหรือตามผนังของสถานที่ขนาดใหญ่ได้ ด้วยการแมปพื้นที่ประชุมอย่างถูกต้องและการตั้งค่าตําแหน่งที่ตั้งไว้ล่วงหน้าของกล้อง ผลลัพธ์จะยอดเยี่ยมอย่างแท้จริง
- อะคูสติก: ต้องใช้ความระมัดระวังเพื่อลดเสียงสะท้อนและการสะท้อน: ห้องที่หุ้มฉนวนกันเสียงได้ดีจะทํางานได้ดีกว่าห้องโถงพื้นไม้ในถ้ํา DSP สามารถลดปัญหาเหล่านี้ได้หลายประการ
มนุษย์อยู่ไม่สุข พวกเขาย้ายเก้าอี้ พวกเขาไม่ค่อยนั่งนิ่ง ในกรณีที่การติดตามผู้พูดขึ้นอยู่กับตําแหน่งที่ตั้งไว้ล่วงหน้าของกล้องสิ่งนี้ทําให้เกิดปัญหากับระบบรุ่นเก่าซึ่งได้รับผลกระทบจากการจัดเฟรมที่ไม่ถูกต้อง ด้วยระบบใหม่ที่เปิดใช้งาน AI เช่น CamConnect Pro สามารถจัดเฟรมค่าที่ตั้งไว้ล่วงหน้าใหม่โดยอัตโนมัติเพื่อให้แน่ใจว่าได้ภาพที่สมบูรณ์แบบ
ไม่มีใครอยากดูแฮงเอาท์วิดีโอที่กล้องกระโดดไปมาระหว่างลําโพงตลอดเวลาเหมือนการแข่งขันเทนนิส เพื่อหลีกเลี่ยงปัญหานี้บางระบบสามารถใช้โหมดการจัดเฟรมหลายเสียงซึ่งจะซูมไปยังช็อตที่กว้างขึ้นซึ่งจับเสียงที่ใช้งานอยู่ทั้งหมด
การจัดเฟรมหลายเสียงเป็นเพียงจุดเริ่มต้น การติดตามผู้พูดสามารถพัฒนาเป็นระบบการผลิต AV อัตโนมัติเต็มรูปแบบ ซึ่งแข่งขันกับการออกอากาศทางทีวีระดับมืออาชีพ เวลาเท่านั้นที่จะบอกได้ว่าเทคโนโลยีนี้จะไปได้ไกลแค่ไหน แต่สําหรับตอนนี้ เทคโนโลยีนี้ได้เปลี่ยนวิธีที่เราสัมผัสกับการประชุมเสมือนจริงแล้ว