2.

 

 

CloudClass:comunicación virtual para la innovación docente

 

 

Título del Capítulo «Platós Virtuales de Televisión: arquitectura, funcionamiento y tecnologías implicadas en la creación de contenidos audiovisuales en realidad mixta en tiempo real»

Autoría: Roi Méndez-Fernández

Cómo citar este Capítulo: Méndez-Fernámdez, R.(2022): «Platós Virtuales de Televisión: arquitectura, funcionamiento y tecnologías implicadas en la creación de contenidos audiovisuales en realidad mixta en tiempo real». En Castelló-Mayo, E.; Méndez-Fernández, R. (coords.), CloudClass: comunicación virtual para la innovacición docente. Salamanca: Comunicación Social Ediciones y Publicaciones.

ISBN: 978-84-17600-78-5

d.o.i.: https://doi.org/10.52495/c2.emcs.15.c45

 

 

 

2. Platós Virtuales de Televisión: arquitectura, funcionamiento y tecnologías implicadas en la creación de contenidos audiovisuales en realidad mixta en tiempo real

 

 

Roi Méndez-Fernández

Universidade de Santiago de Compostela

 

1. Introducción

Un Plató Virtual de Televisión es un estudio capaz de combinar, en directo, imágenes grabadas por cámaras tradicionales con elementos tridimensionales CGI (Computer Generated Imagery o gráficos generados por ordenador) empleando, generalmente, la técnica del chroma-keying (Raditya et al., 2021). Para que esto sea posible, es necesario conocer la posición y orientación de las cámaras situadas en el plató para, de este modo, poder mimetizar su posición en el mundo virtual y que la imagen final de emisión, resultado de unir lo real con lo sintético, sea coherente. Para el correcto funcionamiento de un plató virtual de televisión es necesario disponer, por tanto, de cámaras que capturen una escena real (en la que habitualmente se encuentran los presentadores), ordenadores que generen los fondos virtuales, sensores que permitan conocer la posición de los elementos reales presentes en la escena y chroma-keyers que combinen los mundos real y virtual (Fukui et al., 2015).

El diseño de los primeros platós virtuales de televisión se remonta a los años 90, momento en el que los nuevos desarrollos tecnológicos comenzaron a posibilitar la implementación de nuevos efectos visuales en directo (Moshkovitz, 2000). El desarrollo de los sistemas de render en tiempo real comerciales, junto con la aparición de los primeros sensores de movimiento o el perfeccionamiento del proceso de chromakeying provocaron un súbito y extenso interés en la industria produciéndose numerosos avances en estos campos a lo largo de toda la década de los noventa (Gibbs et al., 1998). En un efecto paralelo al sufrido por la realidad virtual, este boom inicial duró hasta los primeros años del siglo XXI, en los que cayó, en cierta medida, en el olvido. Esta etapa inicial se caracteriza por la adaptación y búsqueda de soluciones en un momento en el que el desarrollo tecnológico era insuficiente para satisfacer las necesidades técnicas y creativas que imponían los platós virtuales. Lo sucedido, desde el punto de vista del desarrollo y uso de la tecnología, coincide perfectamente con el ciclo de sobre expectación definido por Gartner (Dedehayir; Steinert, 2016), en el que durante esta primera etapa se produce un pico de expectativas sobredimensionadas que al no verse cumplidas vuelve a caer en el abismo de la desilusión. A partir del año 2012, con el resurgir de la realidad virtual a partir de la presentación de las gafas Oculus Rift (Anthes et al., 2016), se observa una rampa de consolidación de la tecnología hasta la actual situación en la que se encuentra en su meseta de productividad, siendo una tecnología madura de uso común en numerosos programas de televisión.

A pesar de tratarse de una tecnología que, por su propia concepción, hace uso de los últimos avances en diferentes campos (como los sensores, el render en tiempo real o la integración de imagen real y generada por ordenador) las compañías son muy reticentes a incorporar los nuevos avances de una forma directa y exigen un periodo de prueba que garantice la ausencia total de problemas. Esta es una actitud conservadora, pero, por otra parte, comprensible, ya que se trata de equipamiento que va dirigido a la creación de programas en directo. Pongamos por ejemplo que falla el sensor de una cámara. Esto produciría incoherencias en la imagen de emisión, ya que la cámara real podría hacer desplazamientos que no serían seguidos por la cámara virtual y viceversa. Del mismo modo, si hablamos de la interacción natural por parte del presentador con el entorno sintético, si en un sistema de detección de gestos este detecta un falso positivo (un gesto que el presentador no ha realizado) se podrían lanzar acciones no deseadas en el mundo virtual que podrían afectar de forma muy negativa a la calidad de la producción. Esto hace que la interacción entre los presentadores y su entorno virtual siga siendo muy limitada en la mayoría de los casos y que los últimos avances en visualización avanzada no se incorporen a los sistemas hasta años después de su aparición en el mercado de otras industrias como la de los videojuegos.

Del mismo modo, es en los albores del desarrollo de los platós virtuales de televisión cuando se definen su arquitectura y flujo de trabajo, manteniéndose, hoy en día, prácticamente intactos. En este sentido, Gibbs agrupó, en 1998, los componentes de un plató virtual en cuatro subsistemas que debían trabajar sinérgicamente para que el resultado fuese satisfactorio (Gibbs et al., 1998). Estos eran los subsistemas de render, sensorización y captación de imagen, composición y salida de vídeo. En 2017, propusimos añadir un nuevo subsistema a esta arquitectura original, separando sensorización y captación de imagen en dos subsistemas separados con entidad propia debido a los avances técnicos y tecnológicos aparecidos que recomendaban aplicar los nuevos sensores a nuevos elementos de la escena y no únicamente a las cámaras (Méndez et al., 2017). En el presente capítulo se procede a presentar esta arquitectura, su funcionamiento y las tecnologías implicadas en la creación de estos contenidos audiovisuales en realidad mixta. Para ello, en primer lugar, se describe someramente el funcionamiento de estos equipamientos tecnológicos para, posteriormente, pasar a profundizar en cada uno de los elementos que los componen y finalizar con unas conclusiones y reflexiones sobre la adaptabilidad de estas tecnologías al entorno educativo.

2. Funcionamiento y arquitectura de un plató virtual de televisión

La configuración clásica de un plató virtual de televisión está formada, como se ha comentado previamente, por cinco subsistemas: render, sensorización, captación de imagen, composición y salida de vídeo (Figura 1). Los cuatro primeros son los que están involucrados en la creación de la imagen que será emitida al público, mientras que el cuarto se centra en todos los dispositivos necesarios para llevar a cabo la realización y producción de un programa en directo en un plató tradicional.

La función y componentes de cada uno de estos subsistemas es la siguiente:

De este modo, el funcionamiento es el siguiente: los sensores capturan la posición y orientación de las cámaras (u otros elementos del escenario) y envían esta información a los ordenadores de render. Estos actualizan la información recolocando las cámaras y realizando las acciones correspondientes a la información recibida de los sensores. Una vez actualizada esta información, renderizan el escenario 3D y generan una máscara que permite situar elementos virtuales por delante de los actores reales (proceso denominado distance keying) (Wojdala, 1998). Posteriormente, estas dos imágenes se envían al chroma-keyer. En paralelo, la cámara captura la imagen del escenario de chroma y la envía directamente al chroma-keyer, en el que se realiza la combinación de las tres imágenes (mundo real, mundo virtual y máscara) para obtener una única imagen compuesta de salida que es enviada a la mezcladora de vídeo en la que se acaba de procesar la señal y se envía a emisión.

A continuación se describe más en detalle cada uno de los cuatro subsistemas implicados en la generación y composición de la imagen final de emisión, así como las tecnologías presentes en los mismos en la actualidad y las nuevas tecnologías que están apareciendo en otras industrias y se podrían incorporar a los platós virtuales de televisión en los próximos años.

3. Subsistema de render

El subsistema de render es el encargado de generar los frames o cuadros sintéticos que compondrán los elementos virtuales de la imagen final de emisión. A través de programas específicos, denominados motores de render, este subsistema es capaz de tomar modelos tridimensionales (formados por geometría, animaciones, iluminación, materiales, texturas, etc.) y transformarlos en una imagen generada por ordenador con la que se integrará la imagen real capturada por las cámaras. La gran limitación que presentan los platós virtuales de televisión respecto al render es la necesidad de realizarlo en tiempo real, ya que están pensados para emisiones en directo. Los motores de render necesitan realizar múltiples cálculos matemáticos (especialmente si se desea obtener una imagen realista), con lo que la velocidad de render es inversamente proporcional a la calidad final de la imagen obtenida. Este es el motivo por el cual, tradicionalmente, los entornos tridimensionales que se ven en televisión no son realistas y tienen una calidad gráfica muy inferior a la ofrecida en el cine o incluso en algunos videojuegos.

No obstante, la incorporación de técnicas y motores de render procedentes del mundo de los videojuegos está suponiendo una rápida evolución en la calidad de los contenidos CGI incorporando novedosos algoritmos de iluminación realista en tiempo real (El-Wajeh et al., 2022). Sistemas como Unreal Engine (Fang et al., 2020) están llegando a la industria audiovisual y prometen mejorar sustancialmente la calidad visual de los contenidos CGI.

Por otro lado, además del software específico, el subsistema de render está formado también por el hardware sobre el que se ejecuta. Generalmente, se trata de estaciones de trabajo de alta potencia gráfica y de cálculo que aseguran una estabilidad en el número de cuadros por segundo que pueden ser generados por el sistema. Aunque un único ordenador podría generar el entorno virtual para múltiples cámaras reales (siempre y cuando no se enviase a emisión la composición de más de una cámara) lo más común es que cada cámara disponga de su ordenador de render dedicado. De este modo, el flujo de trabajo de cada línea de vídeo del plató funcionará en paralelo y la realización podrá llevarse a cabo del mismo modo que en un estudio de televisión tradicional.

Respecto a la evolución del hardware, desde el punto de vista del render, en los últimos años han aparecido diferentes tarjetas gráficas que posibilitan la ejecución directamente sobre el hardware de algoritmos de iluminación realista en tiempo real (Sanzharov et al., 2020). Esta evolución es un cambio que aún está por llegar a los platós virtuales de televisión pero que cuando lo haga, unido a la mejora en los motores de render, supondrá un gran cambio en la calidad de los contenidos CGI incluidos en las producciones.

4. Subsistema de sensorización

Como se ha comentado previamente, los sensores se han utilizado, tradicionalmente, para determinar la posición y orientación de las cámaras. No obstante, su utilidad puede ser mucho mayor, ya que conocer, por ejemplo, la posición del presentador en el escenario permite automatizar el posicionamiento relativo de los objetos reales y CGI. Si además de la posición global de los presentadores se realiza un seguimiento de su anatomía al completo, es posible implementar una interacción más realista y natural entre los mundos sintético y real. Se puede, por ejemplo, permitir que los presentadores manipulen objetos CGI con sus propias manos o realicen gestos naturales para lanzar efectos como inicio de vídeos, animaciones, etc. Incluso se podrían animar avatares virtuales mimetizándose con los movimientos del actor (Kang; Li, 2021). Otra de las utilidades que puede tener la sensorización de los actores es la posibilidad de darles retroalimentación sobre su posición en el mundo virtual. Generalmente los presentadores se encuentran en un escenario verde y vacío en el que no existe ningún tipo de referencia más allá de un monitor donde se puede ver la imagen que está siendo emitida. Conociendo la posición del presentador en la escena se le puede dar información cuando se aproxima a un objeto virtual, por ejemplo, a través de actuadores que vibren (Yagi et al., 2021).

Existen diversos tipos de sensores que pueden ser utilizados en un plató virtual de televisión: electromagnéticos, mecánicos, inerciales, ópticos, etc. De entre estas sensorizaciones, las más utilizadas son las ópticas, siendo lo más común la implementación de complejos sistemas de cámaras en una configuración outside-in o inside-out (Pinz et al., 2000). Sin embargo, no es tan común la utilización de dispositvios de bajo coste, ampliamente probados, que podrían tener un impacto muy positivo respecto a las posibilidades interactivas de los platós virtuales, como el sensor Microsoft Kinect (Alabbasi et al., 2015), el Asus Xtion Pro (Swoboda, 2014) o el Intel Realsense (Draelos et al., 2015).

5. Subsistema de captura de imagen

El subsistema de captura de imagen es equivalente al utilizado en un plató tradicional. Está compuesto por las cámaras que graban lo que sucede en el escenario de chroma y no son diferentes de las utilizadas en cualquier otro entorno broadcast. Cabe destacar una tendencia que está apareciendo en los últimos años y es el incremento del uso de cámaras robotizadas (De Wispelaere et al., 2021). Este tipo de cámaras son controladas a distancia y esto facilita que un único operador pueda operar varias en paralelo desde el control de realización. La principal ventaja que presentan desde el punto de vista de los platós virtuales de televisión estriba en el hecho de que, al estar controladas de forma remota, su orientación siempre es conocida y por lo tanto no es necesario el uso de sensores externos. Es posible, incluso, realizar el control de cámaras (indicar el movimiento que deben realizar) desde el propio software de render. Cuando se mueve la cámara virtual, la cámara real simula este movimiento, siendo mucho más sencillo de operar a la vez que requiere un menor número de dispositivos tecnológicos mediando en la realización. La principal desventaja es que este tipo de cámaras están pensadas para estar situadas en un punto fijo del plató, por lo que, si se desea desplazarlas, será necesario recalibrar el sistema situando, de forma manual, la posición de las cámaras virtuales de forma coherente.

6. Subsistema de composición

El subsistema de composición, como se ha comentado previamente, es el encargado de combinar los mundos real y virtual en una única imagen coherente. Para ello, la estrategia más habitual es la utilización de la técnica del chroma-keying. Cuando se utiliza esta solución, el chroma-keyer (que puede ser un dispositivo específico o un proceso algorítmico realizado por software) combina tres señales: la obtenida de las cámaras del estudio, los elementos virtuales renderizados por el subsistema de render y el canal alfa que indica al dispositivo qué elementos virtuales se encuentran delante y cuáles detrás de los elementos reales. Se forma, por tanto, una imagen en tres capas: fondo CGI, personajes y atrezzo del mundo real y elementos CGI situados por delante del mundo real. Esta solución presenta la ventaja de ser la más completa y la que permite una realización más similar a la de un estudio tradicional. Sin embargo, precisa un amplio escenario de chroma así como una iluminación muy cuidada (Maksimović et al., 2018) además de introducir una mayor complejidad que otras soluciones propuestas.

Una de las soluciones más comunes, a día de hoy, en los programas de televisión que hacen uso de un plató virtual, es la de incluir elementos virtuales sobre un fondo real. De esta forma, todos los principios presentados hasta el momento se mantienen a excepción de la posibilidad de tener objetos virtuales situados detrás de los elementos reales. Así, esta solución únicamente utiliza dos capas (fondo real y elementos CGI situados delante) evitando las dificultades técnicas propias del chroma-keying en tiempo real. La principal desventaja de esta solución es la falta de flexibilidad creativa y la propensión a que aparezcan errores visuales cuando un presentador debería estar delante de un objeto sintético pero aparece detrás en la imagen al no existir distance-keying.

Una última solución que permite reducir notablemente los costes consiste en convertir a los presentadores en elementos 3D proyectando la imagen capturada por las cámaras sobre un cuadrilátero presente en la escena. Esto hace que el disntace-keying sea automático (al ser un elemento CGI ya se encuentra en el mundo virtual delante o detrás de ciertos elementos) y que los movimientos de cámara sean virtuales (eliminando la necesidad de sensorizar la cámara real) pero limita notablemente la movilidad del presentador y hace compleja la realización de un programa siguiendo un flujo de trabajo tradicional con multicámara.

7. Conclusión

La tecnología de los platós virtuales de televisión cuenta con una historia de treinta años a lo largo de los cuales ha ido evolucionando tecnológicamente pero manteniendo siempre una arquitectura y flujos de trabajo muy similares. Esta arquitectura, formada por cinco subsistemas (render, sensorización, captura de imagen, composición y salida de vídeo) permite mantener un flujo de trabajo similar al de un plató tradicional, facilitando enormemente la adaptación de técnicos y trabajadores a esta tecnología. Sin embargo, al tratarse de un equipamiento que hace uso de las últimas tecnologías en sus diferentes subsistemas (ordenadores y software de render, sensores, cámaras, etc.) su implementación resulta muy costosa, haciendo que sean accesibles únicamente para grandes corporaciones televisivas.

Para que la utilización de los platós virtuales de televisión en otros ámbitos (como el que nos ocupa en este libro, la docencia) sea posible y realista, es necesaria una adaptación en dos frentes principales. El primero es el económico. Los centros docentes de cualquiera de los niveles educativos disponen de unos recursos económicos muy limitados, por lo que es imprescindible rebajar los costes del equipamiento simplificando los elementos necesarios. Esto se puede conseguir eliminando o limitando el número de sensores necesarios, creando un software con unas licencias más asequibles, reduciendo el tamaño del escenario de chroma que se necesita, simplificando la iluminación y facilitando la realización, ya que en estos entornos no se dispondrá de un equipo profesional formado por varios miembros (cámaras, realizador, técnico de sonido, etc.). La otra línea en la que hay un gran margen de mejora es la simplificación de los flujos de trabajo y el software. En línea con lo comentado previamente, en un instituto, colegio o facultad no es viable mantener un equipo completo de producción únicamente dedicado a la generación de contenidos, por lo que la orientación tradicional en los platós virtuales de televisión hacia un escenario y flujo de trabajo profesional debe ser reorientado hacia un uso más amateur. En este sentido el programa de render debe ser sencillo e intuitivo, debe eliminar (en la medida de lo posible) la necesidad de hardware externo asumiendo las labores del chroma-keyer, la mesa de vídeo, el control de cámaras y el teleprompter entre otros. Del mismo modo, el control del sistema debe de ser posible por parte de una o dos personas para facilitar que el propio profesorado pueda generar sus contenidos individualmente.

El objetivo de CloudClass es lograr, de una forma efectiva y asequible, esta adaptación de una tecnología tan compleja y costosa a un usuario medio (como puede ser el profesorado y alumnado) de forma que algo que estaba reservado a unas pocas grandes productoras audiovisuales se democratice y generalice su uso, mejorando los contenidos docentes en un momento en el que estos materiales, así como la docencia a distancia, están ganando en importancia.

Referencias

Alabbasi, H.; Gradinaru, A.; Moldoveanu, F.; Moldoveanu, A. (2015). Human motion tracking evaluation using Kinect V2 sensor. E-Health and Bioengineering Conference (EHB), 2015, 1-4. https://doi.org/10.1109/EHB.2015.7391465

 

Anthes, C.; García-Hernández, R.J.; Wiedemann, M.; Kranzlmüller, D. (2016). State of the art of virtual reality technology. IEEE Aerospace Conference Proceedings, 2016-June. https://doi.org/10.1109/AERO.2016.7500674

De Wispelaere, T.; Tastenhoye, D.; Van Werde, V.; Young, G.; Vermost, W. (2021). Multicam Live Production in a Virtual Environment. SMPTE 2021 Annual Technical Conference, 1-10. https://doi.org/10.5594/M001932

 

Dedehayir, O.; Steinert, M. (2016). The hype cycle model: A review and future directions. Technological Forecasting and Social Change, 108, 28-41. https://doi.org/10.1016/J.TECHFORE.2016.04.005

Draelos, M.; Qiu, Q.; Bronstein, A.; Sapiro, G. (2015). Intel realsense = Real low cost gaze. 2015 IEEE International Conference on Image Processing (ICIP), 2520-2524. https://doi.org/10.1109/ICIP.2015.7351256

 

El-Wajeh, Y.A.M.; Hatton, P.V.; Lee, N.J. (2022). Unreal Engine 5 and immersive surgical training: translating advances in gaming technology into extended-reality surgical simulation training programmes. British Journal of Surgery, 109(5), 470-471. https://doi.org/10.1093/BJS/ZNAC015

 

Fang, Z.; Cai, L.; Juan, G.; Wang, G. (2020). Interactive movie design based on the game engine technology. ACM International Conference Proceeding Series, 1029-1033. https://doi.org/10.1145/3443467.3443900

 

Fukui, K.; Hayashi, M.; Yamanouchi, Y. (2015). Virtual Studio System for TV Program Production. Advanced Television and Electronic Imaging for Film and Video: SMPTE Advanced Television Imaging Conference, 80-86. https://doi.org/10.5594/M00675

Gibbs, S.; Arapis, C.; Breiteneder, C.; Lalioti, V.; Mostafawy, S.; Speier, J. (1998). Virtual studios: an overview. IEEE MultiMedia, 5(1), 18-35. https://doi.org/10.1109/93.664740

 

Kang, C.Y.; Li, T.Y. (2021). One-Man Movie: A System to Assist Actor Recording in a Virtual Studio. Proceedings - 2021 4th IEEE International Conference on Artificial Intelligence and Virtual Reality, AIVR 2021, 84-91. https://doi.org/10.1109/AIVR52153.2021.00022

Maksimović, V.; Petrović, M.; Jakšić, B.; Ivković, R.; Milošević, I. (2018). Effect of Illumination in Chroma Key Effect in the Realization of Virtual Television Studio. Sinteza 2018 - International Scientific Conference on Information Technology and Data Related Research, 182-188. https://doi.org/10.15308/SINTEZA-2018-182-188

 

Méndez, R.; Flores, J.; Castelló, E.; Viqueira, J.R.R. (2017). New distributed virtual TV set architecture for a synergistic operation of sensors and improved interaction between real and virtual worlds. Multimedia Tools and Applications 2017 77:15, 77(15), 18999-19025. https://doi.org/10.1007/S11042-017-5353-Y

Moshkovitz, M. (2000). The Virtual Studio. Technology & Techniques. Focal Press. Pinz, A.; Brandner, M.; Ganster, H.; Kuvsej, A.; Lang, P.; Ribo, M. (2000). Hybrid Tracking for Augmented Reality. ÖGAI. Raditya, C.; Rizky, M.; Mayranio, S.; Soewito, B. (2021). The Effectivity of Color For Chroma-Key Techniques. Procedia Computer Science, 179, 281-288. https://doi.org/10.1016/J.PROCS.2021.01.007

 

Sanzharov, V.V.; Frolov, V.A.; Galaktionov, V.A. (2020). Survey of Nvidia RTX Technology. Programming and Computer Software 2020 46:4, 46(4), 297–304. https://doi.org/10.1134/S0361768820030068

 

Swoboda, D.M. (2014). A comprehensive characterization of the asus xtion pro depth sensor. I: European Conference on Educational Robotics, 3.

Wojdala, A. (1998). Challenges of virtual set technology. IEEE Multimedia, 5(1), 50-57. https://doi.org/10.1109/93.664742

 

Yagi, N.; Kobayashi, H.; Nishioka, Y.; Izumida, N. (2021). Interaction support for virtual studio by vibration feedback. Https://Doi.Org/10.1117/12.2589959, 11766, 531-536. https://doi.org/10.1117/12.2589959

Figura 1. Arquitectura de un plató virtual de televisión y conexiones entre los diferentes subsistemas.