{:en}Apple Vision Pro. Is it a game changer for 3D?{:}{:es}Apple Vision Pro ¿Qué novedades aporta al 3D?{:}

{:en}

Apple Vision Pro is the entirely new device Apple is bringing next year. This device is both something already seen on other devices, but also something entirely new.

Basically, Apple Vision Pro is an AR (Augmented Reality) device, but made using highly advanced VR (Virtual Reality) technology. This way they can avoid all the big drawbacks that limit AR headsets to unleash all their potential, making it the best AR headset. At any moment, the device can become into the sharpest VR headset, it can be any of both, or mix them, is the ultimate Mixed Reality device.

Like the HoloLens 2 (the most advanced AR headset until now), the headset presents an interface above the real world. But Vision Pro interface is more flat than HoloLens, and mainly using 2d interfaces, icons have depth layers, but they basically continue being 2d. The first HoloLens already had a complete 3D interface, using 3D icons and tools, presented on an angled canvas, instead of completely flat. In Vision Pro, the user can move the canvas of each App to the sides, and it will rotate a bit, but they will still look flat. Instead, they use 3D to project realistic shadows and illumination to the room.

Being an VR headset in the core, they offer the possibility to replace the real world and gain immersion with the simple turn of a digital crown. This allows choosing how much virtual or real world do you want to see.

AR or VR? Why not a transition between both? You can adjust how much real and virtual environments with the digital crown.

Interaction with the Apps is done with voice, eye-tracking, and gestures in the air with your fingers. Looking at icons or interface options slightly enlarges them, or changes how bold they appear. Firsts hand-on shows a smooth experience, eye-tracking and gestures are intuitive, and the interface worked impressively smooth for a prototype (most experts say it seems 120Hz), there’s no any sign of lag on interactions.

The device is smart enough to detect when another person is at sight, interacting with you. At that moment, an external lenticular 3D multiview display (yes, a 3D display outside the device), shows to the other person the eyes of the user in 3D. People will think they are looking at your real eyes through a glass, but they’re looking at a 3D display. Let’s hope they use the glasses-free 3D display as well for other indications while you’re using the device (like 3D icons or emojis, or selectable “no disturb” type warnings).

The EyeSight function allows the user to interact with the other person naturally without having to remove their glasses. When someone is closing to you to give you something, the interface vanishes around that person. Everything is automatic.

It seems a transparent glass, but the face and eyes of the user are shown in 3D on a lenticular multiview external display.

The ability to see the real world in an unprecedented resolution allows using real keyboards with the system or interact with other displays like your smartphone, without having any problem reading small texts. The first thing you notice when you wear the headset is the impressive resolution, much better than any other headset. The video pass-through appeared with zero latency and was sharp, crisp, smooth, and clear. When you look at a Mac computer, the programs automatically jump off the screen and fill the real world to better interact with them. But, unlike with HoloLens, the interface is the same, only 2d windows. Interaction also works with iPhone and iPad, but we don’t know how it will look.

The headset allows capturing Spatial photos and videos, and Apple say Vision Pro is their first 3D camera, but that’s not true: They have TrueDepth 3D cameras integrated on many Apple devices. And you can capture images with depth map with the back cameras on most iPhone models, including recording videos in ProRes mode. We also have been using the iPhone 11 Pro as a traditional two lenses 3D camera almost since its launch. Those who wore the headset said that the spatial video captured with Vision Pro looks incredible.

You can take spatial photos and videos with the touch of a button

Added to Spatial media, you can watch panoramas taken with your iPhone in an immersive mode (in 3D?). But they didn’t mention photos captured in portrait mode, which contains a depth map to reconstruct the depth of the image (numerous Apps already do this), it’s strange they don’t take advantage of this. At least, Leia confirmed it will work to bring Leia’s LIF 3D pictures to the Vision Pro (maybe even LeiaLink would do the work from iPhone to Vision Pro).

Likewise, It is also strange that FaceTime calls only work in 3D with other Vision Pro users but not with users with TrueDepth camera. Firsts impressions of FaceTime in 3D are as impressive as spatial videos. The system uses a previous scan of your face, and then they apply your expressions in real time to that model.
Apple devices are using front TrueDepth cameras for years, so, they technically could send the 3D image from that devices to any FaceTime call.

With your face previously scanned, FaceTime sends your reconstructed face in 3D, mimicking your gestures and expressions in real time

Spatial images and videos appear inside a square window (resizable), but it seems you can’t fill all your space with them like you can do with panoramas.

Watching Spatial videos and Panoramas representation, it’s pretty sure you won’t be able to see so many angles of the image (and don’t need to).

Let’s talk about movies. You can watch a movie and your room will appear darker along with realistic reflections from the movie images, like there was a real display in your room. Or you can totally replace your environment with a virtual one by simply using the digital crown to adjust how much real and virtual environments are visible.

Now, the important things. With Vision Pro, you can watch 3D movies with “incredible depth and crisp motion”[…] They were explaining this while showing images of Avatar: The Way of Water. So, it seems, we will finally be able to watch Avatar 2 in 3D (and HFR?) at home.

Beyond traditional video, they showed Apple Immersive Video (180-degree 3D 8K recordings with Spatial Audio) NBA, soccer, concerts, documentaries, etc. This specific content for Vision Pro allows, for example, a giant screen with a Jurassic environment on your wall, from which a dinosaur appears and enters your room, all in Stereoscopic 3D, of course.

Then they mentioned games, with 100 Apple Arcade games available for the launch, unfortunately it seems they are 2d. Let’s hope developers can make the games to show in 3D on the virtual screen, instead of playing on a virtual 2d screen. Games can be played with controllers, like the Xbox and the DualSense controllers.

Using a 3D device to play the games in 2d… Lost opportunity!

Unconnected with the segment speaking of 3D movies, Disney showcased their Disney+ App for Vision Pro. But instead of offering their contents in 3D, they have chosen to add additional (and very distracting) elements to the program you’re watching. If you are watching a 2d content, and start to add 3D elements and environments outside the content, the viewer will bring more attention to that distractions instead to actually watching the movie/series.

The 3D environment will steal attention from the flat 2d content you’re watching

If they only would use the new Leia Media SDK we talked about in our previous article… They could instantly bring their shows in 3D, instead of adding 3D distractions. Disney doesn’t even mention anything about their catalog of 3D movies… A total deception. Fortunately, Apple is bringing us 3D movies through their store.

The external glasses-free 3D display

The device packs two micro OLED +4K displays with 64x more density than the iPhone’s retina display. That’s 24 million pixels, triple resolution than current VR headsets. The sound is also 3D, the spatial audio takes in account your surroundings in the room, using audio ray tracing, making the sound realistic according to your room. All cameras and sensors are powered by two processors, one well-known powerful M2 processor, and a new R1 processor specialized in processing all spatial data in 12 milliseconds, so interactions won’t have any lag.

Everything is private on the device, the iris recognition will be able to authenticate the user just like FaceID does; And just like FaceID, all information is stored securely only on the device. No information is sent to any server. No Apps can access your biometric data, nor can capture or map your room. All is processed locally, and no Apps have access to the data captured by the sensors and cameras; They can work without knowing the real environment the device is processing. Websites don’t even know where you’re looking until you virtually click a button (Chrome and Windows users are tracked even by mouse movements).

The operating system is designed from the ground, and is called VisionOS, which manages real-time data, spatial audio, multi-app 3D engine and spatial frameworks, along with foveated renderer and traditional iOS framework. Developers can use existing development tools by Apple: SwiftUI, XCode, ARKit, RealityKit, and the new Reality Composer Pro (which allows to simulate environments), as well as Unity (with access to all features). Third parties can also use the Apple Spatial Video format.

Examples of uses are, of course, visualization of animated and interactive 3D models (but at a huge scale), a spatial version of Djay using 3D mixers and 3D buttons for effects, or a virtual planetarium on the ceiling of the room.

Launch is expected early 12024 (Holocene calendar), so there’s still time to improve things, but we have mixed feelings about what it offers. The purpose of this expensive first generation is to leave time for developers to create a good ecosystem of Apps and solutions, while Apple works to improve size, weight, battery, and above all, price, for successive generations.

Our conclusion is optimistic, but they should take even more advantage of the 3D information their devices already process. They should use the depth maps of portrait mode photos and TrueDepth cameras, interfaces should be truly spatial, and use 3d objects. Another obvious nice addition would be to use polygonal information on video games to render them in Stereoscopic 3D, or use a second camera (Unity is already capable of both).

Now is the opportunity for Microsoft to take advantage of their fully 3D ecosystem for HoloLens, even since the first HoloLens there are very few 2d elements on the system, most things are rendered in 3D. Microsoft could present a revolutionary HoloLens 3, transitioning their AR hardware to a high-resolution VR headset, so they can equally Apple hardware possibilities, but with their perfected 3D ecosystem: they are pioneers, the first HoloLens appeared 13 years ago, and their interfaces were already using more 3D elements than the new Vision Pro.

That way, there will be a friendly war between the two platforms, and users will benefit from the efforts of the two brands trying to be better than the other. Android devices will also try to enter that war (with better approaches than today’s headsets, already obsolete after this presentation)

The data in this article was carefully curated from both official data and several first-hand impressions from well-known XR experts, who had already tested the device.

{:}{:es}

Apple Vision Pro es el dispositivo totalmente nuevo que Apple traerá el año que viene. Este dispositivo es a la vez algo ya visto en otros dispositivos, pero también algo totalmente nuevo.

Básicamente, Apple Vision Pro es un dispositivo de RA (Realidad Aumentada), pero fabricado con tecnología de RV (Realidad Virtual) muy avanzada. De este modo pueden evitar todos los grandes inconvenientes que limitan los visores AR para liberar todo su potencial, convirtiéndolo en el mejor visor AR. En cualquier momento, el dispositivo puede convertirse en el mejor casco de RV, puede ser cualquiera de los dos, o mezclar ambos conceptos, es el dispositivo de Realidad Mixta definitivo.

Como las HoloLens 2 (el visor de RA más avanzado hasta ahora), el visor presenta un interfaz por encima del mundo real. Pero la interfaz de Vision Pro es más plana que la de HoloLens, y utiliza principalmente interfaces 2d, los iconos tienen capas de profundidad, pero básicamente siguen siendo 2d. Las primeras HoloLens ya tenían una interfaz 3D completa, que utilizaba iconos y herramientas 3D, presentados en un lienzo en ángulo, en lugar de completamente planos. En Vision Pro, el usuario puede mover el lienzo de cada App hacia los lados, y girará un poco, pero seguirán siendo planos. En cambio, utilizan el 3D para proyectar sombras e iluminación realistas en la habitación.

Al ser un casco de RV en su núcleo, ofrecen la posibilidad de sustituir el mundo real y ganar inmersión con el simple giro de una corona digital. Esto permite elegir cuánto mundo virtual o real quieres ver.

¿RA o RV? ¿Por qué no una transición entre ambos? Puedes ajustar cuánto entorno real y virtual ves con la corona digital.

La interacción con las aplicaciones se realiza con la voz, el seguimiento ocular y gestos en el aire con los dedos. Mirar los iconos o las opciones de la interfaz los amplía ligeramente o los resalta. Las primeras pruebas prácticas muestran una experiencia fluida, el seguimiento ocular y los gestos son intuitivos, y la interfaz funciona con una fluidez impresionante para ser un prototipo (la mayoría de los expertos dicen que debe funcionar a 120 Hz), no hay ningún signo de retardo en las interacciones.

El dispositivo es lo suficientemente inteligente como para detectar cuándo otra persona está a la vista, interactuando contigo. En ese momento, una pantalla lenticular 3D multivista externa (sí, una pantalla 3D fuera del dispositivo), muestra a la otra persona los ojos del usuario en 3D. La gente pensará que está viendo tus ojos reales a través de un cristal, pero están viendo una pantalla 3D. Esperemos que también utilicen esta pantalla 3D sin gafas para otras indicaciones mientras se usa el dispositivo (como iconos 3D o emojis, o avisos seleccionables del tipo “no molestar”).

La función EyeSight permite al usuario interactuar con la otra persona de forma natural sin tener que quitarse las gafas. Cuando alguien se acerca a ti para darte algo, la interfaz desaparece alrededor de esa persona. Todo es automático.

Parece un cristal transparente, pero la cara y los ojos del usuario se muestran en 3D en una pantalla externa lenticular multivista.

La posibilidad de ver el mundo real en una resolución sin precedentes permite utilizar teclados reales con el sistema o interactuar con otras pantallas como la de tu smartphone, sin tener ningún problema para leer textos pequeños. Lo primero que notas cuando te pones el visor es la impresionante resolución, mucho mejor que la de cualquier otro. La imagen se muestra sin ninguna latencia y todo se ve nítido, definido, suave y claro. Cuando miras un ordenador Mac, los programas saltan automáticamente de la pantalla y llenan el mundo real para interactuar mejor con ellos. Pero, a diferencia de las HoloLens, la interfaz es la misma, no mejora las posibilidades del ordenador. La interacción también funciona con el iPhone y el iPad, pero no sabemos qué aspecto tendrá.

El casco permite capturar fotos y vídeos espaciales, y Apple dice que Vision Pro es su primera cámara 3D, pero no es cierto: tienen cámaras 3D TrueDepth integradas en muchos dispositivos Apple. Y puedes capturar imágenes con mapa de profundidad con las cámaras traseras de la mayoría de los modelos de iPhone, incluso grabando vídeos en modo ProRes. También hemos utilizado el iPhone 11 Pro como cámara 3D tradicional de dos lentes casi desde su lanzamiento. La gente que ha probado la cámara 3D de Vision Pro ha dicho que el vídeo espacial tiene un aspecto increíble.

Puedes hacer fotos y vídeos espaciales con sólo pulsar un botón

Además de los medios espaciales, puedes ver fotos panorámicas de tu iPhone en modo inmersivo (¿en 3D?). Pero no mencionaron nada sobre las fotos capturadas en modo retrato, que contienen un mapa de profundidad para reconstruir la profundidad de la imagen (numerosas Apps de iPhone ya usan esta información 3D), es extraño que la propia Apple no lo haga. Por lo menos, Leia confirmó que trabajará para llevar las fotos LIF 3D del ecosistema Leia al Vision Pro (quizá incluso LeiaLink podría hacer el trabajo de pasar fotos con profundidad del iPhone al Vision Pro).

Asimismo, también es extraño que las llamadas FaceTime sólo funcionen en 3D con otros usuarios de Vision Pro, pero no con usuarios con cámara TrueDepth. Las primeras impresiones de FaceTime en 3D son tan convincentes como los vídeos espaciales. El sistema utiliza un escaneado previo de tu cara, y luego aplican tus expresiones en tiempo real a ese modelo.
Los dispositivos Apple utilizan cámaras frontales TrueDepth desde hace años, por lo que, técnicamente, podrían enviar la imagen 3D de esos dispositivos a cualquier llamada FaceTime.

Con tu cara previamente escaneada, FaceTime envía tu cara reconstruida en 3D, imitando tus gestos y expresiones en tiempo real

Las imágenes y vídeos espaciales aparecen dentro de una ventana cuadrada (redimensionable), pero parece que no puedes llenar todo el espacio con ellos como puedes hacer con las panorámicas.

Representación de visualización de vídeos Espaciales y Panoramas, es bastante seguro que no podrás ver tantos ángulos de la imagen (ni falta que hace).

Hablemos de las películas. Puedes ver una película y tu habitación aparecerá más oscura junto con reflejos realistas de las imágenes de la película, como si hubiera una pantalla real en tu habitación. O puedes sustituir totalmente tu entorno por uno virtual simplemente utilizando la corona digital para ajustar cuánto se ven los entornos real y virtual.

Ahora, lo importante. Con Vision Pro, podrás ver películas en 3D con “una profundidad increíble y un movimiento nítido”[…] Lo explicaban mientras mostraban imágenes de Avatar: El Sentido del Agua. Así que, al parecer, por fin podremos ver Avatar 2 en 3D (¿y HFR?) en casa.

Más allá del vídeo tradicional, mostraron Apple Immersive Video (grabaciones 3D 8K de 180 grados con Audio Espacial) NBA, fútbol, conciertos, documentales, etc. Este contenido específico para Vision Pro permite, por ejemplo, una pantalla gigante con un entorno jurásico en tu pared, de la que aparece un dinosaurio y entra en tu habitación, todo en 3D estereoscópico, por supuesto.

Luego mencionaron los juegos, con 100 juegos Apple Arcade disponibles para el lanzamiento, desgraciadamente parece que son 2d. Esperemos que los desarrolladores puedan hacer que los juegos se muestren en 3D en la pantalla virtual, en lugar de jugar en una pantalla virtual 2d. Los juegos se pueden jugar con mandos, como la Xbox y los mandos DualSense.

Usar un dispositivo 3D para jugar a los juegos en 2d… ¡Oportunidad perdida!

Ajeno al segmento que habla de películas en 3D, Disney presentó su App Disney+ para Vision Pro. Pero en lugar de ofrecer sus contenidos en 3D, han optado por añadir elementos adicionales (y muy distractivos) al programa que estás viendo. Si estás viendo un contenido en 2d, y empiezan a añadir elementos y entornos 3D fuera del contenido, el espectador prestará más atención a esas distracciones en lugar de ver realmente la película/serie.

El entorno 3D robará la atención del contenido plano 2d que estás viendo

Si tan sólo utilizaran el nuevo Leia Media SDK del que hablamos en nuestro artículo anterior… Podrían poner instantáneamente sus programas en 3D, en lugar de añadir distracciones 3D. Disney ni siquiera menciona nada sobre su catálogo de películas en 3D… Un engaño total. Menos mal que Apple nos traerá películas en 3D a través de su tienda.

La pantalla externa 3D sin gafas

El dispositivo incorpora dos pantallas micro OLED +4K con 64 veces más densidad que la pantalla retina del iPhone. Eso son 24 millones de píxeles, el triple de resolución que los actuales visores de RV. El sonido también es 3D, el audio espacial tiene en cuenta tu entorno en la habitación, utilizando el trazado de rayos de audio, haciendo que el sonido sea realista según tu habitación. Todas las cámaras y sensores están alimentados por dos procesadores, un potente y ya conocido M2, y un nuevo procesador R1 especializado en procesar todos los datos espaciales en 12 milisegundos, por lo que las interacciones no tendrán ningún retardo.

Todo es privado en el dispositivo, el reconocimiento del iris podrá autenticar al usuario igual que lo hace FaceID; Y al igual que FaceID, toda la información se almacena de forma segura sólo en el dispositivo. No se envía información a ningún servidor. Ninguna App puede acceder a tus datos biométricos, ni capturar o mapear tu habitación. Todo se procesa localmente, y ninguna App tiene acceso a los datos captados por los sensores y cámaras; pueden trabajar sin conocer el entorno real que está procesando el dispositivo. Los sitios web ni siquiera saben dónde estás mirando hasta que pulsas virtualmente un botón (los usuarios de Chrome y Windows son rastreados hasta por los movimientos del ratón).

El sistema operativo está diseñado desde cero, y se llama VisionOS, que gestiona datos en tiempo real, audio espacial, motor 3D multiaplicación y marcos espaciales, junto con el renderizador foveated y el marco tradicional de iOS. Los desarrolladores pueden utilizar las herramientas de desarrollo existentes de Apple: SwiftUI, XCode, ARKit, RealityKit y el nuevo Reality Composer Pro (que permite simular entornos), así como Unity (con acceso a todas las funciones). Los terceros también pueden utilizar el formato Apple Spatial Video.

Algunos ejemplos de uso son, por supuesto, la visualización de modelos 3D animados e interactivos (pero a gran escala), una versión espacial de Djay utilizando mezcladores 3D y botones 3D para efectos, o un planetario virtual en el techo de la habitación.

El lanzamiento está previsto para principios de 12024 (calendario holoceno), así que aún hay tiempo para mejorar las cosas, pero tenemos sentimientos encontrados sobre lo que ofrece. El propósito de esta costosa primera generación es dejar tiempo a los desarrolladores para que creen un buen ecosistema de Apps y soluciones, mientras Apple trabaja para mejorar el tamaño, el peso, la batería y, sobre todo, el precio, para las sucesivas generaciones.

Nuestra conclusión es optimista, pero deberían aprovechar aún más la información 3D que ya procesan sus dispositivos. Deberían utilizar los mapas de profundidad de las fotos en modo retrato y las cámaras TrueDepth, las interfaces deberían ser realmente espaciales y utilizar objetos 3D. Otra buena adición obvia sería utilizar la información poligonal de los videojuegos para renderizarlos en 3D estereoscópico, o utilizar una segunda cámara (Unity ya es capaz de ambas cosas).

Ahora es la oportunidad para que Microsoft aproveche su ecosistema totalmente 3D para HoloLens, incluso desde las primeras HoloLens hay muy pocos elementos 2d en el sistema, la mayoría de las cosas se renderizan en 3D. Microsoft podría presentar unas HoloLens 3 revolucionarias, convirtiendo su hardware de RA en un casco de RV de alta resolución, de modo que puedan igualar las posibilidades del hardware de Apple, pero con su perfeccionado ecosistema 3D: son pioneros, las primeras HoloLens aparecieron hace 13 años, y sus interfaces ya utilizaban más elementos 3D que las nuevas Vision Pro.

De este modo, habrá una guerra amistosa entre las dos plataformas, y los usuarios se beneficiarán de los esfuerzos de las dos marcas por intentar ser mejor que la otra. Los dispositivos Android también intentarán entrar en esa guerra (con mejores enfoques que los visores actuales, ya obsoletos tras esta presentación)

Los datos de este artículo se han recopilado cuidadosamente a partir tanto de datos oficiales como de varias impresiones de primera mano de conocidos expertos en el XR, que ya han probado el dispositivo.

{:}

Leave a comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.