Qué es la fotografía computacional y cómo mejora las capacidades ópticas del móvil

Tradicionalmente la fotografía ha sido una cuestión de óptica y de química. La fotografía analógica dependía exclusivamente de la tecnología que llevaba la luz hacia el carrete para que los resultados fueran óptimos.

Con la llegada de la fotografía digital, apenas hubo cambios en la fotografía en lo que a la forma de captar y generar las imágenes se refiere. La luz, en vez de llegar al carrete, llegaba al sensor; este capturaba los fotones y, al actuar sobre los fotocaptores del sensor, era posible convertir la intensidad lumínica en imágenes en formato digital.

A mayor calidad, mayor tamaño

El problema de la óptica es que, para hacer llegar la luz sin distorsión y sin pérdida, tiene que ser voluminosa y pesada. Además, para que la luz se capture con la máxima calidad, es conveniente que el sensor tenga abundantes píxeles de gran tamaño, lo cual hace que a mayor calidad, mayor tamaño del fotocaptor.

En las cámaras fotográficas profesionales y semiprofesionales, las dimensiones o el peso no son realmente un problema, pues su tamaño está al servicio de la calidad óptica y del sensor. De este modo, las fotos obtenidas salen tal y como se capturan a partir de la óptica y el sensor. Es posible procesarlas posteriormente con un programa de edición, o revelarlas digitalmente si usamos el formato RAW, pero básicamente el archivo JPEG o RAW que obtenemos es el que sale de los circuitos del sensor.

No obstante, la mayor parte de las cámaras fue recortando dimensiones, por lo que los elementos ópticos y el sensor hicieron lo propio. El resultado se tradujo en una drástica reducción de la calidad de las imágenes, especialmente en situaciones de poca luz, donde el ruido era inmanejable en cámaras compactas y dispositivos móviles para la obtención de efectos ópticos como el desenfoque del fondo en primeros planos.

Superando los límites de la óptica

Para contrarrestarlo, los fabricantes de smartphones han ido añadiendo mejoras tecnológicas en los chips encargados de procesar las imágenes que salen del sensor y superar con ello las limitaciones físicas de un modo digital.

Los sensores frontales son más pequeños que los traseros debido a que delante no hay margen para que la cámara sobresalga

Hay una estrecha relación entre la distancia focal, el tamaño del sensor y el ángulo de visión, por lo que los fabricantes de teléfonos han tenido (y tienen) que hacer encaje de bolillos para meter sus módulos de cámaras en los terminales, limitados por el grosor de los mismos.

El hecho de que las cámaras sobresalgan un poco en la parte trasera responde a los condicionantes de la óptica. Los sensores del frontal, de hecho, son generalmente más pequeños que los traseros precisamente debido a que en la parte delantera no hay margen para que la cámara sobresalga.

Píxeles más pequeños, pero agrupados

Una de las tendencias que están llegando a los terminales móviles es la de usar sensores con más megapíxeles, pero más pequeños. Cuando no hay luz, los píxeles se combinan en grupos de cuatro para hacer que todas sus señales se sumen, compensando de este modo que su tamaño es menor. El ejemplo más reciente de esta tendencia, que ya usó Huawei en sus teléfonos P20 y Mate 20, es el Honor View20, con un sensor Sony IMX 586 de 1/2″ y 48 millones de fotocaptores de 0,8 micras.

En este caso, es el sensor el que hace el trabajo de combinación de los píxeles. Pero es el software el que realiza el procesado final. De ahí sucede que nos encontremos con un sensor de 48 Mpx, pero con fotos finales que, en su mayoría, son de 12 Mpx. Es decir, cuatro veces menos, como resultado de la combinación de grupos de cuatro píxeles en el sensor.

Inteligencia artificial al rescate

Bajo el epígrafe de IA hallamos un campo de investigación muy amplio que, en el caso de la fotografía y el vídeo, pasa por identificar elementos en la imagen o los fotogramas para hacer un procesamiento selectivo de los mismos. Es lo que ocurre cuando se hace una foto en modo retrato, o en cualquier modo donde se simule la apertura de diafragma mediante el desenfoque selectivo del fondo.

En la imagen superior, se ve a la izquierda la escena sin efecto de apertura. A la derecha, se simula una apertura de F0.98, la cual hace que todo se vea difuminado excepto lo que está enfocado.

En terminales como el Honor View20, este procesamiento no se ciñe a una foto: también se realiza en la grabación de vídeo aprovechando la aceleración en la ejecución de las operaciones gracias al SoC Kirin 980 y su doble NPU.

En esta otra imagen superior, podemos ver un frame sacado de la grabación de vídeo con color selectivo por IA activado. Las personas se quedan en color y el fondo se presenta en monocromo. Y este procesamiento se hace en tiempo real.

Otro efecto que también depende del procesamiento mediante software de las imágenes es el de alto rango dinámico, o HDR por sus siglas en inglés. Este efecto no depende tanto de la IA como de un procesamiento menos elaborado de las imágenes en el que se toman varias capturas con diferentes niveles de exposición y se combinan para aclarar las zonas oscuras manteniendo las que están bien iluminadas sin que se “quemen”.

En esta tercera instantánea de arriba se aprecia el procesado HDR a la derecha, con la zona de la calle asfaltada más iluminada para compensar la subexposición debida a la iluminación del cielo.

Visión nocturna, otro hito del software

Uno de los logros más recientes de los teléfonos móviles es la posibilidad de hacer fotos con apenas luz. El terminal realiza una secuencia de tomas con diferentes exposiciones y las mezcla para dar lugar a una imagen con una exposición “usable” y sin que salga movida incluso tras estar varios segundos haciendo la foto.

Esta foto está tomada con el modo “Noche” en el que se simula una toma de 4 segundos.

El truco está en el uso de la IA para identificar líneas y contornos que permitan alinear las imágenes de un modo perfecto. Eso sí, en fotos nocturnas donde no haya líneas de referencia claras, la alineación no es especialmente buena.

En este caso, el modo Noche del View20 destaca por su buen hacer, con una alineación espectacular de los elementos de la escena y un resultado que casi parece imposible y que es más conveniente incluso que usar una cámara SLR profesional con un trípode y una velocidad de obturación prolongada.

El zoom digital, mejorado

Además de este modo nocturno, otros procesos que emplean técnicas computacionales para procesar las imágenes son los que simulan zoom, aunque solo se disponga de una única cámara. En este ocasión, el trabajo pasa por interpolar píxeles para hacer que los recortes de imagen sean más elegantes visualmente hablando.

Una de las técnicas que empieza a usarse en los terminales más recientes es la del supersampling digital. Si se combinan varias imágenes de una misma escena con sus píxeles ligeramente desplazados, es posible obtener una escena con un nivel de detalle superior al que se obtiene con una captura convencional. En modelos del nivel del Honor View20, se está introduciendo esta técnica en modos como el AI Ultra Clarity. En el momento de escribir estas líneas, dicho modo aún no ha llegado a todos los terminales View20, pero es parte de la actualización que Honor está lanzando con estos nuevos modelos.

En las capturas superiores hemos usado zoom de 26 mm (1x), 52 mmm (2x), 130 mm (5x) y 260 mm (10x). El trabajo de interpolación es notable teniendo en cuenta que no tenemos zoom óptico.

Con todo, es una técnica que ya se lleva usando desde hace años como un método para mejorar la calidad de las imágenes que se reciben desde satélites o desde sondas espaciales desplazadas incluso a Marte. En estos casos, se combinan las miles de fotos que hacen estas sondas para recuperar la mayor cantidad de detalle como sea posible.

Desplazan los píxeles digitalmente para que el resultado no se resienta con los movimientos fortuitos de los usuarios

La fotografía computacional hace posible que las cámaras de nuestros móviles ofrezcan una funcionalidad similar a la de las SLR. Se trata de efectos simulados por software que limpian y mejoran la información digital que proviene del sensor para eliminar imperfecciones como el ruido, las distorsiones geométricas o la trepidación que se deriva del uso a mano del terminal.

Los sistemas de estabilización electrónica de la imagen y el vídeo son otro ejemplo de aplicación de técnicas computacionales a la fotografía y el vídeo. Son muy eficientes y compensan la ausencia de estabilización óptica en el hardware. Estos sistemas leen la información del giroscopio y desplazan digitalmente los píxeles de los fotogramas o las imágenes para que el resultado no se resienta con los movimientos fortuitos de los usuarios.

Los chips que integran los terminales de última generación, como el Kirin 980 del Honor View20, ya tienen suficiente potencia de cálculo como para emular digitalmente los resultados que se logran con la óptica de cámaras profesionales o semiprofesionales.

Artículo publicado en espaciohonor.xataka.com