Un deep fake es un tecnica que se encarga de crear vídeos en los que se muestran imágenes falsas, habitualmente del rostro de una persona, que parecen ser reales y que se han producido utilizando inteligencia artificial; en concreto, se trata de técnicas de machine learning denominadas deep learning (aprendizaje profundo), que utilizan algoritmos de redes neuronales con el fin de engañar a sus victimas por medio de artimañas de ingeniería Social .


Vivimos en una época en la que la tecnología gobierna todo lo que nos rodea y, en su mayor parte, nos ha ayudado a todos a vivir una vida mejor. Ha hecho de todo, desde mantenernos conectados hasta hacernos más saludables, pero uno de los cambios más significativos que ha traído la tecnología es la forma en que consumimos nuestras noticias. Ahora, más que nunca, las personas obtienen sus noticias de fuentes de video, lo cual es fantástico porque permite compartir más información en fragmentos condensados.

Durante décadas, el video ha sido el estándar de oro de las noticias visuales porque, a diferencia de las imágenes, no se puede manipular, pero todo lo bueno debe terminar. La base de las falsificaciones profundas se remonta a la década de 1990, pero no obtuvieron su nombre hasta 2017 , tres años después del doctorado. El estudiante graduado Ian Goodfellow creó redes antagónicas generativas (GAN), un componente clave para las falsificaciones profundas de hoy. Estos videos falsos inicialmente inofensivos se han transformado en algo mucho más nefasto en solo unos pocos años, desde personas que roban rostros de celebridades para respaldar sus productos hasta personas que intentan incriminar a los políticos.


El auge de las falsificaciones profundas ha afectado más a la industria de las noticias, ya que hace que sea más difícil que nunca verificar si una fuente es legítima en una industria en la que "si no eres el primero, eres el último". Las noticias son un pilar en una sociedad democrática, por lo que no es como si pudieran tirar la toalla y ser derrotados por la tecnología del siglo XXI. En cambio, las agencias están aprendiendo nuevas estrategias para prevenir, detectar y adaptarse a esta amenaza de la nueva era. 



¿Cual es el problema?

¿A quién le importa si algunas agencias de noticias se ponen malas en la cara al compartir un video falso de vez en cuando, verdad? ¡Equivocado! Las ramificaciones de estos videos alterados son peligrosas y posiblemente incluso mortales, y ya hemos visto sus efectos. Uno de los ejemplos más famosos fueron las falsificaciones profundas de Tom Cruise que arrasaron en todo el mundo e hicieron que la gente de Internet se convenciera de que Tom Cruise había estado haciendo su propia música para sus películas. Luego hubo un anuncio de State Farm que decía mostrar un video de los años 90 que hacía predicciones sorprendentemente precisas sobre 2020; resultó que el video también era una gran falsificación. Si bien estos son ejemplos inocuos, es aterrador cuántas personas creen que son auténticos. 


Las falsificaciones profundas pueden causar cantidades desconocidas de daño en las manos equivocadas, desde arruinar la vida de alguien hasta comenzar una guerra. Por ejemplo, imagine si los piratas informáticos fueran a la televisión en vivo con una falsificación profunda del POTUS diciendo que ya hemos enviado armas nucleares hacia China. El gobierno chino no se detendrá para autenticar un video si cree que está bajo la amenaza de un ataque inminente. Ese ejemplo puede ser el peor de los casos, pero los escenarios más realistas no son mucho mejores a largo plazo. 


Quizás, la mayor amenaza que plantean las falsificaciones profundas en este momento es la erosión de la confianza. Pronto, las personas no podrán saber si lo que están viendo es real o falso, lo que conducirá a una desconfianza general en los medios de noticias visuales. Si bien esa idea suena aterradora para los ingresos publicitarios, también allana el camino para que las personas ignoren cuando suceden noticias reales a su alrededor. 


El costo de las falsificaciones profundas

No hay forma de determinar cuánto terminarán costando las falsificaciones profundas a las empresas y al gobierno, considerando que todavía es una tecnología relativamente nueva, pero se informa que las falsificaciones profundas costaron a las empresas más de 250 millones en 2020. Un ejemplo de ello fue en 2019 cuando El director general de una empresa de energía inglesa recibió una llamada telefónica de quien creía que era el director general de la empresa matriz de la empresa solicitando una transferencia de fondos de emergencia a otra empresa por una suma de 243.000 dólares . El problema era que no era el director general de la empresa matriz; eran estafadores que usaban tecnología de audio profundamente falsa para imitar su voz. Luego, el dinero se movió varias veces y los culpables nunca fueron capturados, otro problema con el futuro de los delitos digitales que se pueden llevar a cabo en cualquier parte del mundo. 


¿Cómo se detecta una falsificación profunda?

El primer paso y el más importante para combatir las falsificaciones profundas es detectar cuándo se ha falsificado un video, lo cual es más fácil decirlo que hacerlo. Sin embargo, el problema está en el corazón de cómo funciona la tecnología deep fake: es una plataforma de aprendizaje de IA que está destinada a aprender y superar la detección para crear una imagen más perfecta cada vez. Según la autora del libro Deepfakes , Nina Schick:


"Esto siempre va a ser un juego del gato y el ratón, porque tan pronto como construyas un modelo de detección que pueda detectar un tipo de falsificación profunda, habrá un generador que podrá vencer a ese detector". 


Comparó la idea con el software antivirus que debe actualizarse constantemente para detectar las amenazas más recientes. Schick sugiere que en lugar de saber si los videos son falsos, la respuesta más sencilla es validar que un video es real. Esto se puede hacer con hardware que, en esencia, deja una marca de agua digital que indica la ubicación en la que se grabó el video y si se ha manipulado de alguna manera. Desafortunadamente, parece que la tecnología deep fake llegó para quedarse y nunca habrá una solución fácil. Sin embargo, los científicos informáticos trabajan constantemente en nuevas formas de facilitar que los gobiernos y las agencias de noticias detecten las falsificaciones de manera eficiente. 


no va a desaparecer

Es probable que el dilema de la falsificación profunda solo empeore. Representan una amenaza real para la comunidad de noticias y la comunidad en general, y habrá muchos desafíos en el futuro a medida que estas falsificaciones se vuelvan más sofisticadas y más baratas de crear. Es probable que las empresas tengan que desarrollar una defensa de varios niveles contra las amenazas falsas profundas. Un lugar para comenzar es obtener sus medios de fuentes confiables a través de SnapStream . Una fuente de video confiable le dará más confianza en sus informes y le ahorrará un tiempo valioso en su información a una cadena en el aire. Hasta que haya alguna forma de detenerlos, los falsificadores profundos fingirán, y depende de nosotros diferenciar las falsificaciones de las reales.

Cómo se crea un deep fake

La inteligencia artificial recrea una imagen de una cara o de cualquier otro objeto aprendiendo de cientos o miles de imágenes de esa cara u objeto. Utiliza las denominadas redes neuronales generativas antagónicas, GAN por sus siglas en inglés, con algoritmos que son capaces de aprender de los patrones que encuentran en las imágenes para luego reproducirlos creando otras nuevas de ese objeto, rostro o imagen. 


En 2017 unos investigadores de la Universidad de Washington utilizaron más de 14 horas de grabación del presidente Barack Obama para reproducir su imagen y voz, y así simular cualquier discurso. Crearon un modelo de la forma y los movimientos de la boca para vincularlo con las grabaciones de la voz. Con esta técnica, partiendo de vídeos reales podían poner en boca de Barack Obama cualquier mensaje que un actor reprodujera.


En 2018 un grupo de profesionales hizo un deep fake, no muy bueno, pero sí divertido, del senador de Texas Ted Cruz cantando e imitando a Tina Turner. En este caso, el modelo de algoritmos codificó cómo gesticula, se mueve y se ve la cara del senador y la de un actor. A continuación, decodifica las imágenes del rostro de Ted Cruz y las reconstruye sobre las del rostro del actor.


En resumen, los deep fakes funcionan a través de modelos de redes neuronales generativas, el deep learning. Básicamente, los algoritmos aprenden a crear imágenes de personas reales o ficticias tras procesar una base de datos de imágenes de ejemplo. Al ser entrenados con imágenes de una persona concreta, pueden generar vídeos muy realistas de esta. De un modo similar se recrea la voz, con el potencial que esto genera tanto para un uso positivo como para un uso malintencionado, pues se generan vídeos falsos totalmente creíbles de personas que hacen o dicen algo inapropiado.


La verosimilitud de estas reconstrucciones se complica si las imágenes de las que ha aprendido el modelo difieren mucho de las que se van a vincular. En ocasiones se producen resultados jocosos con orejas, narices o rasgos.


Los deep fakes más populares son de famosos, ya que hay una inmensa cantidad de fotos y vídeos disponibles online, pero igualmente se puede hacer con cualquier persona, siempre y cuando se puedan obtener suficientes imágenes, por ejemplo, de las redes sociales.


Existen diversas aplicaciones y soluciones para crear deep fakes. Se necesitan equipos informáticos con procesadores gráficos muy potentes, ya que el procesado de las imágenes puede llevar incluso días para unos pocos minutos de vídeo. Sin embargo, esto se puede acelerar con el uso de máquinas virtuales disponibles en múltiples plataformas en la nube.


Cuáles fueron los primeros deep fakes

En 2018 se empezó a escuchar con frecuencia su uso en vídeos de contenido sexual, aunque la innovación comenzó en 2014.


En 2017 un usuario anónimo de Reddit utilizó el deep learning para intercambiar las caras de actrices famosas con las de las actrices originales en escenas de películas para adultos. 


En 2014 Ian Goodfellow, un estudiante de doctorado de la Universidad de Montreal, abordó de forma pionera la generación de imágenes con el enfoque de redes neuronales generativas adversas, GAN. Goodfellow entrenó dos redes neuronales con una misma base de datos de imágenes para luego crear otras nuevas. Enfrentó las dos redes para que identificaran qué imágenes eran reales y cuáles eran ficticias como un juego digital del gato y ratón.


El primer modelo de red neuronal generaba imágenes nuevas a partir de la base de datos que había aprendido creando, por ejemplo, un gato con dos colas. El segundo modelo detectaba las imágenes ficticias, y así el primero aprendía de sus propios errores y generaba gatos con una única cola. Poco a poco se iban creando imágenes cada vez más realistas y difíciles de distinguir.


Estas técnicas de inteligencia artificial se han utilizado por equipos de investigación para generar caras ficticias a partir de imágenes de famosos o para crear pinturas supuestamente realizadas por Van Gogh.


En sus orígenes, estas redes neuronales cometían una gran cantidad de fallos, como bicicletas con dos manillares o caras con las cejas fuera de su sitio. Ahora mismo son capaces de crear con una alta verosimilitud una imagen completa a partir de una parte de esta: por ejemplo, el cuerpo de un gato a partir de su cabeza.


Por desgracia, esta tecnología de inteligencia artificial se puede utilizar maliciosamente para engañar a Gobiernos, poblaciones, causar conflictos internacionales, dañar la imagen de una persona o sacar un provecho ilegítimo.