“La inteligencia artificial ha pasado de razonar sobre números a razonar sobre el lenguaje”

David Carmona | Responsable de inteligencia artificial en Microsoft

El gaditano David Carmona dirige la división de Inteligencia Artificial e Innovación de Microsoft y ha visitado estos días Cádiz para hablar en el Congreso de la Lengua sobre el papel del español en esta nueva revolución tecnológica

El Rey defiende "la hora del español" en el mundo durante la inauguración del Congreso de la Lengua en Cádiz

David Carmona, responsable de Inteligencia Artificial en Microsoft.

Gaditano nacido en el Hospital de Mora y educado en el Colegio San Felipe Neri, David Carmona empezó a trabajar en Microsoft España hace más de 20 años y lleva 15 en Redmond (Estados Unidos), en la división de Misiones y Tecnologías Estratégicas de Microsoft, donde desarrollan “la tecnología del futuro”. Allí formó parte primero de la gran transformación del desarrollo en la nube y después del siguiente gran salto tecnológico, la inteligencia artificial (IA).

Precisamente sobre ella versó su intervención en la sesión inaugural del Congreso de la Lengua que acoge estos días Cádiz, en la que habló de cómo esta nueva generación de IA fusiona “la tecnología y la lengua”, dando lugar a un “cambio de paradigma, en el que hemos pasado de razonar sobre números a razonar sobre la lengua”.

-La inteligencia artificial es la tecnología de moda.

-Estamos en un momento muy especial, en el que pasamos de que la tecnología nos ayude a ser más eficientes a que nos ayude a razonar sobre la lengua. Todo el conocimiento humano está codificado en palabras y estamos entrenando esos algoritmos con todo ese conocimiento forjado durante siglos, lo que va a dar lugar a una nueva etapa en la tecnología. Vamos a tener a la inteligencia artificial razonando sobre el conocimiento humano al lado del ser humano. Es lo que llamamos el copiloto. Sigues teniendo el control como persona, pero tienes al lado a un agente de inteligencia artificial que te puede ayudar a razonar.

-En ese cambio tecnológico, ¿qué papel juega el español?

-El español tiene que ser parte de esa revolución. Tenemos una responsabilidad entre todos, instituciones públicas y privadas, para hacer que el español sea una lengua de primer nivel no sólo en el entrenamiento de estos algoritmos, sino también en el uso, porque usamos esta nueva generación de IA con el lenguaje: le pedimos qué queremos que haga, no con programación o personalización, sino con palabras.

-Hace ya muchos años que Microsoft apostó fuerte por este campo. ¿Por qué se decidieron en un primer momento a invertir en IA?

-Si simplificamos mucho, al final la inteligencia artificial no es más que una nueva forma de crear software. Tradicionalmente se hacía casi manualmente, pero con la IA creas algoritmos y les suministras datos, a partir de los que la IA es capaz de aprender. Nuestra visión en Microsoft es proporcionar una plataforma para que empresas e individuos puedan crear software, con lo cual para nosotros tenía mucho sentido afrontar la IA con ese espíritu. Una forma de ver lo que ha pasado en los últimos 20 años en la industria es que todas las empresas, para ser competitivas, tienen que ser un poco empresas de software. Lo mismo va a ocurrir ahora: todas las empresas van a ser también empresas de inteligencia artificial.

"El español tiene que ser parte de esa revolución. Tenemos una responsabilidad entre todos, instituciones públicas y privadas, para hacer que el español sea una lengua de primer nivel"

-Y dentro de esa apuesta por la IA, se decidieron por OpenAI.

-Ese cambio de paradigma que mencionaba, ese paso a modelos de inteligencia artificial que razonan sobre el lenguaje, es el producto de años de investigación y desarrollo. En ese contexto se produjo nuestra primera colaboración con OpenAI, en 2019, trabajando de forma estrecha tanto en la investigación y el entrenamiento de esos nuevos modelos como en aspectos igualmente importantes, si no más, como el desarrollo responsable de estas tecnologías.

David Carmona, ante el Teatro Falla, sede del Congreso de la Lengua en Cádiz.

-El aspecto ético.

-Como industria, creemos que es igualmente importante la innovación que el desarrollo responsable de esa innovación. Ese desarrollo responsable también requiere nuevas tecnologías y nuevas aproximaciones. Primero hay que identificar, entender y evaluar los nuevos desafíos que trae esta tecnología. Después, saber cuáles son tus principios en tu empresa y como individuo, cómo vas a afrontar esos desafíos que vienen con la inteligencia artificial, en áreas tan variadas como el sesgo, la privacidad, la transparencia y muchos otros desafíos. El tercer paso, y más importante, es actuar. Todo esto hay que hacerlo en todo el proceso de desarrollo, no al final, es algo que tienes que tener en cuenta desde que piensas en el escenario donde vas a utilizar esa inteligencia artificial hasta que recopilas los datos, desarrollas el algoritmo, lo pones en producción, lo monitorizas, etcétera. Incluso la forma en la que interactúa el usuario con ella.

-Además de la inteligencia artificial generativa, que es lo que más está trascendiendo, ¿en qué otros campos trabajan en Microsoft, ya sea en colaboración con OpenAI o no?

-El cambio que estamos viviendo es mucho más amplio. Tradicionalmente, para cada tarea y para cada escenario desarrollábamos un modelo de IA, pero ahora vemos que estos modelos masivos que entrenamos en superordenadores en la nube, con conjuntos de datos enormes, se pueden reutilizar entre escenarios, aplicarse a varios escenarios, a varias tareas. Y el proceso de personalización es tan sencillo como explicarle con tus palabras qué quieres que haga. Es un cambio mucho más profundo que la IA generativa. Hablamos de una forma de llevar la inteligencia artificial a cualquier empresa y a cualquier individuo. En ese contexto enfocamos nuestra colaboración con OpenAI.

"Vamos a tener a la inteligencia artificial razonando sobre el conocimiento humano al lado del ser humano. Es lo que llamamos el copiloto"

-En cuanto al modelo de lenguaje que usa OpenAI, GPT, ¿qué ventajas tiene con respecto a otros modelos de lenguaje que utiliza la competencia?

-Cada modelo tiene distinto cometido y se utiliza para distintas cosas. GPT empezó siendo un modelo muy potente en la generación de lenguaje. GPT-3 fue en su momento el mayor modelo que se creó para el lenguaje. Cuando se lanzó tenía 175.000 millones de parámetros y consiguió resultados de primer nivel en múltiples tareas. También tuvo una aproximación a un concepto muy novedoso entonces, el aprendizaje en cero intentos. Normalmente, la IA funcionaba creando un modelo y, si lo querías aplicar para un conjunto de datos o una situación distinta, tenías que darle nuevos ejemplos para enseñarle. En el caso del aprendizaje en cero intentos, no le hace falta ningún ejemplo. Si por ejemplo usabas un modelo entrenado con todo el texto de Internet y le decías ‘traduce esto de francés a español’, lo hacía sin necesitar ningún ejemplo. Era capaz de entender eso y aplicarlo. Todas las evoluciones posteriores también han sido muy innovadoras. Por ejemplo, ChatGPT introdujo el concepto de la optimización de estos modelos con la ayuda de humanos que participan en el entrenamiento. No es sólo proporcionar a estos modelos datos en crudo de Internet, sino también poner humanos para que guíen el entrenamiento del modelo.

-¿Por qué es mejor, si es que considera que lo es, ChatGPT que la propuesta de Google, Bard?

-Si me permite, nosotros preferimos centrarnos en la experiencia de usuario y no en mirar lo que hace la competencia. En nuestro caso, por ejemplo, con Bing Chat hemos utilizado esa tecnología para redefinir el concepto de buscador, para dar respuestas completas a preguntas que son más complejas. Ya no es buscar algo, sino responder a una pregunta completa que necesita razonar sobre múltiples contenidos en Internet, y ofreciendo la referencia de ese contenido usado para generar esa respuesta, por lo que el resultado es mucho más transparente. El usuario puede razonar conjuntamente con la IA, porque añadimos la posibilidad de que refine esos resultados o ese razonamiento directamente conversando con la IA.

"Con Bing Chat hemos utilizado esa tecnología para redefinir el concepto de buscador, para dar respuestas completas a preguntas que son más complejas"

-¿Por qué primero esa integración con Edge y Bing?

-Todas las categorías de software que existen en el mercado puede ser redefinidas con esta nueva IA y esto es sólo el principio. La forma en la que consumimos Internet, cómo buscamos o el propio navegador, es una de esas categorías, de ahí que fuesen Microsoft incorpora a su buscador Bing la inteligencia artificial de la creadora de ChatGPT, por su potencial. Pero lo estamos aplicando en todas las que tenemos en Microsoft. Si hablamos del desarrollo de aplicaciones, ofrecemos un copiloto para desarrolladores con el que se obtiene una productividad un 55% superior gracias a esa IA que escribe parte de ese código. Tenemos aplicaciones de negocio, para ventas, marketing o atención al cliente, en las que también hemos anunciado un copiloto para ayudar a esos profesionales a ser más productivos y a razonar con esta IA. Hace poco lanzamos el copiloto para todas las aplicaciones de productividad de Microsoft (Word, Excel, Power Point…). Lo estamos aplicando a todo lo que hacemos.

David Carmona.

-¿Qué beneficios pueden obtener los usuarios de esa integración de la IA con las aplicaciones de Microsoft?

-En Word, este copiloto te puede ayudar a escribir, a resumir un documento, a editar algo que hayas escrito, por ejemplo cambiando el estilo a uno más informal, más conciso o más profesional. La propia inteligencia artificial va iterando sobre ese documento y te va ayudando a crearlo, y eso cambia radicalmente la experiencia que tenemos de lo que es escribir un documento. En Excel, te ayuda, de nuevo con lenguaje natural, a analizar y explorar los datos de una forma que antes tendrías que hacer manualmente. En Power Point, te puede crear una presentación completa y luego puedes cambiar el diseño, con lenguaje natural, conversando con la IA. En Outlook nos puede resumir la bandeja de entrada o ayudar a escribir emails, con el tono que quieras. En Teams nos puede resumir una reunión que acabamos de tener o, durante la propia reunión, identificar las acciones que se han acordado. Incluso puede crear directamente reuniones de seguimiento o tareas asociadas a esas acciones.

-¿Qué respuesta están recibiendo por parte de los usuarios?

-En general es muy positiva. Todavía estamos aprendiendo, estamos en esa fase de poner la tecnología en manos del usuario para aprender de cómo la usa, de qué busca para ir mejorando esa experiencia. El primer despliegue incluyó a 169 países. Para tener un producto que funcione, es muy importante tener en cuenta al usuario, más aún en una tecnología que está en una etapa tan temprana.

-Acaban de añadir un generador de imágenes. ¿Cómo funciona?

-De forma muy parecida. Lo vemos como una capacidad horizontal que vamos a integrar en los productos en los que tenga sentido. Ahora lo tenemos en Bing, para crear una imagen usando un texto directamente del navegador, o en Microsoft Designer, donde la máquina nos va a dar ideas e inspirar para nuestros propios diseños. Al final, más allá de las imágenes, la creatividad puede aplicarse a cualquier formato -documentos, presentaciones, diseños-, y el concepto siempre es muy parecido: no se trata de reemplazar nuestra creatividad, sino de potenciarla.

"En Microsoft apostamos por una inteligencia artificial con modelos que llamamos universales, porque funcionan en cualquier idioma"

-Volviendo al Congreso de la Lengua, ¿cómo afectan estas herramientas a la presencia del español en el mundo digital?

-Es crítico que el español sea una lengua de primer nivel en esta nueva generación de IA. En Microsoft apostamos por una inteligencia artificial con modelos que llamamos universales, porque funcionan en cualquier idioma. No hay diferencias entre idiomas de primer nivel o de segundo nivel, no hay un modelo distinto para el español y el inglés. Es el mismo modelo que razona sobre las dos lenguas. Eso es clave, primero porque permite que la innovación llegue a todas a la vez, que vayan a la misma velocidad y, segundo, porque estamos aprendiendo que estos modelos hacen lo que llamamos transferencia de conocimiento entre lenguas. Por ejemplo, mis hijos aprendieron español en casa e inglés en el colegio, pero las matemáticas sólo las dieron en inglés, y saben sumar y restar en español, no tienen que aprenderlo todo en cada idioma, que es lo que hacíamos antes con la IA. Si no tienes las mismas base de datos en cada idioma, si no tienes ese concepto de transferencia de conocimientos, se quedan por detrás idiomas que no tienen por ejemplo tanta presencia en el entorno científico. Eso es fundamental y es una apuesta clara de Microsoft. En el caso del español, trabajamos con la Real Academia Española y formamos parte de la iniciativa Leia. El año pasado integramos el Diccionario de la Lengua Española en nuestros productos y hace tres semanas anunciamos uno de nuestros últimos avances en modelos de IA, que hacen un uso correcto e inclusivo del español.

-Si aprenden de los usuarios, ¿de quiénes en concreto lo hace? ¿Tienen todos la misma prevalencia?

-Ahí también se ha producido un cambio destacado en los últimos meses. Hasta ahora, entrenábamos estos modelos con todos los datos, todos los textos de Internet, incluido el histórico, para proveer de cuantos más datos mejor. Esa aproximación es muy potente y está detrás de muchos de los modelos de lenguaje que existen hoy en día, pero es cierto que le falta mayor control, mayor guía en la forma en la que aprende. En los últimos modelos apostamos por una forma híbrida, con usuarios que también participan en ese proceso de entrenamiento del algoritmo. Eso permite que los usuarios puedan guiar a esa IA para que tenga un comportamiento más responsable y más alineado con la forma en la que estamos acostumbrados los humanos a interaccionar con la máquina.

-Con respecto a esa transferencia de conocimiento entre modelos y entre idiomas, si entendemos la lengua como una forma de ordenar el mundo, cada lengua tiene su estructura y su idiosincrasia, ¿cómo se puede desarrollar un único modelo que se adapte a todos los idiomas?

-Es muy curioso ver cómo enseñas a un modelo a realizar una tarea en un idioma y que sea automáticamente capaz de hacerlo en otro idioma. Los modelos universales con los que trabajamos en Microsoft ordenan semánticamente todos estos idiomas en el mismo espacio. Es decir, que la palabra ‘perro’ en español y ‘dog’ en inglés están dentro del modelo muy cerca, para él son la misma cosa. Parece sencillo, pero no lo es. Es un paso muy importante conseguir que el modelo sepa que esas dos palabras son la misma cosa, en dos idiomas distintos. De hecho vamos más allá, con modelos multimodales, que no funcionan sólo con palabras, sino también con imágenes. Es un poco como funciona el ser humano; no pensamos dos cosas distintas, vemos la palabra ‘perro’ y la imagen de un perro y para nosotros es lo mismo.

-¿Cómo se consigue eso?

-Aunque el modelo por dentro es muy complejo, la forma de entrenarlo es sencilla. Por ejemplo, introduciendo una frase de la que le ocultas la última palabra y le pides que te diga cuál es. El modelo la predice y, una vez lo haga, le dices cuál es la correcta. Con eso aprende a predecir cuál va a ser la siguiente palabra en un conjunto de palabras. Cuando eso se lleva a cabo sobre cantidades masivas de texto, se consigue que la IA empiece a entender el significado, a aprender que para adivinar esa palabra necesita entender conceptos que no son tan obvios, como cuál es la siguiente palabra más probable, necesita empezar a extraer esos contextos. Si eso lo haces en múltiples idiomas, empieza a abstraer todos esos conceptos de cada idioma.

-Hace unos días comenzaron a publicarse los típicos listados apocalípticos de profesiones que van a desaparecer por culpa de la IA generativa, entre ellas la de periodista.

-Si sirve de consuelo, en esa lista siempre está el desarrollador de software [Risas]. El impacto es muy significativo, y lo va a tener en muchísimos trabajos, especialmente en los basados en el conocimiento, en el trabajo altamente cognitivo. Esta tecnología no sólo nos ayuda a procesar la información, sino que nos ayuda a razonar sobre esa información: el hombre y la máquina pueden razonar conjuntamente en escenarios complejos. En el caso del desarrollo, escribe código por mí para ir más rápido, me permite hacer las tareas más repetitivas, tener algo de partida que luego voy modificando. Por eso en Microsoft utilizamos el término copiloto, porque te ayuda a realizar tareas de todo tipo, incluso en el mundo de la investigación. Pero el humano siempre tiene el control. Es cierto que todo esto va a requerir nuevas habilidades de profesionales como periodistas, médicos, investigadores o desarrolladores de software. Por eso es fundamental que demos a los trabajadores y a la sociedad en general los mecanismos para obtener esas habilidades y que también protejamos a la sociedad en este cambio.

David Carmona.

-¿Cómo cree que puede beneficiar este cambio a campos como la investigación, científica o médica, en un futuro más o menos próximo?

-Suelo poner el ejemplo de la investigación médica. En los primeros meses de la Covid-19 se publicaron más de 50.000 artículos científicos. Imagine la complejidad que tenía ser investigador en ese momento. No hay tiempo material para leer toda esa cantidad de información, no digamos ya para entenderla. Hay un dato que me encanta mencionar. Hace 50 años decían que el conocimiento médico se duplicaba cada 50 años y ahora se dice que ese conocimiento se duplica cada dos meses. Es imposible estar al tanto de todos los avances, no sólo en la medicina, sino en cualquier otra rama, incluida la inteligencia artificial, que va cambiando cada día. Por ir un poco más allá, en algo que estamos trabajando para el futuro, hablaba antes de que estos algoritmos son multimodales y razonan sobre lenguaje, imágenes, vídeos y otros muchos formatos. Ahora estamos trabajando para que razonen también sobre el lenguaje de la naturaleza, que es la química. Estamos viendo cómo pueden razonar sobre moléculas, para descubrir o predecir las propiedades de una molécula o como dos moléculas van a interaccionar entre sí o con una proteína. Todo esto tiene unas aplicaciones increíbles en el descubrimiento de nuevos fármacos, la creación de nuevas energías, de materiales más sostenibles o de fertilizantes para el suministro de alimentos. Aplicaciones a problemas reales y desafíos reales que tiene el planeta a día de hoy.

"La inteligencia artificial tiene aplicaciones en problemas reales y desafíos reales que tiene el planeta a día de hoy"

-¿Llegará un momento en el que el factor humano no sea necesario y desaparezca de la ecuación?

-Nuestra visión es ese razonamiento conjunto. Cuando alguien me pregunta si tiene que estar preocupado, siempre digo que no hay que estar preocupado porque la inteligencia artificial haga tu trabajo, sino porque alguien que utiliza la inteligencia artificial haga tu trabajo. Creo que no hay mejor unión que la de humano y máquina, y lo hemos visto con otras grandes transformaciones tecnológicas. La unión de los dos es imbatible.

-¿Cómo acaba un gaditano en Microsoft al frente de la tecnología de moda?

-Poco a poco y con mucho que agradecer. Me crié muy cerquita de donde se está celebrando el Congreso de la Lengua y estudié en el Colegio San Felipe Neri, donde me enseñaron a amar tanto las matemáticas como la lengua. Recuerdo con muchísimo cariño al cura Valentín, que me enseñó a amar las matemáticas, y también al cura Luis, que me enseñó a amar la lengua y a contar historias y a aprender de los grandes pensadores. Esa unión de la lengua y las matemáticas es muy única en España, en nuestro sistema educativo, sobre todo si has tenido la suerte que tuve yo, y cuentas con profesores, y se lo agradezco muchísimo, que inculquen esa dualidad, que no nos encasillen tan pronto. La unión de las dos cosas es lo importante, y ahora más que nunca. Creo que eso me ha dado muchísimas oportunidades, primero en España y después en EEUU. Empecé llevando toda la transformación a la nube y el siguiente paso natural para mí era la inteligencia artificial. Ya estaba en Estados Unidos y no dudé ni un momento en asumir el reto.

"Emigrar hoy, con los medios y la formación que tenemos en España, es más fácil que nunca. Siempre digo que mérito tenía mi padre, que emigró de Extremadura para trabajar en los Astilleros de Cádiz con los bolsillos vacíos"

-¿Cómo fue la experiencia de trasladarse a EEUU?

-Suelo decir que no fue un cambio, sino dos. Cuando te vas al extranjero a trabajar, te enfrentas a dos cambios vitales. En mi caso, el primero por supuesto es el trabajo, en una de las empresas más grandes y más innovadoras del mundo. Y encima en la división en la que trabajo, Misiones y Tecnologías Estratégicas, donde estamos desarrollando la tecnología del futuro, no sólo IA, sino también computación cuántica, espacio y otras muchas categorías. Es una oportunidad increíble poder estar en el corazón de la creación de toda esa nueva generación de tecnología. El segundo cambio, cuando haces esta apuesta de mover a toda tu familia al extranjero, es el cultural. Estás cambiando no solo la cultura de empresa, que también es muy distinta, sino también la cultura de sociedad. Siempre digo que en mi caso me costó más acostumbrarme a la cultura de empresa, encontrar mi sitio y mi valor con mi estilo de trabajo y mi estilo de liderazgo, que es muy distinto en una empresa americana que en una española. Mi familia se adaptó estupendamente desde el principio, de hecho mi hija pequeña nació en Estados Unidos. Emigrar hoy, con los medios y la formación que tenemos en España, es más fácil que nunca, y empresas globales como Microsoft están muy preparadas para acoger a gente de todo el mundo. Siempre digo que mérito tenía mi padre, que emigró de Extremadura para trabajar en los Astilleros de Cádiz con los bolsillos vacíos.

-¿Es muy diferente la cultura empresarial en España y Estados Unidos?

-Mucho. Por así decirlo, allí se tiene una cultura más directa al trabajo, se empieza una reunión y se va directamente al tema de la reunión. Es cierto que conforme pasa el tiempo, y más en estos últimos años, la cultura de empresa se va pareciendo un poco más a la que tenemos en países como España. Sobre todo a raíz de la pandemia, el trabajo y la vida personal se han mezclado, con lo cual como líder no solo tienes que conocer el negocio, también tienes que liderar un equipo que tiene su vida privada, sus problemas y sus desafíos, y tienes que tener en cuenta todo eso. Ese cambio a mí me ha costado muy poco porque ya venía acostumbrado a eso.