Google lanza Gemini, la IA más potente de la compañía que competirá con GPT-4

Este miércoles marcó un hito significativo en el avance de la Inteligencia Artificial, marcando el inicio de una nueva era para Google.

Bajo el nombre de “Google Gemini“, la compañía presentó un modelo de Inteligencia Artificial (IA) que se proclama como el más avanzado hasta la fecha, con la promesa de superar incluso a GPT-4 de OpenAI.

Según Sundar Pichai, director ejecutivo de Google y Alphabet, Google Gemini se posiciona como “el modelo de IA más capaz y generalista que jamás hayamos construido”.

Este modelo fue desarrollado desde cero y es multimodal, lo que significa que tiene la capacidad de generalizar y comprender, así como operar y combinar distintos tipos de información, incluyendo texto, imágenes, audio, video y código.

¿Cómo funciona Google Gemini?

Hasta ahora, la práctica convencional para desarrollar modelos multimodales implicaba entrenar componentes individuales para cada modalidad y luego combinarlos para simular, en líneas generales, algunas de sus funciones.

En ocasiones, estos modelos demostraban eficacia en tareas específicas, como la descripción de imágenes, pero enfrentaban dificultades al abordar razonamientos más abstractos y complejos.

Por esta razón, la empresa ideó Gemini como un modelo de IA multimodal intrínseco, es decir, previamente capacitado en diversas modalidades desde su fase inicial.

Conforme al informe técnico de esta herramienta, se refinó mediante la incorporación de datos multimodales adicionales con el fin de potenciar su eficacia. Este perfeccionamiento capacita a Gemini para comprender y razonar sin contratiempos todo tipo de entradas desde el principio, superando notablemente a los modelos multimodales preexistentes.

Al respecto, Pichai comentó: “con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea, por sus siglas en inglés), que utiliza una combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento del mundo como su capacidad de resolución de problemas”, explicó Pichai.

El director ejecutivo de Google también destacó que estos atributos permiten que Gemini utilice sus habilidades de razonamiento para analizar con mayor profundidad antes de responder preguntas o enfrentar desafíos complejos.

Actualmente, Google Gemini está disponible en tres versiones:

Gemini Ultra, el modelo más abarcador y con mayor capacidad para abordar tareas altamente complejas.
Gemini Pro, capaz de resolver una amplia variedad de tareas.
Gemini Nano, una versión adaptada para dispositivos móviles.

¿Cómo funciona Google Gemini?

Relacionados