GOOGLE PRESENTÓ A GEMINI, SU MODELO DE INTELIGENCIA ARTIFICIAL MÁS AVANZADO

Tecnologia07 de diciembre de 2023 Por Betina Almada

Este tipo de lenguaje se trata del proyecto científico y de investigación más grande de la compañía hasta el momento. Cómo funciona.

Google presentó una serie de anuncios sobre un importante avance en materia de Inteligencia Artificial: el nuevo modelo de lenguaje Gemini. Esta novedad atraviesa al mundo de los negocios, IT, desarrolladores y consumidores, a continuación les compartimos un resumen de los principales anuncios junto a links a los blogs oficiales más útiles.

Gemini es el resultado de los esfuerzos colaborativos a gran escala por parte de distintos equipos de Google, incluidos Google DeepMind y Google Research y se trata del proyecto científico y de investigación más grande de la compañía hasta el momento.

Se ha optimizado Gemini 1.0, la primera versión de este modelo, en tres dimensiones diferentes:

Gemini Ultra: el modelo de mayor capacidad y tamaño para tareas complejas
Gemini Pro: el mejor modelo para escalar una amplia gama de tareas
Gemini Nano: el modelo más eficiente para tareas en dispositivos móviles.

¿Qué es Gemini?
Es un modelo de Inteligencia Artificial multimodal, lo que significa que puede generar y comprender, operar y combinar a la perfección diferentes tipos de información, incluyendo texto, imágenes, audios, videos y lenguajes de programación.

También es el modelo más flexible hasta el momento, capaz de ejecutarse eficientemente en cualquier dispositivo, desde móviles hasta centros de datos. Gemini mejorará significativamente la forma en la que los clientes corporativos y desarrolladores construyen y escalan con IA.

Basado en tecnología de última generación

Hasta el momento, el método estándar para crear modelos multimodales consistía en entrenar componentes separados para distintas modalidades, y luego unirlos para imitar a grandes rasgos algunas de sus funciones. A veces, estos modelos pueden ser buenos en determinadas tareas, como la descripción de imágenes, pero tienen algunas dificultades con el razonamiento más conceptual y complejo.

Por eso, la compañía diseñó Gemini para que fuera un modelo de IA multimodal de forma nativa, es decir, previamente entrenado en diferentes modalidades (y desde el inicio). Se perfeccionó con datos multimodales adicionales para poder mejorar su eficacia. Esto ayuda a Gemini a comprender y razonar sin problemas todo tipo de entradas desde el principio, mucho mejor que los modelos multimodales existentes, y sus capacidades son de vanguardia en casi todos los ámbitos.

Pruebas comparativas

Este nuevo modelo de IA se ha puesto a prueba rigurosamente y evaluando su rendimiento en una amplia variedad de tareas que abarcan: desde la comprensión de imágenes naturales, audio y video, hasta codificación y el razonamiento matemático. El desempeño de Gemini Ultra supera 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de grandes modelos lingüísticos. Podrán conocer más en este documento técnico, haciendo clic acá.