Google Gemini (Gemini AI)

Resumen Resumen

?Qué es Google Gemini (Gemini AI)?
?Cómo se llamó Google Gemini?
?Cómo funciona Géminis?
?Qué puede hacer Gemini?
Ecosistema Google Gemini
?Cómo se entrena la IA de Géminis?
Modelos de suscripción gratuitos y de pago
Gemini frente a GPT-4
Ventajas e inconvenientes de Google Gemini
Preguntas frecuentes
Referencias

Resumen

?Qué es Google Gemini (Gemini AI)?
?Cómo se llamó Google Gemini?
?Cómo funciona Géminis?

?Qué puede hacer Gemini?
Ecosistema Google Gemini
?Cómo se entrena la IA de Géminis?
Modelos de suscripción gratuitos y de pago
Gemini frente a GPT-4
Ventajas e inconvenientes de Google Gemini
Preguntas frecuentes
Referencias

?Qué es Google Gemini (Gemini AI)?

Google Gemini (Gemini AI) es un conjunto integrado de grandes modelos lingüísticos (LLM) que Google DeepMind dise?ó desde el principio para ser multimodal. El conjunto integrado puede procesar texto, imágenes, código y audio a través de una única interfaz de usuario (IU).

En diciembre de 2023, Gemini sustituyó a PaLM 2, el LLM que impulsaba Google Bard. En febrero de 2024, Google anunció que, a partir de ese momento, Bard se llamaría Gemini.

Las definiciones de la IA Gemini de Google suelen situar a los LLM Gemini como una familia de potentes asistentes de IA. El término “asistente” implica que Google ve a Gemini como una herramienta de inteligencia aumentada que está dise?ada para ayudar a los usuarios con diversas tareas, no para sustituir a los trabajadores humanos.

?Cómo se llamó Google Gemini?

Algunos medios de comunicación han informado de que Gemini significa “Interfaz de Red de Inteligencia Multimodal Generalizada”, pero esa información no se ha podido confirmar.

Según Google Bard, es más probable que los desarrolladores de Google bautizaran la suite LLM integrada con el nombre de la constelación de Géminis y del antiguo mito griego de Cástor y Pólux que inspiró el signo del zodiaco.

Cuando se le preguntó, Google Gemini se mostró de acuerdo y se?aló que esto concuerda con el historial de Google de utilizar temas astronómicos en la denominación de productos.

?Cómo funciona Géminis?

Se rumorea que los modelos de IA de Géminis utilizan la arquitectura Google Pathways. En este tipo de arquitectura de IA, inicialmente se ense?a a una serie de modelos modulares de aprendizaje automático a realizar una tarea específica. Una vez entrenados, los módulos se conectan para formar una red.

Los módulos conectados en red pueden trabajar de forma independiente, o pueden trabajar juntos para generar distintos tipos de resultados.

En el extremo posterior, los codificadores convierten distintos tipos de datos en un lenguaje común, y los descodificadores generan salidas en distintas modalidades en función de las entradas codificadas y la tarea que se esté realizando.

Google ha reconocido que los modelos son más rápidos cuando se ejecutan en las Unidades de Procesamiento Tensorial (TPU) de Google.

Una interfaz fácil de usar oculta las complejidades de la arquitectura de Gemini y hace posible que personas con distintos niveles de habilidad utilicen los modelos Gemini con fines de IA generativa.

?Qué puede hacer Gemini?

Es importante tener en cuenta que Google Gemini está en continua evolución, y las capacidades de los modelos siempre se están ampliando. Por ejemplo, las primeras versiones de los modelos gratuitos basados en la web podían interpretar imágenes cargadas, pero no podían generar imágenes a partir de indicaciones.

Hoy en día, la versión gratuita de Gemini puede utilizarse para generar texto en diversos formatos, traducir idiomas, responder a preguntas con precisión de hechos, resumir información de páginas web, explicar conceptos de programación, generar código nuevo y sugerir mejoras para fragmentos de código.

Otra cosa que parece estar evolucionando continuamente son los nombres de los productos para los distintos grupos de modelos Gemini. Actualmente, la versión más peque?a de la familia de modelos Gemini se llama Gemini Nano. Es una versión ligera de Gemini que puede ejecutarse en dispositivos Android, empezando por el Google Pixel 8 Pro y la serie Samsung S24.

Ecosistema Google Gemini

Según Sundar Pichai, CEO de Google y Alphabet, “Gemini dará soporte a todo un ecosistema: desde los productos que miles de millones de personas utilizan cada día, hasta las API y plataformas que ayudan a los desarrolladores y a las empresas a innovar.”

Hasta que Google estandarice las descripciones del chatbot Gemini y las opciones de integración de productos, los usuarios pueden obtener la información más reciente visitando la página de aterrizaje de Google para Actualizaciones de Gemini.

?Cómo se entrena la IA de Géminis?

Se afirma que los modelos LLM de Gemini se han entrenado con una combinación de las siguientes técnicas:

Aprendizaje supervisado

Los módulos Gemini AI se entrenaron para predecir los resultados de nuevos datos utilizando patrones aprendidos a partir de datos de entrenamiento etiquetados.

Aprendizaje no supervisado

Los módulos Gemini AI se entrenaron para descubrir de forma autónoma patrones, estructuras o relaciones en los datos sin necesidad de ejemplos etiquetados./su_spoiler]

Aprendizaje por refuerzo

Los módulos de IA de Gemini mejoraron sus estrategias de toma de decisiones de forma iterativa mediante un proceso de ensayo y error que ense?ó a los módulos a maximizar las recompensas y minimizar las penalizaciones.

Algunos expertos del sector han especulado con que Google se basó en gran medida en el aprendizaje por refuerzo con retroalimentación humana (RLHF) para entrenar los módulos Gemini en los chips Cloud TPU v5e. Según Google, las TPU tienen cinco veces más potencia de cálculo que los chips utilizados para entrenar Chat GPT.

De momento, Google no ha publicado ninguna información detallada sobre los conjuntos de datos en los que se entrenaron los modelos de IA Gemini. Sin embargo, es probable que los ingenieros de Google utilizaran el marco LangChain y reutilizaran los datos que usaron para entrenar PaLM 2.

Si es así, los modelos de la base Gemini se habrían entrenado inicialmente con datos de documentos web, libros, código, imágenes, audio y vídeo. Queda por ver si el enfoque holístico de Google DeepMind para entrenar a los asistentes de IA será tan eficaz como el enfoque de Open AI, que ha consistido en a?adir nuevos modos de forma iterativa.

Modelos de suscripción gratuitos y de pago

Los usuarios de ordenadores de sobremesa pueden acceder a la versión gratuita de Gemini a través de un navegador web. Los usuarios de móviles tienen la opción de utilizar la versión gratuita, que actualmente se denomina Gemini Pro, instalando la aplicación Gemini en dispositivos Android o la aplicación Google en dispositivos iOS.

Gemini Advanced es una versión de pago de Gemini que amplía las capacidades de la versión gratuita por 19,99 $/mes. La página de inicio de Gemini Advanced se refiere al modelo como 1.0 Ultra. No está claro si DeepMind está utilizando a los suscriptores de Gemini Advanced para probar versiones empresariales de Gemini, o si Gemini Advanced acabará llamándose Gemini Ultra.

Actualmente, los clientesde Google Workspace pueden suscribirse a Gemini Business o Gemini Enterprise para acceder a 1.0 Ultra. Gemini Business cuesta 20 $ por usuario/mes y requiere un compromiso de un a?o. Proporciona a los usuarios seguridad y privacidad de nivel empresarial y está dise?ado para satisfacer las necesidades de la mayoría de los usuarios de empresa.

Gemini Enterprise cuesta 30 $ por usuario/mes y también requiere un compromiso de un a?o. La suscripción empresarial proporciona todo lo que ofrece Gemini Business, así como funciones avanzadas de traducción para reuniones y acceso/uso completo de Gemini.

Gemini frente a GPT-4

Gemini y GPT-4 suelen utilizarse juntos porque cada familia de modelos tiene puntos fuertes diferentes. Por ejemplo, ChatGPT Plus destaca en resumir temas y escribir código, mientras que Géminis Avanzado es mejor en la escritura creativa y en ajustar el tono de las salidas de texto. Si necesitas ayuda con un proyecto de escritura creativa, Géminis puede ser una opción mejor. Pero si estás escribiendo no ficción o analizando código, GPT-4 podría ser más adecuado.

Otra consideración es que Gemini puede acceder a Internet. Esto significa que Géminis puede incorporar conocimientos más recientes en sus respuestas que Chat GPT-4.

Ventajas e inconvenientes de Google Gemini

Una de las mayores ventajas de Gemini es que Google está integrando esta familia de modelos de IA multimodal en otros productos y servicios de Google. Esto significa que los usuarios podrán acceder a las capacidades de Gemini dentro de herramientas familiares de Google como la Búsqueda, Gmail y Docs, sin necesidad de cambiar entre distintas aplicaciones.

Una de las mayores desventajas de Géminis es que a veces puede dar respuestas excesivamente seguras, incluso cuando las salidas de información son incorrectas.

Preguntas frecuentes

?Qué es Google Gemini en términos sencillos?

?Para qué sirve Google Gemini?

?Es bueno Google Gemini?

?Google Gemini es gratuito o de pago?

?Es Gemini mejor que ChatGPT?

Referencias

Google DeepMind Gemini – Dr Alan D. Thompson – Life Architect?(Lifearchitect)
Introducing Pathways: A next-generation AI architecture?(Blog)
Tensor Processing Units (TPUs) | Google Cloud?(Cloud.google)
Get started with Gemini Nano on Android (on-device) | Google AI for Developers?(Ai.google)
Store.google?(Store.google)
?Gemini Apps’ release updates & improvements?(Gemini.google)
Announcing Cloud TPU v5e and A3 GPUs in GA | Google Cloud Blog?(Cloud.google)
Generative AI applications with Vertex AI PaLM 2 Models and LangChain | Google Cloud Blog?(Cloud.google)
?Gemini Advanced – get access to Google’s most capable AI model, 1.0 Ultra?(Gemini.google)
Gemini for Google Workspace | Gen AI Tools for Business?(Workspace.google)

Notícias

Margaret Rouse

Experta en tecnología

Margaret Rouse es una galardonada escritora técnica y profesora conocida por su habilidad para explicar temas técnicos complejos a una audiencia de negocios no técnica. Durante los últimos veinte a?os, sus explicaciones han aparecido en sitios web de TechTarget y ha sido citada como autoridad en artículos del New York Times, Time Magazine, USA Today, ZDNet, PC Magazine y Discovery Magazine. La idea de diversión de Margaret es ayudar a profesionales de TI y negocios a aprender a hablar los idiomas altamente especializados de cada uno. Si tienes una sugerencia para una nueva definición o cómo mejorar una explicación técnica,…

Todos los artículos de Margaret Rouse