El avance de Apple en IA para interpretar interfaces de aplicaciones podría impulsar un Siri más avanzado.

Apple enseñando un sistema de inteligencia artificial para dar sentido a las pantallas de aplicaciones podría impulsar Siri avanzado.
Un artículo de investigación de Apple describe cómo la empresa ha estado desarrollando Ferret-UI, un sistema de inteligencia artificial generativo diseñado específicamente para poder dar sentido a las pantallas de aplicaciones.

El documento es algo vago sobre las posibles aplicaciones de esto (probablemente de forma deliberada), pero la posibilidad más interesante sería alimentar un Siri mucho más avanzado…

Los desafíos para ir más allá de ChatGPT
Los modelos de lenguaje grande (LLM) son lo que impulsan sistemas como ChatGPT. El material de formación para estos es texto, en su mayoría extraído de sitios web.

Los MLLM, o modelos multimodales de lenguaje grande, tienen como objetivo ampliar la capacidad de un sistema de inteligencia artificial para dar sentido también a la información no textual: imágenes, videos y audio.

Actualmente, los MLLM no son muy buenos para comprender el resultado de las aplicaciones móviles. Hay varias razones para esto, empezando por la mundana de que las relaciones de aspecto de la pantalla de los teléfonos inteligentes difieren de las utilizadas por la mayoría de las imágenes de entrenamiento.

Más específicamente, muchas de las imágenes que necesitan reconocer, como íconos y botones, son muy pequeñas.

Además, en lugar de comprender la información de una sola vez, como lo harían al interpretar una imagen estática, deben poder interactuar con la aplicación.

Interfaz de usuario Ferret de Apple

Estos son los problemas que los investigadores de Apple creen haber resuelto con el sistema MLLM que llaman Ferret-UI (UI que significa interfaz de usuario).

Dado que las pantallas de interfaz de usuario suelen exhibir una relación de aspecto más alargada y contienen objetos de interés más pequeños (por ejemplo, íconos, textos) que las imágenes naturales, incorporamos «cualquier resolución» encima de Ferret para magnificar los detalles y aprovechar características visuales mejoradas.

Recopilamos meticulosamente muestras de capacitación de una amplia gama de tareas elementales de la interfaz de usuario, como reconocimiento de íconos, búsqueda de texto y listado de widgets. Estas muestras están formateadas para seguir instrucciones con anotaciones de región para facilitar referencias y conexiones precisas. Para aumentar la capacidad de razonamiento del modelo, compilamos aún más un conjunto de datos para tareas avanzadas, que incluyen descripción detallada, conversaciones de percepción/interacción e inferencia de funciones.

El resultado, dicen, es mejor que el GPT-4V y otros MLLM existentes centrados en la interfaz de usuario.

Desde el desarrollo de UI hasta un Siri altamente avanzado

El documento describe lo que han logrado, en lugar de cómo podría utilizarse. Esto es típico de muchos trabajos de investigación y puede haber un par de razones para ello.

En primer lugar, es posible que los propios investigadores no sepan cómo se podría utilizar su trabajo. Se centran en resolver un problema técnico, no en las posibles aplicaciones. Puede que sea necesario ser un experto en productos para ver posibles formas de utilizarlo.

En segundo lugar, especialmente en lo que respecta a Apple, se les puede ordenar que no revelen el uso previsto o que sean deliberadamente vagos al respecto.

Pero podríamos ver tres posibles formas en que se podría utilizar esta habilidad…

Primero, podría ser una herramienta útil para evaluar la efectividad de una interfaz de usuario. Un desarrollador podría crear una versión borrador de una aplicación y luego dejar que Ferret-UI determine qué tan fácil o difícil es de entender y usar. Esto podría ser más rápido y más económico que las pruebas de usabilidad humana.

Dos, podría tener aplicaciones de accesibilidad. En lugar de que un simple lector de pantalla lea todo lo que aparece en la pantalla de un iPhone a una persona ciega, por ejemplo, resume lo que muestra la pantalla y enumera las opciones disponibles. Luego, el usuario podría decirle a iOS lo que quiere hacer y dejar que el sistema lo haga por él.

Apple proporciona un ejemplo de esto, donde a Ferret-UI se le presenta una pantalla que contiene programas de podcasts. El resultado del sistema es: «La pantalla es para una aplicación de podcast donde los usuarios pueden explorar y reproducir podcasts nuevos y notables, con opciones para reproducir, descargar y buscar podcasts específicos».

Tres, y lo más emocionante de todo, podría usarse para impulsar una forma muy avanzada de Siri, donde un usuario podría darle a Siri una instrucción como «Consulta vuelos de Lanzarote a Madrid mañana y reserva un asiento en un vuelo que me lleve». allí a las 10 de la mañana. con una tarifa total inferior a 125 €”. Luego, Siri interactuaría con la aplicación de la aerolínea para realizar la tarea.

Estaremos encantados de escuchar lo que piensas

Deje una respuesta

AHL Informática | La Mejor Tienda de Lanzarote
Logo
Registrar una cuenta nueva
Bienvenido a AHL Informática
Restablecer la contraseña