Alibaba представляет Qwen2.5-VL: передовые модели ИИ с функцией управления устройствами
Команда Qwen от Alibaba представила модели ИИ Qwen2.5-VL, способные анализировать текст и изображения, понимать видео и управлять устройствами, превосходя крупных конкурентов в различных тестах.

В значительном прорыве в области ИИ, команда Qwen от Alibaba запустила серию Qwen2.5-VL, новую линейку моделей ИИ, разработанных для выполнения широкого спектра задач, включая анализ текста и изображений, понимание видео и даже управление ПК и мобильными устройствами. Эти модели, доступные для тестирования в приложении Qwen Chat и для загрузки на Hugging Face, продемонстрировали превосходную производительность по сравнению с OpenAI’s GPT-4o, Anthropic’s Claude 3.5 Sonnet и Google’s Gemini 2.0 Flash в различных оценках.
Модели Qwen2.5-VL способны анализировать графики, извлекать данные из отсканированных документов и понимать длинные видео. Они также обладают способностью распознавать интеллектуальную собственность из фильмов, телесериалов и различных продуктов, что указывает на широкий набор обучающих данных, который может включать материалы, защищенные авторским правом. Однако эти модели соблюдают интернет-регламенты Китая, избегая тем, которые противоречат основным социалистическим ценностям.
Одной из выдающихся особенностей Qwen2.5-VL является её способность взаимодействовать с программным обеспечением как на ПК, так и на мобильных устройствах, что было продемонстрировано в видео, где модель бронирует авиабилет через приложение Booking.com. Несмотря на некоторые ограничения в выполнении сложных задач на рабочем столе Linux, потенциал для управления устройствами с помощью ИИ очевиден. Серия Qwen2.5-VL включает модели под разрешительной лицензией, при этом флагманская модель Qwen2.5-VL-72B требует специального разрешения для коммерческого использования крупными организациями.