Еще один ништячок от Google они выпустили- "PaliGemma"! 🚀
Семейство из 116 новых моделей, которые могут подписывать изображения, отвечать на вопросы, распознавать объекты, сегментировать изображения и многое другое!
PaliGemma (Github) - это семейство моделей визуализации с архитектурой, состоящей из SIGLIP-So 400m в качестве кодера изображений и Gemma-2B в качестве декодера текста.
SigLIP - это современная модель, которая может распознавать как изображения, так и текст. Как и CLIP, он состоит из кодера изображений и текста. Как и в случае с PALI-3, комбинированная модель Paligemma работает на основе графических и текстовых данных, а затем может быть легко адаптирована для последующих задач, таких как создание субтитров.
Gemma - это модель для генерации текста, предназначенная только для декодера. Сочетание графического кодера Siglip и линейного адаптера Gemma позволяет использовать Paligemma в качестве мощной модели визуализации.
У себя в канале я опубликую ее обзор моделей и первые впечатления, а как появится api, добавлю в бота, чтобы любой мог поиграться с ним, заходите в гости)
🌟 LocalAI — открытая и бесплатная альтернатива предложений от OpenAI
LocalAI — это open-source альтернатива решений от OpenAI. LocalAI выступает в качестве замены REST API, совместимого со спецификациями OpenAI API для локальных выводов.
Позволяет локально запускать LLM, генерировать изображения, аудио (и не только), клонировать голос; при этом не требует GPU.
⚡️ Lory — полностью дифференцируемая Mixture-of-Experts (MoE) для предварительного обучения авторегрессионной языковой модели
На днях исследователи из Принстона представили Lory — первое в своём роде решение, которое позволяет масштабировать MoE-архитектуры для предварительного обучения авторегрессионных языковых моделей.
В Lory реализованы 2 ключевые технологии:
(1) — стратегия маршрутизации причинных сегментов, которая обеспечивает высокую эффективность операций объединения экспертов при сохранении авторегрессивной природы языковых моделей
(2) — метод группировки данных на основе сходства, который стимулирует специализацию "экспертов" путем группировки похожих документов в обучающих выборках
Результаты экспериментов с Lory показывают значительный прирост производительности по сравнению с обычными MoE-моделями.
Разбираем задачи на стажировку аналитика в яндекс. Подключаем GPT-4 Turbo и самые мощные ИИ!
Я подробно разобрал 3 задания на стажировку в летнюю школу Яндекс,
Затем я решил 2 из них с помощью GPT-4 в боте https://t.me/Chatgpturbobot GPT-4 решил первые 2 задания с первого раза, с одного промпта, а 3 задание никак не мог решить. Еще я рассказал про крутую арену с LLM - сайт chat.lmsys.org, на нем я попробовал решить 3 задание с помощью 6 разных LLM, но ни одна не справилась
Здесь я подробно разобрал 3 задания на стажировку в летнюю школу Яндекс, машинное обучение и data science.
📊 TimesFM - это новая модель прогнозирования временных рядов от Google, предварительно обученная на большом массиве данных состоящем из 100 миллиардов реальных временных точек.
Модель демонстрирует впечатляющую производительность при zero-shot обучении на множестве бенчмарков.
🗄Исследователь создал инструмент Close-Circuit Telegram Vision (CCTV), позволяющий искать пользователей Telegram, у которых включена настройка «Люди рядом». CCTV показывает примерное физическое местоположение пользователей на карте, даже если они находятся совсем не рядом.
🗄Разработчик объяснил, что CCTV использует API Telegram, связанный с функцией Find People Nearby. «В качестве входных данных он принимает кастомные широту и долготу, поэтому можно вводить любые данные (не нужен даже GPS-спуфинг)», — сообщил Глинкин. Также он показал журналистам два других [1] [2] проекта с похожей функциональностью, но отметил, что его проект более точен.
🗄Пресс-служба Telegram дала следующий комментарий:
«Опциональная функция “Люди рядом” была создана специально для людей, которые хотят сообщить о своем местоположении другим. По умолчанию она всегда отключена. Координаты, которые отображает инструмент с GitHub, не являются местоположением пользователя — данные на сервере аппроксимируются до 800 метров и существуют только для пользователей, которые явно предпочли транслировать свое местоположение вовне»
Если интересуетесь этичным хакингом и инструментами OSINT, здесь я публикую и разбираю самые интересные инструменты разведки.
⚡️ PyWinAssistant — AI-инструмент для управления пользовательским интерфейсом
PyWinAssistant — это первый AI-фреймворк для Windows 10/11 с открытым исходным кодом для управления любыми пользовательскими интерфейсами win32api путем использования визуализации мышления (VoT) и пространственных рассуждений в LLM (без OCR / обнаружения объектов / сегментации — такой подход улучшает качество работы PyWinAssistant).
PyWinAssistant имеет встроенные опции чтобы помогать человеку пользоваться компьютером.
Он правильно понимает любые запросы на естественном языке и планирует выполнение правильных действий в ОС с учетом требований безопасности.
Новый метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки
Мощный метод Deblur-GS на основе Гауссовских сплатов для качественного восстановления размытой картинки.
Что же такое Гаусовские Сплаты, простыми словами:
Из видео извлекается облако точек, затем по облаку создается набор маленьких полупрозрачных гауссиан. Потом эти гауссианы оптимизируются доя тогог, чтобы после рендеринга с высокой точностью восстанавливать кадры.
Это не Nerual Radiance Field и здесь все рабоатет намного проще.
За счет простоты эта штука и обучается, и рендерится довольно быстро.
Deblur-GS обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, что подтверждается бенчмарками, как на синтетических, так и на реальных наборах данных.
🖥 Вышла первая бета-версия языка программирования Python 3.13.0b1
8 мая 2024 года вышла первая бета-версия языка программирования Python 3.13.0b1 (3.13.0 beta 1) для тестирования с экспериментальным JIT-компилятором и улучшенным интерактивным интерпретатором на основе PyPy 🔥
Ещё одним интересным моментом в Python 3.13.0b1 является экспериментальный режим сборки free-threaded build mode, который отключает глобальную блокировку интерпретатора (GIL), циклический сборщик мусора теперь стал более инкрементальным, также там включен модифицированный mimalloc, внесены новые дополнения к типизации и другие изменения, включая исправление ранее обнаруженных ошибок.
Это лучшие в настоящее время боты на базе нового GPT для различных задач!
Проверенные временем боты с той самой загадочной модели, которая, возможно, является GPT-5, о ней мы уже писали здесь.
В результате добавления новой модели, боты стали значительно умнее и работают на полную мощность!
Здесь лучшие бота на базе CHATGPT из возможных:
- Creative Ad Maker — выдающийся копирайтер, который придумает для вас и пост в блоге, и рекламную кампанию. Включает в себя обширный набор виральных кейсов.
Chatgpturbobot - лучший бесплатный бот, который поддерживает новые версии GPT. Бот также поддерживает визуальную модель gpt, вы можете отправить скриншот за задачей боту и он пришлет вам решение, крутая вещь.
- Growth Hacking Expert — предложит вам идеи для стартапов с учетом ограниченного бюджета и предоставит технические детали. За кулисами у бота — обширный набор успешных кейсов.
- Creative Answers & Brainstorm GPT — генерирует креативные ответы даже на самые скучные вопросы. Например, вместо «Собирать виноград в Италии» он предложит вам не только виноградник, но и потенциальный город поблизости и так далее.
- Anti AI-Detection — скроет ваш текст от обнаружения ИИ. Случайным образом маскирует ваши генерации под человеческий текст.
- Image Edit | img2img — бот для редактирования и генерации изображений. Стал еще более полезным с появлением редактора изображений в ChatGPT: просто предоставьте ему изображение, и он создаст похожее.
Microsoft только что представили инструмент You Only Cache Once: Decoder-Decoder : архитектура Decoder-Decoder для большихязыковых моделей
YOCO существенно снижаетпотребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с self-decoder'ом.
Self-decoder кодирует глобальные кэши
значений ключей (KV), которые повторно используются cross decoder'ом с механизмом cross-attention.
Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.