Обработка изображений *

Работаем с фото и видео

Статьи Посты Новости Авторы Компании

VArkhipkin 28 мая в 12:47

Kandinsky Video 1.1: обновленная модель генерации видео

Средний

9 мин

2.3K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Kandinsky Video, основанную на модели генерации изображений Kandinsky 3.0, по которой мы недавно выпустили обновление – версию 3.1 (о чем можно почитать здесь). Первая видеомодель уже обладала весьма достойным качеством, сравнимым с лучшими мировыми решениями на тот момент. Нам удалось прокачать скорость генерации и моделирование динамики, но главное – мы вступили в новую для себя область генеративного искусственного интеллекта и быстро достигли в ней заметных результатов. Тогда, полгода назад, о подобных моделях знали в основном лишь те, кто так или иначе интересуется областью генеративного искусственного интеллекта. Сегодня же ситуация изменилась – благодаря значительному росту качества генерации видео за последний период, о существовании подобных моделей не слышал только ленивый. Разумеется, такой вход новых технологий в нашу жизнь стал возможным именно благодаря тем исследованиям, которые сообщество проводило за последние полтора года и в которые исследователи из нашей команды включились практически сразу.

Сегодня мы представляем следующую версию нашей модели генерации видео по тексту – Kandinsky Video 1.1. Мы учли последние тенденции в области разработок видеомоделей и сделали нашу технологию еще более впечатляющей, проведя собственные исследования в области архитектур, обработки данных и замере показателей качества, которые мы опишем ниже.

+23

Xcom-shop 23 мая в 08:37

Чем новый ChatGPT-4o отличается от GPT-4, что умеет и почему это супер-важно

Простой

7 мин

43K

Блог компании Группа компаний X-ComОбработка изображений*Искусственный интеллектБудущее здесь

Обзор

В середине мая компания OpenAI представила новую версию самой популярной и хайповой нейросети в мире. Продукт получил название ChatGPT-4o, сохранив порядковый номер своего предшественника. Несмотря на это, чат-бот не только стал быстрее обрабатывать информацию, но и получил поддержку мультимодальности, и это буквально все изменило.

112

mynameco 21 мая в 00:32

Delta-Rle-Huffman (DRH) Texture Format

8 мин

3.4K

Ненормальное программирование*Алгоритмы*Обработка изображений*C#*Сжатие данных*

Всем привет! В этой статье я опишу алгоритм работы формата сжатия изображений без потерь. Сжатие использует известные методики, которые и дали ему название. Проект начинался с простых экспериментов, которые вышли из под контроля. Не смотря на то, что формат чаще сжимает лучше чем png, никакого практического применения этот формат не имеет, оставаясь чисто академическим.

Внимание! В статье много картинок.

Кому интересно, добро пожаловать под кат!

+42

OSINT_mindset 18 мая в 17:29

Магия музеев или что могут технологии

Простой

6 мин

1.1K

Обработка изображений*Научно-популярное

Привет! На Хабре рассказывают про технологии, поэтому я выбрала подходящую и красивую тему. В этом посте рассказ пойдет об онлайн-музеях — какие из них стоит посмотреть, где искать ссылки, как и почему музеи оцифровывают коллекции.

Я, riaria — специалист по арткрайму и OSINT энтузиаст, расскажу, что остается за кадром. Кстати, 18 мая Международный день музеев и узнать побольше о том, что обычно скрывается от посетителей — отличный способ его отметить!

Вперед по музеям →

+11

Ilep 13 мая в 21:45

Копаемся в встроенном приложении камеры старого Xiaomi. Часть 2

Средний

22 мин

4.5K

Разработка под Android*Обработка изображений*Реверс-инжиниринг*

Попытаемся отреверсить и заглянуть в реализацию фото-эффектов приложения камеры Xiaomi 8 летней давности

[Начать реверс!]

aufklarer 11 мая в 11:39

Архитектура Stable Diffusion: Face ID, Lighting

Средний

7 мин

3.8K

Обработка изображений*Искусственный интеллект

Обзор

Это перевод моей статьи на medium.com.

Год назад я провёл краткий обзор по теме переноса стиля. Пару месяцев назад я решил вернуться к этому вопросу и исследовать прогресс за последний год. За это время случилось много значимых изменений: архитектура open-source модели Stable Diffusion стала, лидирующей среди моделей для задач генерации изображений. Особенно её модификация SDXL [1]. Hugging Face превратился в лидирующую платформу для запуска модели Stable Diffusion с помощью библиотеки diffusers [2].

+20

smile_artem 6 мая в 14:56

Точное увеличение растровых изображений

Средний

10 мин

3.8K

Работа с иконками*Алгоритмы*Обработка изображений*Математика*Визуализация данных*

Аналитика

Как красиво в фильмах увеличивают изображения с дешёвой видеокамеры, да так, что чётко видно лицо в отражении зрачка человека, находящегося за километр. Я тоже так хочу. А что мы имеем по факту? На какой максимальный результат можно рассчитывать хотя бы теоретически? А оказывается можно сделать чуть лучше, чем размазню...

Увеличим апскейл до максимума!

+16

gov0run 2 мая в 11:40

История технологий отображения: от камеры-обскуры до OLED-дисплея

22 мин

2.6K

Блог компании FirstVDSОбработка изображений*Научно-популярноеМониторы и ТВ

Ретроспектива

Сотни лет назад методы отображения графики и текста были далеки от современных разработок. Как правило, использовались простые устройства с механическим принципом действия. Впоследствии вывод графики претерпевал изменения и эволюционировал. Механические детали, крутящиеся и трущиеся, заменялись электронными компонентами — тихими, точными и относительно долговечными.

Дисплеи, возникшие на заре технологий XX века и представлявшие собой не иначе как инженерную эвристику, превратились в сложные системы с просчитанной до «нулей и единиц» логикой. Поэтому довольствуясь яркостью и точностью OLED-дисплеев сегодня, можно повспоминать бледность и смазанность ЭЛТ-дисплеев, бывших еще «вчера».

А можно пойти дальше и узнать, как люди из XX века смотрели передачи на вращающемся диске с дюжиной дырок. А может, и еще чего страшнее...

+15

pokrovsk 2 мая в 11:37

Как я тестировал российские фоторедакторы, полжизни проработав в Фотошопе

Простой

9 мин

51K

Обработка изображений*Софт

Обзор

Оказывается, пока мы решаем вопросы с продлением подписки через зарубежных друзей или вспоминаем опыт пиратства, наши разработчики вовсю занимаются импортозамещением. Я решил узнать, а какие вообще сегодня есть российские фоторедакторы, способные стать если не полной заменой, то хотя бы достойной альтернативой Фотошопу.

Почитав отзывы и посоветовавшись с друзьями и коллегами, выбрал 3 программы, которые мне показались наиболее интересными и решил их протестировать. Для проверки взял вот такой портрет кота. Фото сделано случайно — я еще не успел выставить свет, да и снимать пришлось без долгой пристрелки. Так что тут понадобится продвинутая техническая ретушь.

+102

166

pokrovsk 28 апр в 13:16

Паразитные оттенки в фотографии: причины и способы удаления

Средний

11 мин

6.8K

Обработка изображений*

Из песочницы

В свое время мне часто приходилось сталкиваться с такими проблемами, как некорректная цветопередача, цветовые шумы и артефакты, портящие кадр. Поэтому решил, что начинающим фотографам будет полезно знать, в чем причина появления паразитных оттенков в фотографии и как с ними можно бороться — в процессе съемки и при постобработке.

+12

maksim_sitnikov 27 апр в 07:30

Решение проблемы дымки на изображениях с использованием .NET: Простой и эффективный подход

Средний

3 мин

2.7K

.NET*Алгоритмы*Обработка изображений*Математика*

Туториал

Простое .NET решение для четких фото: избавьтесь от дымки или тумана на изображениях всего за несколько шагов!

+11

The-Founder-1 26 апр в 18:44

ViT для новичков: как нейросети научились определять зависимости в изображениях

Простой

8 мин

3.6K

Python*Обработка изображений*Математика*Машинное обучение*

Обзор

В этой статье мы попытаемся рассказать про трансформерную архитектуру VIT и предысторию его формирования. Сегодня не совсем понятно, почему этот "формат" нейронок настолько эффективен. Некоторые говорят механизм внимания, но некоторые практики делают больше ставок в области Computer Vision на MetaFormer. https://github.com/sail-sg/poolformer

Нейросети остаются для нас “теневым” процессом, подобным черному ящику. И изучение Deep Learning уже напоминает больше не математику, а биологию, где мы следим за поведением нашего детища.

+10

SmartEngines 26 апр в 11:19

Локальная REST-служба, или как за 5 минут интегрировать Smart ID Engine

7 мин

685

Блог компании Smart EnginesОбработка изображений*API*Искусственный интеллект

Сегодня мы расскажем, как встроить нашу систему распознавания документов, удостоверяющих личность, Smart ID Engine в виде локально работающей службы с интерфейсом REST API.

eshono 25 апр в 13:20

Векторизация амебы

Простой

25 мин

1.2K

Обработка изображений*

Туториал

Этот текст написан для владеющих минимальными навыками работы в Матлаб. Из математики нам потребуются некоторые материалы из учебников по Информатике для 10 и 11 классов. Мы попытаемся совместно написать программу векторизации некоторых изображений.

1. Предварительная обработка.

Мы будем векторизовать вот это изображение амебы:

SSul 25 апр в 11:00

Как я написал свой первый классификатор эмоций

Средний

24 мин

2.9K

Блог компании SimbirSoftПрограммирование*Обработка изображений*Машинное обучение*

Туториал

Всем привет! Немного о себе. Меня зовут Максим, я работаю специалистом по Machine Learning в компании SimbirSoft. Последние два года я углубленно изучал область машинного обучения и компьютерного зрения и сегодня с удовольствием поделюсь с вами опытом разработки личного пет-проекта.

В этой статье я расскажу о своем пути от идеи до реализации своего первого классификатора эмоций. Мы обсудим с вами методы, инструменты и техники, которые я применял в процессе создания своего проекта. Анализ данных, выбор модели, обучение и оценка результатов – каждый этап разработки имеет свои особенности и трудности, о чем я с удовольствием поделюсь с вами.

Почему меня привлекла именно эта тема? Во-первых, я уже решал аналогичную задачу на коммерческом проекте, которая включала распознавание и идентификацию лиц. Кроме того, меня заинтересовала эта задача тем, что она состоит из двух этапов: сначала детекция лица на изображении, а затем классификация эмоций, которые испытывает человек.

Статья будет полезна начинающим разработчикам в области Computer Vision, а также всем, кому интересна тема машинного обучения. Вы узнаете, с какой стороны подходить к решению задач с распознаванием лиц и что можно для этого использовать (подходы, инструменты и технологии).

Читать далее 😎

turchan 24 апр в 09:31

Невероятный уровень «галлюцинирования» и проявление эмпатии от ChatGPT

Простой

2 мин

Обработка изображений*

Кейс

Recovery Mode

Я много раз слышал о том, что ChatGPT галлюцинирует, то есть придумывает то, чего в реальности нет, но никогда с этим не сталкивался. Были какие-то неточности, но я их списывал на неактуальность базы данных или не замечал.
Или как-то попросил его исправить грамматические ошибки, он их исправил, только зачем-то еще и текст в 2 раза сократил.
На днях дочке задали выучить слова. Текст был написан от руки, и ей было трудно читать. Я подумал, что надо бы сделать печатные быквы и распечатать, переписывать не хотелось, решил использовать ChatGPT.

-15

Odin_Himself 22 апр в 00:27

«Строка бога» и «лакмусовая бумажка» для ИИ-генераторов изображений

Простой

6 мин

7.2K

Интерфейсы*Обработка изображений*Машинное обучение*Научно-популярноеИскусственный интеллект

Мнение

Здравствуйте, уважаемые читатели!

В этой статье я хотел бы привести простой пример методологии, которую использую лично я для оценки возможностей нейросетей-художников, а также для работы с ними.

Кроме того, хотелось бы ввести в обиход промт-инженеров два новых термина.

ErmIg 11 апр в 15:08

Теоретическая и реальная производительность Intel AMX

Сложный

11 мин

4.1K

Высокая производительность*C++*Алгоритмы*Обработка изображений*Искусственный интеллект

Туториал

AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids).

В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора.

Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s.

Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность.

Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже).

Далее много кода на С++...

+30

kuznetsoff87 10 апр в 12:12

OmniFusion 1.1: мультимодальность теперь и на русском

Сложный

7 мин

8.2K

Блог компании AIRIАлгоритмы*Обработка изображений*Искусственный интеллектNatural Language Processing*

В прошлом году на конференции AIJ 2023 мы представили первую версию OmniFusion — мультимодальной языковой модели (LLM), способной поддерживать визуальный диалог и отвечать на вопросы по картинкам. Спустя несколько месяцев мы готовы представить обновление — OmniFusion 1.1 — SoTA на ряде бенчмарков (среди моделей схожего размера) и, более того, модель хорошо справляется со сложными задачами и понимает русский язык! Самое главное — всё выкладываем в открытый доступ: веса и даже код обучения.

Ниже расскажем об особенностях модели, процессе обучения и примерах использования. В первую очередь остановимся на архитектуре, а потом отдельно расскажем о проделанных экспериментах как в части архитектурных трюков, так и о работе с данными. Ну а несколько интересных кейсов на англ и русском языках можно посмотреть на палитре ниже.

+20

snk4tr 9 апр в 10:15

Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям

16 мин

13K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureОбработка изображений*Машинное обучение*Искусственный интеллект

В Yandex Cloud с сегодняшнего дня открыт доступ к тестированию API YandexART — нейросети для генерации изображений и анимаций, которая лежит в основе приложения Шедеврум. Протестировать API можно в сервисе Foundation Models, в котором доступно несколько моделей машинного обучения, включая YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.

+37

2 3 ...

108 109

Обработка изображений *

Kandinsky Video 1.1: обновленная модель генерации видео

Новости

Чем новый ChatGPT-4o отличается от GPT-4, что умеет и почему это супер-важно

Delta-Rle-Huffman (DRH) Texture Format

Магия музеев или что могут технологии

Копаемся в встроенном приложении камеры старого Xiaomi. Часть 2

Архитектура Stable Diffusion: Face ID, Lighting

Точное увеличение растровых изображений

История технологий отображения: от камеры-обскуры до OLED-дисплея

Как я тестировал российские фоторедакторы, полжизни проработав в Фотошопе

Паразитные оттенки в фотографии: причины и способы удаления

Решение проблемы дымки на изображениях с использованием .NET: Простой и эффективный подход

ViT для новичков: как нейросети научились определять зависимости в изображениях

Локальная REST-служба, или как за 5 минут интегрировать Smart ID Engine

Ближайшие события

Векторизация амебы

Как я написал свой первый классификатор эмоций

Невероятный уровень «галлюцинирования» и проявление эмпатии от ChatGPT

«Строка бога» и «лакмусовая бумажка» для ИИ-генераторов изображений

Теоретическая и реальная производительность Intel AMX

OmniFusion 1.1: мультимодальность теперь и на русском

Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям

Вклад авторов