Попытаемся отреверсить и заглянуть в реализацию фото-эффектов приложения камеры Xiaomi 8 летней давности
Обработка изображений *
Работаем с фото и видео
Новости
Архитектура Stable Diffusion: Face ID, Lighting
Это перевод моей статьи на medium.com.
Год назад я провёл краткий обзор по теме переноса стиля. Пару месяцев назад я решил вернуться к этому вопросу и исследовать прогресс за последний год. За это время случилось много значимых изменений: архитектура open-source модели Stable Diffusion стала, лидирующей среди моделей для задач генерации изображений. Особенно её модификация SDXL [1]. Hugging Face превратился в лидирующую платформу для запуска модели Stable Diffusion с помощью библиотеки diffusers [2].
Точное увеличение растровых изображений
Как красиво в фильмах увеличивают изображения с дешёвой видеокамеры, да так, что чётко видно лицо в отражении зрачка человека, находящегося за километр. Я тоже так хочу. А что мы имеем по факту? На какой максимальный результат можно рассчитывать хотя бы теоретически? А оказывается можно сделать чуть лучше, чем размазню...
История технологий отображения: от камеры-обскуры до OLED-дисплея
Сотни лет назад методы отображения графики и текста были далеки от современных разработок. Как правило, использовались простые устройства с механическим принципом действия. Впоследствии вывод графики претерпевал изменения и эволюционировал. Механические детали, крутящиеся и трущиеся, заменялись электронными компонентами — тихими, точными и относительно долговечными.
Дисплеи, возникшие на заре технологий XX века и представлявшие собой не иначе как инженерную эвристику, превратились в сложные системы с просчитанной до «нулей и единиц» логикой. Поэтому довольствуясь яркостью и точностью OLED-дисплеев сегодня, можно повспоминать бледность и смазанность ЭЛТ-дисплеев, бывших еще «вчера».
А можно пойти дальше и узнать, как люди из XX века смотрели передачи на вращающемся диске с дюжиной дырок. А может, и еще чего страшнее...
Истории
Как я тестировал российские фоторедакторы, полжизни проработав в Фотошопе
Оказывается, пока мы решаем вопросы с продлением подписки через зарубежных друзей или вспоминаем опыт пиратства, наши разработчики вовсю занимаются импортозамещением. Я решил узнать, а какие вообще сегодня есть российские фоторедакторы, способные стать если не полной заменой, то хотя бы достойной альтернативой Фотошопу.
Почитав отзывы и посоветовавшись с друзьями и коллегами, выбрал 3 программы, которые мне показались наиболее интересными и решил их протестировать. Для проверки взял вот такой портрет кота. Фото сделано случайно — я еще не успел выставить свет, да и снимать пришлось без долгой пристрелки. Так что тут понадобится продвинутая техническая ретушь.
Паразитные оттенки в фотографии: причины и способы удаления
В свое время мне часто приходилось сталкиваться с такими проблемами, как некорректная цветопередача, цветовые шумы и артефакты, портящие кадр. Поэтому решил, что начинающим фотографам будет полезно знать, в чем причина появления паразитных оттенков в фотографии и как с ними можно бороться — в процессе съемки и при постобработке.
Решение проблемы дымки на изображениях с использованием .NET: Простой и эффективный подход
Простое .NET решение для четких фото: избавьтесь от дымки или тумана на изображениях всего за несколько шагов!
ViT для новичков: как нейросети научились определять зависимости в изображениях
В этой статье мы попытаемся рассказать про трансформерную архитектуру VIT и предысторию его формирования. Сегодня не совсем понятно, почему этот "формат" нейронок настолько эффективен. Некоторые говорят механизм внимания, но некоторые практики делают больше ставок в области Computer Vision на MetaFormer. https://github.com/sail-sg/poolformer
Нейросети остаются для нас “теневым” процессом, подобным черному ящику. И изучение Deep Learning уже напоминает больше не математику, а биологию, где мы следим за поведением нашего детища.
Локальная REST-служба, или как за 5 минут интегрировать Smart ID Engine
Сегодня мы расскажем, как встроить нашу систему распознавания документов, удостоверяющих личность, Smart ID Engine в виде локально работающей службы с интерфейсом REST API.
Векторизация амебы
Этот текст написан для владеющих минимальными навыками работы в Матлаб. Из математики нам потребуются некоторые материалы из учебников по Информатике для 10 и 11 классов. Мы попытаемся совместно написать программу векторизации некоторых изображений.
/
1. Предварительная обработка.
Мы будем векторизовать вот это изображение амебы:
Как я написал свой первый классификатор эмоций
Всем привет! Немного о себе. Меня зовут Максим, я работаю специалистом по Machine Learning в компании SimbirSoft. Последние два года я углубленно изучал область машинного обучения и компьютерного зрения и сегодня с удовольствием поделюсь с вами опытом разработки личного пет-проекта.
В этой статье я расскажу о своем пути от идеи до реализации своего первого классификатора эмоций. Мы обсудим с вами методы, инструменты и техники, которые я применял в процессе создания своего проекта. Анализ данных, выбор модели, обучение и оценка результатов – каждый этап разработки имеет свои особенности и трудности, о чем я с удовольствием поделюсь с вами.
Почему меня привлекла именно эта тема? Во-первых, я уже решал аналогичную задачу на коммерческом проекте, которая включала распознавание и идентификацию лиц. Кроме того, меня заинтересовала эта задача тем, что она состоит из двух этапов: сначала детекция лица на изображении, а затем классификация эмоций, которые испытывает человек.
Статья будет полезна начинающим разработчикам в области Computer Vision, а также всем, кому интересна тема машинного обучения. Вы узнаете, с какой стороны подходить к решению задач с распознаванием лиц и что можно для этого использовать (подходы, инструменты и технологии).
Невероятный уровень «галлюцинирования» и проявление эмпатии от ChatGPT
Я много раз слышал о том, что ChatGPT галлюцинирует, то есть придумывает то, чего в реальности нет, но никогда с этим не сталкивался. Были какие-то неточности, но я их списывал на неактуальность базы данных или не замечал.
Или как-то попросил его исправить грамматические ошибки, он их исправил, только зачем-то еще и текст в 2 раза сократил.
На днях дочке задали выучить слова. Текст был написан от руки, и ей было трудно читать. Я подумал, что надо бы сделать печатные быквы и распечатать, переписывать не хотелось, решил использовать ChatGPT.
«Строка бога» и «лакмусовая бумажка» для ИИ-генераторов изображений
Здравствуйте, уважаемые читатели!
В этой статье я хотел бы привести простой пример методологии, которую использую лично я для оценки возможностей нейросетей-художников, а также для работы с ними.
Кроме того, хотелось бы ввести в обиход промт-инженеров два новых термина.
Ближайшие события
Теоретическая и реальная производительность Intel AMX
AMX (Advanced Matrix Extension) - это модуль аппаратного ускорения умножения матриц, который появился в серверных процессорах Intel Xeon Scalable, начиная с 4 поколения (архитектура Sapphire Rapids).
В начале этого года ко мне в руки наконец попал сервер, с данным типом процессора.
Конкретно модель Xeon(R) Gold 5412U - это 24 ядерный процессор с тактовой частотой в 2.1 GHz. При этом 8 приоритетных ядер могут разгонятся до 2.3 GHz, а 1 ядро до 3.9 GHz в Turbo Boost). Кроме того данный процессор поддерживает 8 канальную DDR-5 4400 MT/s.
Мне как человеку, достаточно долгое время посвятившему оптимизации алгоритмов компьютерного зрения и запуска нейронный сетей на CPU (библиотеки Simd и Synet), было интересно: на сколько AMX позволяет реально ускорить вычисления и как извлечь из него максимальную производительность.
Далее я постараюсь максимально подробно ответить на данные вопросы. Прежде все я буду касаться вопросов однопоточной производительности (многопоточную рассмотрю позже).
OmniFusion 1.1: мультимодальность теперь и на русском
В прошлом году на конференции AIJ 2023 мы представили первую версию OmniFusion — мультимодальной языковой модели (LLM), способной поддерживать визуальный диалог и отвечать на вопросы по картинкам. Спустя несколько месяцев мы готовы представить обновление — OmniFusion 1.1 — SoTA на ряде бенчмарков (среди моделей схожего размера) и, более того, модель хорошо справляется со сложными задачами и понимает русский язык! Самое главное — всё выкладываем в открытый доступ: веса и даже код обучения.
Ниже расскажем об особенностях модели, процессе обучения и примерах использования. В первую очередь остановимся на архитектуре, а потом отдельно расскажем о проделанных экспериментах как в части архитектурных трюков, так и о работе с данными. Ну а несколько интересных кейсов на англ и русском языках можно посмотреть на палитре ниже.
Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям
В Yandex Cloud с сегодняшнего дня открыт доступ к тестированию API YandexART — нейросети для генерации изображений и анимаций, которая лежит в основе приложения Шедеврум. Протестировать API можно в сервисе Foundation Models, в котором доступно несколько моделей машинного обучения, включая YandexGPT для генерации текстов и эмбеддинги для задач семантического поиска.
Google пытается оптимизировать формат JPEG, увеличив компрессию на 35%. Что это за технология?
Формат изображений JPEG появился ещё в конце прошлого века, причём актуальность он не теряет, а, наоборот, набирает. Казалось бы, что можно изменить в технологии, которой столько лет? В Google посчитали, что сейчас самое время для оптимизации формата, а именно повышения эффективности компрессии. Что предложили в Google и как работает новая технология?
Топ-11 МФУ из разных сегментов — на любой вкус и кошелек
Многофункциональные устройства включают в себя 3, а иногда даже 4 аппарата сразу, и иногда такая универсальность может показаться излишней. Но часто их приобретение в таком комплекте является единственно верным выбором — из-за требований к месту размещения или особенностей работы. Сегодня мы рассмотрим наиболее популярные МФУ, которые продолжают поставляться в Россию и доступны (по крайней мере в нашем интернет-магазине).
Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту
Прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky. В честь этой даты мы выпускаем новую версию модели Kandinsky 3.1, о которой я расскажу подробнее в этой статье.
Рисуем с нейросетями: Есть ли у ИИ-художника свой стиль?
Привет, Хабр! Я – Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я ставлю эксперименты над ИИ, пока у них нет возможности “дать сдачи” человеку. Если серьёзно, то проверим гипотезу, может ли нейросеть, генерирующая изображения, иметь собственный “авторский стиль”.
Вклад авторов
alizar 5415.6marks 2439.9ZlodeiBaal 2343.0Fil 1355.0YUVladimir 1324.0SmartEngines 1089.6Weilard 970.0jeston 744.0homm 674.2