Как стать автором
Обновить

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Время на прочтение6 мин
Количество просмотров21K
Всего голосов 11: ↑11 и ↓0+11
Комментарии25

Комментарии 25

у меня есть рукописи родственника, пытался сам печатать, получается по странице в неделю, пока отложил в долгий ящик. отсюда вопрос - о чем именно представленном на вашем сайте вы говорите и есть ли модели оплаты чтобы я за 100 страниц не снимал последние штаны и не продавал почку?

К сожалению, пока технология работает только внутри нашего продукта ContentCapture, который предназначен для потоковой обработки документов в масштабах организации. Распознавать произвольные рукописные тексты наша нейросеть умеет, но пока в массовые продукты такая фича не вошла.

если что я не умею ставить минусы, спасибо за ответ.

Могу посоветовать самостоятельно переобучить ru модель для Tesseract. Там тоже LSTM нейросеть в новых (4+) версиях и она неплохо справляется с рукописным текстом. По моему опыту, около трёх размеченных страниц текста (если мы говорим об А4) в совокупности с аугментацией полученных данных будет достаточно для приемлемых результатов.

Можно к "тотальному диктанту" сделать сторонний проект - сканируем все диктанты участников. Образцовый текст диктанта есть!
(можно очень вскользь просмотреть глазами, или даже не просматривать, а сразу обучать модель. Можно в анкету участника вставить текст согласия на обработку диктанта машинными методами).

А ещё (на тему примеров) вспоминаю одноклассницу Лену Мишину. (как была фамилия подписана в тетрадках представляете, да?)

Решили поэкспериментировать с именем вашей одноклассницы. Вот что вышло:

Лена хорошо училась! Писала, как в классической прописи. Поэтому самый похожий - первый вариант, только у него Л и М не "по прописи". По факту она выписывала букву М, потом семь абсолютно одинаковых крючков, и в конце "на".

А метрики 18-19 веков тоже может прочесть? :)

Такие документы обычно заполняли хорошим почерком. Приноровиться надо.

Увы, нет. Такие документы часто заполняют таким почерком, что непонятно ничего.
Вот, например, метрика 1769 года. Написана скорописью. И тут ещё можно даже прочесть. А бывает, что можно только догадаться, что написано. :)



А вот, например, из ревизской сказки 1762 года.



Тут написано:


А именно


Во дворе я Леон Петров сын Трунов.
У меня жена Ульяна Антонова дочь тридцати лет. Взята Полатовского уезда села Фощеватого у однодворца Никонова (?).
У меня дети рождённые после ревизии:
Семион.
Мирон.
Никита.
Сестра родная девка Марфа четырнадцати лет.
В бывшую ревизию написан в тайном (?) отделе (?) села здесь (?) Иваном Труновым.
И вот фиг разберёшь, правильно я прочёл слова с "?" или нет.

Шрифт несовременный, грамматика с ошибками (или тоже несовременная). Заучить начертание букв - и дело пойдёт.

Ах, если бы… Каждый писец писал по-своему.
Вот примеры написания:



А ещё, часть букв пропускается часто. Или вообще над словами написана, как в ревизской сказке выше.

Каждый писец писал по-своему.

Можно сказать только одно: это писец!

Чуть ли не половина букв имеют греческие начертания, интересно.

Я когда-то писал в конспектах "д" как "Δ" для быстрой записи, оказывается, всё придумано раньше)

Мы не ставили перед собой такой цели, поэтому можем предположить, что сейчас с такими текстами работать будет плохо, хотя бы потому что это специфические документы, и сеть их никогда не видела. При этом техническая возможность доучить сеть конечно есть.
Напишите нам в личку, если перед вами стоит такая задача, обсудим вопрос более предметно :)

Товарищи из КонтентИИ/Абби — вы в FineReader/FinePDF до ума не довели распознавание/исправление/сохранение (возможности пакетного исправления типичных ошибок распознавания незнакомых слов нет, последняя версия из-за структуры пакета на куче ядер и SSD в режиме постраничного исправления/перераспознавания/правки работает медленнее старой версии на XP с HDD, версии не поддерживают импорт пакетов старых версий с исправленными вручную результатами распознавания (это примерно как если бы ворды 2007-2021 не поддерживали doc), планов развития продуктов нет, продукты бросаются, а потом пользователи посылаются в пешее эротическое, из-за того, что версии больше 3 лет уже, бумажные анонсы которые не доходят до выпуска и т.д. и т.п.
Предлагаете верить вашим сказкам (красивым демкам) тут, учитывая всё то разнообразие человеческих почерков, которые встречаются? Смешно и наивно... Даже в рамках одной организации при смене ручных составителей документации, где это практикуется, будут возникать большие проблемы.....
И я так понимаю, что ограничена эта вещь пока чисто определённым набором стандартных документов, написанных узким кругом людей, более/менее правильным рукописным почерком.... Поле с пропиской в паспортах - это образец по сравнению со старыми метрическими записями, да и с учётом наличия географической информации о населённых пунктах, можно сказать вообще не является проблемой.....
Еще одной проблемой станет практическая трудность коммерциализации, т.к. сегодня с рукописными документами сталкиваются единицы, и часто это попытки углубиться в генеалогию....

ContentReader — одно из лучших решений для редактирования PDF и OCR на рынке, как по набору возможностей, так и по качеству их реализации. Конечно, всегда есть к чему стремиться, и ошибки по ходу разработки в том числе и мы, конечно, совершали.

Что касается рукописного текста: замеры качества распознавания, на которые мы полагаемся, проведены на выборке из разнообразных рукописных документов, которые написаны разными людьми, разным почерком. Решение ContentCapture, в которое встроено распознавание рукописного, служит для автоматизации ввода данных из потока документов, и результаты, про которые мы говорим, это то, что можно ожидать на таком потоке.

ContentReader — одно из лучших решений? Да вы смеетесь. Хотя наверное нет... Вспоминая анонсы Finereader, Lingvo - там в каждой версии всё становилось лучше на десятки процентов, правда, что лучше, где лучше так никто и не понял...

Скажите, сколько лет вы занимались приведением в нормальный вид различных PDF? Какого типа, на каких языках, с какими проблемами и целями?
В этом деле нет лучших программ. Есть программы, в которых какая-то полезная функция реализована лучше...
Если бы лучшая программа была - все другие бы уже умерли....
Я недавно направил вам пример - попробуйте привести в нормальный вид True PDF Медицинский словарь Dorlands, 32 изд.
(добиться правильного распознавания буллетов, делящих слова на слоги и делающие невозможным поиск, апострофов в транскрипциях и примерах, которые почему-то в любом режиме (извлечения текста или распознавания картинки, распознаются верхнеиндексными нулями),
разобраться, почему между текстом разного формата и цвета часть абзацев непонятно с чего заменяется на разрывы строки и т.д. и т.п., места не хватит перечислять)
Ваши разработчики откроют для себя много нового о том, что раньше им казалось лучшим....

Я так понимаю поиск/замена по кругу, а не отдельно вперёд/назад, поддержка регвыров/оформления текста и пакетной замены несловарных слов/типичных ошибок настолько трудны для реализации, что за 30 лет «развития» программы так и не были реализованы?
Сохранение блоков при обработке картинок в редакторе вы соизволили сделать частично (только для простейших операций редактирования изображений) ТОЛЬКО В 16 версии, после указания на это с выхода 9!!!! версии.
(Если раньше она вам была не нужна, после того как начиная с 9 версии ластик уехал в редактор изображений (««««грамотнейшее»»»» решение) - ВЫ ПРОСТО СОВСЕМ НЕ ПОЛЬЗУЕТЕСЬ ПРОГРАММОЙ ДЛЯ РЕАЛЬНОЙ РАБОТЫ, А ВАШИ ТЕСТ ПАТТЕРНЫ ДАВНО И БЕЗНАДЁЖНО УСТАРЕЛИ).
И мне даже интересно, как, не имея опыта в использовании своей программы, не используя её постоянно для решения РАЗНООБРАЗНЫХ задач: а) вы можете правильно её оценить б) вы можете её улучшать?

Касательно качества реализации - сравните свои опции подготовки/обработки/сохранения сканов/pdf своих поделок, типа встроенного граф. редактора FinePDF с возможностями SkanKromsator.
Я как-то знатно удивился недавно, решив добавить текст в 40 МБ PDF, сделанный в кромсаторе.... FR15 стал моим чемпионом - 600 МБ - вот это КАЧЕСТВО РЕАЛИЗАЦИИ. Уважаю.
В данном случае вы, видимо, как и Филиппов в Карнавальной ночи про звёздочки коньяка, считаете, что больше - это лучше. Разочарую вас - это не так.

Касательно русских PDF с кривым маппингом - тоже не вижу у вас адекватного решения, когда нужно на 100% сохранить оригинальный текст со вставками греческого, латиницы, Symbols, а не разрушить это всё распознаванием.
Вроде компания то ли русская, то ли с русскими корнями - а проблема так и не решена, хотя по релизам одни сплошные улучшения.....

Несовместимость версий вниз даже по РУЧНОЙ РАБОТЕ - наложению блоков - это вообще как?
Удивляюсь, что никто из корпоративных заказчиков с зоопарком версий FR до сих пор не настучал вам по голове.

Что касается рукописного текста:

Какие типы документов в вашем обучающем датасете? (Школьные тетради, паспорта, ТЕХНИЧЕСКИЕ конспекты со вставками латиницы и греческого, личные/судебные дела, врачебные выписки с латинскими вставками)
Сколько конкретно видов почерка/человек? (10-20-10000)
На каких языках?

С Леной Мишиной результат приятно удивляет, хотя Леня и Мишина - это ваш хвалёный ИИ сочетает мужское имя и женскую фамилию?
Касательно генеалогической информации - Огромнейший пласт этой информации по западным районам Российской империи был оцифрован, частично распознан или перенабран вручную американскими мормонами и выложен на сайте https://www.familysearch.org
А сколько еще неоцифрованного в наших архивах - трудно представить.

Кроме того, мир не был готов к распознаванию рукописного текста и технически: обучение современных сетей требовало таких вычислительных мощностей и объемов памяти, о которых еще 10 лет назад можно было только мечтать.

Да ладно, 10 лет назад распознавание рукописного текста на конвертах для чтения адресов во всю дурь использовалось на американской почте.

распознавание рукописного текста на конвертах для чтения адресов во всю дурь использовалось на американской почте.

Не афроамериканцы тогда недорого ценились.

в 1999-2001 году примерно был в Минске в командировке, общался с одним программистом, с которым мы в основном говорили про Wavelet, но он показывал еще свои наработки по распознаванию рукописного ввода, который например сейчас в смартфонах есть и весьма неплохой. А позже, году в 2007 я на КПК Acer N50 ставил софтину, что-то типа записной книжки, русского ввода она не умела, но вот на английский весьма бодро реагировала и распознавала влёт. Какие там у XScale мощности были? Ну и 2007 это уже эпоха AMD x64 и оптеронов, у нас в банке блейды стояли по 4 ляма баксов. Так что техника в 2013 была куда более производительнее, не знаю откуда авторы 10 лет взяли как отметку, там уже правил балом Ivy Bridge, который и сегодня живее всех живых.

В конце 90-х или начале 2000-х познакомился с программистом. Он рассказал, что разрабатывал какое-то OCR ПО, у него его украла одна очень известная компания и выпустила как своё творение. Программист очень обиделся и прекратил взаимодействовать с кем бы то ни было, и что называют «писал в стол».

И он мне показал своё новое творение.

Ноутбук с планшетным экраном и пером, ориентировочно 486-й или из первых пентиумов. На нем word и поверх ворда запускалась его распознавалка рукописного текста. Появлялось поле и туда пером пишешь прямо русский слитный текст, и прога тут же ниже распознает и в документ word слова отправляет.

Понятно, что это было не слишком удобно с точки зрения ui/ux, но работало почти идеально. Гораздо лучше, чем всё, что я тогда видел и в ближайшее десятилетие встречал. Всякие win-наладонники и palm-ы даже близко не были к его поделке.

Поделиться дядечка отказал наотрез. Сказал - пусть это останется его личной собственной фичей. Его, типа, будет греть мысль о том, как много потеряла очень известная ныне компания, кинув его и украв его разработки.

А 30 лет назад, когда только пошли первые ПК, появились первые OCR для печатного текста :)
Здесь главный вопрос в качестве (эта оговорка есть дальше по тексту), которое даже для печатного текста до сих пор улучшается.
А про американскую почту есть любопытная статья, где в том числе рассказывается про качество распознавания: https://habr.com/ru/companies/timeweb/articles/709240/

есть ли демоверсии? откуда я знаю подойдет она или нет для распознавания путевых листов... лучше б вебсервис сделали с постраничной оплатой. 100р закинул, 100 листов распознал,

лучше б вебсервис сделали с постраничной оплатой. 100р закинул

Товарищ майор, ну зачем же так явно...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий