Как стать автором
Обновить

Комментарии 9

Засунули бы в каждую версию одну и ту же среднейпоганости картинку -- показать наглядно рост на реальных данных, а не на демо-картинках из комплекта :)

Если текст с такой картинки хоть как то распознается первой версией - более поздним будет совсем легко, и дальнейшего улучшения качества не будет.

Наверное несложно найти кейс, который вообще не распознается ранними версиями, но в этом тоже смысла мало.

Я пользовался ФР (не помню версий, впрочем, давно было дело). И чистка и вычитка текста после него требовалась хорошая такая. Формат и структуру тоже, но вот тут разница между версиями была огромной.

Наверное несложно найти кейс, который вообще не распознается ранними версиями, но в этом тоже смысла мало.

Тут надо еще весь процесс снимать на видео. Ранние, например, умели только отсканировать картинку и сразу же ее распознать. Потом сделали так, что можно было отсканировать всю книгу, запустить распознавание и пойти спать. Еще в ранних надо было руками выделять отдельные части и ставить их тип — сплошной текст, картинка, таблица. В таблицах надо было строки и столбцы выделять. Если текст многоколоночный — каждую колонку тоже надо было отметить.

Первый раз столкнулся с файнридером версии 4 в 2003, а спустя небольшое время уже довелось поработать с 7. Небо и земля просто. Огромную работу проделали создатели.

С одной стороны, уже 6 версия делает всё необходимое.

Недостаточно хорошо. После 6 таблицы были улучшены радикально, примерно настолько же как распознавание после четвёртой (если не сильнее)

Вопрос для будущей статьи: а кто делал дизайн заставок?

А куда делись упоминания технологии MedText? Идея была классная

Зарегистрируйтесь на Хабре, чтобы оставить комментарий