ContentAI_Team 11 сен 2023 в 13:26

История FineReader: так создавалась легенда (часть I)

9 мин

5.2K

Блог компании Content AIPDFСофт

Ретроспектива

+12

Комментарии 9

datacompboy 11 сен 2023 в 13:53

Засунули бы в каждую версию одну и ту же среднейпоганости картинку -- показать наглядно рост на реальных данных, а не на демо-картинках из комплекта :)

mikelavr 11 сен 2023 в 14:17

Если текст с такой картинки хоть как то распознается первой версией - более поздним будет совсем легко, и дальнейшего улучшения качества не будет.

Наверное несложно найти кейс, который вообще не распознается ранними версиями, но в этом тоже смысла мало.

datacompboy 11 сен 2023 в 14:43

Я пользовался ФР (не помню версий, впрочем, давно было дело). И чистка и вычитка текста после него требовалась хорошая такая. Формат и структуру тоже, но вот тут разница между версиями была огромной.

salnicoff 11 сен 2023 в 21:11

Наверное несложно найти кейс, который вообще не распознается ранними версиями, но в этом тоже смысла мало.

Тут надо еще весь процесс снимать на видео. Ранние, например, умели только отсканировать картинку и сразу же ее распознать. Потом сделали так, что можно было отсканировать всю книгу, запустить распознавание и пойти спать. Еще в ранних надо было руками выделять отдельные части и ставить их тип — сплошной текст, картинка, таблица. В таблицах надо было строки и столбцы выделять. Если текст многоколоночный — каждую колонку тоже надо было отметить.

gruzoveek 11 сен 2023 в 14:52

Первый раз столкнулся с файнридером версии 4 в 2003, а спустя небольшое время уже довелось поработать с 7. Небо и земля просто. Огромную работу проделали создатели.