Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Гонкуровская премия 2 часа
nehug@cheaphub.net RE:DNS 23 часа нэнси RE:Подайте бедному копеечку на книжку с литреса... 23 часа Dead_Space RE:Беженцы с Флибусты 2 дня Саша из Киева RE:Приключения белочки Рыжки 2 недели alex-from RE:Оплатил два раза, но абонемента нет 2 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 недели Kiesza RE:На 78-м году жизни скончался советский и российский... 2 недели Paul von Sokolovski RE:Бушков умер. 4 недели lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 4 недели mig2009 RE:Багрепорт - 2 1 месяц Isais RE:Издательство "Медуза" 1 месяц babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 1 месяц Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 месяц sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц Isais RE:Игорь Северянин - Том 2. Поэзоантракт 1 месяц sem14 RE:Современная корейская литература. Книжная серия... 1 месяц sem14 RE:Семейственность в литературе 1 неделя Впечатления о книгах
Perca про Распопов: Фараон [СИ] (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
21 11 Аннотация коротко: приключения российского дикаря в цивилизованном Древнем Египте. Если подробнее: сын олигарха, на спор с папой выучивший историю античного Египта (и больше ничего), попадает в этот самый Египет в эпоху ………
su24i про Поселягин: Кровь Архов. Книга первая [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
20 11 Лютая поселягинщина. Сдался после 80-й страницы. Оценка: нечитаемо
Лысенко Владимир Андреевич про Москаленко: Юный бастард. Книга 5 [СИ] (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
20 11 Очень хорошая книга. Жду продолжения. Оценка: отлично!
Дей про Останин: Жнец [СИ] (Детективная фантастика, Юмористическая фантастика, Городское фэнтези, Самиздат, сетевая литература)
19 11 Очень неплохо. Жаль, что автор не настроен на продолжение. Оценка: отлично!
Олег Макаров. про Земляной: Волшебник [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
18 11 Полная непонимание автором проблем и причин развала советского союза. Глубочайшая экономическая безграмотность Возможно дальше будет интересно но я бросил в самом начале Оценка: нечитаемо
Анни-Мари про Петросян: Дом, в котором... (Современная проза, Магический реализм)
18 11 Книга странная. Необычная и ни на что не похожая. Собственно, хоть какие-то параллели я лично смогла провести только с книгой "Мастер и Маргарита". И вовсе не потому, что они похожи. Просто в обеих книгах присутствует то, ………
Лысенко Владимир Андреевич про Богдашов: Реинкарнация архимага 3 (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
18 11 Прочитал все книги серии, написано неплохо. Оценка: хорошо
Nicout про Резанова: Чудо и чудовище (Историческое фэнтези)
18 11 дурацкий знак качества" Давно, во времена совка, прошел международный конгресс детективов. Утром выясняется, что около кровати председателя конгресса кто-то насрал. Начинают допрашивать делегации. Французы говорят - это ………
alexk про Резанова: Чудо и чудовище (Историческое фэнтези)
18 11 дурацкий знак качества и мания величия isais, ничего не поправить, ничего не дополнить
mazay про Arladaar
18 11 Жеке сегодня, как минимум, под 70. Так что Аня могла бы быть Жекиной внучкой. Тем более, что писал, всё-таки, мужчина. Или диктовал!
Олег Макаров. про Максимушкин: Бомбардировщики (Альтернативная история)
17 11 строители коммунизма и последователи национал-социализма решили объединиться" ... вот это аттракицон срывания всех и всяческих масок Удивительно, что автор не привлечён до сих пор ни по какой статье |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.