Вы здесьКак правильно отсканировать?
Опубликовано сб, 14/03/2009 - 12:36 пользователем thirteen
Есть сканер, есть Файнридер, есть книга, которую хочу выложить, точно знаю, что в сети её нет. Посоветуйте правильные настройки при сканировании (разрешение, цвет...) и в каком формате лучше сохранять? Я пытался в ПДФ, но он даже при скромных размерах книги получается почти 60 мег. Что я делаю не так?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 1 час
larin RE:Оплатил, но абонемент не отображается 2 дня sem14 RE:Книжная серия «Сlio» издательства "Евразия" 4 дня Isais RE:Национальный конкурс на лучшее литературное произведение... 4 дня Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 5 дней sem14 RE:Современная корейская литература. Книжная серия... 5 дней sem14 RE:«Морской роман» — книжная серия Калининградского книжного... 5 дней larin RE:Оплатил,но абонемент не отображается 6 дней larin RE:Оплатил, но абонемент не отображается 1 неделя sd RE:Fishing 1 неделя Алексей111111111111 RE:Оплатила,но абонемент не отображается 1 неделя sd RE:Доступ 27 1 неделя kopak RE:Беженцы с Флибусты 2 недели Isais RE:Вадим Иванович Туманов - Всё потерять - и вновь начать с... 2 недели Isais RE:Семейственность в литературе 2 недели Isais RE:Древний Рим. Подборка книг 2 недели Саша из Киева RE:"Экс" и "нео": разноликие правые 2 недели medved RE:Предупреждение: "зеркала" флибусты 1 месяц Впечатления о книгах
Perca про Шаргородский: Защитник феи [СИ] (Городское фэнтези, Самиздат, сетевая литература)
01 08 Даже не верится, что Шаргородский закончил хоть одну серию! Щось у лісі здохло... Оценка: хорошо
дядя_Андрей про Крусанов: Совиная тропа [litres] (Историческая проза, Современная проза)
31 07 А, что, разве десятые тоже были "ревущие", как девяностые?
Лысенко Владимир Андреевич про Стопичев: СВО. Босиком по стеклу (Современная проза, Публицистика, О войне)
31 07 Как и во все времена русским весь мир мешает, были бы в мире одни русские все было хорошо, а то весь мир против русских. Оценка: нечитаемо
miri.ness_ про Катаев: Трава забвенья (Биографии и Мемуары)
30 07 Да, "Трава забвения" - отличная книга, как и "Алмазный мой венец", обложка от которого есть, а книги в этой раздаче нет. Как-то непонятно, какую третью повесть кто-то имел в виду: "Святой колодец" или "Уже написан Вертер"? ……… Оценка: отлично!
Олег Макаров. про Илья Городчиков
30 07 Удивительное отсутствие у автора умения согласовывать предложения. Невозможно читать
epoost про Спрингер: Энола Холмс и маркиз в мышеловке [The Case Of The Missing Marquess] (Детская проза)
30 07 Данная книга представлена в формате фото и нуждается в OCR и конвертации в формат FB2.
Никос Костакис про Петр Алмазный
29 07 Nicout, не будем спорить, был ли доступен автору приведенный вами список "гранита науки". Вполне достаточно того, что тост шашлычника из "Кавказской пленницы" ("Так випьем за кибэрнэтикэ!") был услышан каждым обывателем ………
alexk про Гурба: Мифы Китая [litres] (Мифы. Легенды. Эпос)
29 07 Хрень. Не читать. К тому же вместо половины иллюстраций - QR-коды.
Oleg68 про Кобен: Главный подозреваемый [The Final Detail ru] (Крутой детектив, Детективы: прочее)
28 07 Как всегда у автора, очень интересно и непредсказуемо. Оценка: отлично!
Лысенко Владимир Андреевич про Земляной: Мастер духов 1 (Альтернативная история, Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
28 07 Хорошее произведение, читается легко. Оценка: отлично!
lemma7 про Гурский: 500 спойлеров. Мировое приключенческое кино в буквах (Справочники)
28 07 Спасибо большое за то, что книга наконец появилась в сети! Оценка: отлично!
Barbud про Панфилов: Старые недобрые времена 2 (Альтернативная история, Приключения: прочее, Попаданцы, Самиздат, сетевая литература)
28 07 После многих бед и лишений ГГ наконец-то добыл себе свободу и не столь уж малую денежку, которой при разумном применении хватило бы на безбедную жизнь рантье. Но свобода и деньги сыграли с ним злую шутку - он-то в обеих своих ……… Оценка: неплохо |
Комментарии
Отв: Как правильно отсканировать?
Тут кт-то писал про сканирование фотоаппаротом.
Вот несколько мыслей из моего опыта.
Требования к фотоаппарату
Сразу и бесповоротно – мыльницы не подойдут.
За редким исключением. Например такие как некоторые модели Canon
В фотоаппарате должны быть.
1. Минимум – 6 Мпиксел, Оптимально – 8 Мпиксел Идеал – 12 и более Мпиксел.
2. Обязательным условием является наличие оптического (не электронного!) стабилизатора ихображения
3. Желательно наличие дистанционного пульта управления.
4 Из обязательных условий – наличие ручной настройки и фокусировки. Автоматика исключается...
Для сканирования фотоаппаратом нужно собрать установку. Основой лучше всего является штативная стойка фотоувеличителя.
Но главное внимание нужно уделить освещению. Вспышка – исключена. Сканируемый текст должен быть освещён с обеих сторон ярким рассеянным светом.
Преимущества фотоаппарата огромны.
Во-первых, можно сканировать разворот, превышающий стандартный для многих сканеров формат A4.
Во – вторых появляется возможность уже в процессе сканирования убрать лишний мусор. То есть перекрывать кусками белой бумаги нумерацию страниц, колонтитулы и прочее...
Есть ещё много мелких преимуществ, но это главные.
Отв: Как правильно отсканировать?
Все, вроде, так и есть, как написано. У меня как раз есть опыт работы "мыльницей", подтверждаю, что результаты не очень :(. И, следовательно, нужно оставить даже мысль о том (как думают некоторые), что сканировать фотоаппаратом - дешевле, легче и т.п. Один хороший штатив чего стоит, освещение, и прочее. Для рабочего места не полметра на столе, а куда больше требуется. Сложности большие, по сравнению со сканером в $50 (не идеал, конечно, но позволяет получить результат куда качественнее, чем обычная камера в $100). Преимущества совсем в другом!
Отв: Как правильно отсканировать?
Согласно данным требованиям, яндекс-маркет выдает следующее:
http://market.yandex.ru/guru.xml?CMD=-RR=9,0,0,0-PF=4390456%2BGT%2Bsel%2B8-PF=15504541%2BTR%2Bsel%2Bselect-VIS=1F2-CAT_ID=100514-EXF=1-EXC=1-PG=10&hid=91148&filter=&num=&greed_mode=false
Ценник от 16 тыс. рублей за Sony Alpha DSLR-A100 Kit и выше.
Добавим к стоимости еще пару тысяч рублей минимум на установку со светом.
И вычеркнем из жизни пару-тройку квадратных метров площади квартиры. (У меня собрана такая штука, так что я в курсе, о чем говорю).
Согласен. Помимо скорости съемки - пока это единственное преимущество, которое я вижу.
На сканере это еще проще и быстрее )) Но не на всех книгах это реально сделать из-за бездарной верстки.
Но для книг давно есть книжные сканеры типа Plustek OpticBook 3600
http://market.yandex.ru/model.xml?hid=91112&modelid=858007
http://www.document-scan.ru/descr99.htm
Ценник - те же 15-16 тыщ, скорость скана высокая - только успевай листать, спец софт, спец конструкция сканера, высочайшее качество сканов, места занимает гораздо меньше фото-установки, в эксплуатации дешевле.
Отв: Как правильно отсканировать?
Распозновать надо, без сохранения структуры документа. То есть без колонок, картинок и всяких прочих ненужностей. Но всё равно, при передаче в Word, страницы не стыкуются. Странно, что Finerider не обрабатывает страницы как целое. Они сохраняются, каждая в отдельном разделе.
Чтобы соединить текст в одно целое, вроде бы достаточно убрать все разрывы раздела. Да не тут то было... В случае качественного оригинала три ситуации:
1. При стыковке должен получится новый абзац
2. При стыковке должна склеится строка
3. При стыковке должна склеится строка с удалением знака переноса, если слово в тексте переносится на следующую страницу.
При некачественном оригинале, нужно провести предварительную обработку, заключающуюся в удалении всех пробелов до знака конца абзаца. В принципе, это не помешает в любом случае.
Алгоритм склейки такой...
1. Ищется разрыв раздела
2. Анализируется стык на один из трёх вышеупомянутых случаев
3. Производится стыковка
4. Переход к другому разрыву.
В простейшем случае это реализуется четырьмя макросами.
Их вызов осуществляется кнопками выведенными на панель инструментов.
Первый макрос просто ищет первый разрыв раздела.
Анализ проводит человек и выбирает один из трёх других макросов, в зависимости от ситуации.
В принципе это можно автоматизировать, написав простейший анализатор, но в любом случае – автоматика может дать сбои. И поэтому лучше, если место стыка окрасить каким-нибудь цветом, для последующего контроля.
Вот 4 макроса, для полуавтоматической обработки.
Sub Разрыв_раздела_Поиск()
'
' Разрыв_раздела_Поиск Макрос
' Макрос записан 03.03.2009 Kitten
'
Selection.Find.ClearFormatting
With Selection.Find
.Text = "^p^b"
.Replacement.Text = ""
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Selection.Find.Execute
End Sub
Sub Новая_строка()
'
' Новая_строка Макрос
' Макрос записан 03.03.2009 Kitten
'
Selection.Delete Unit:=wdCharacter, Count:=1
Selection.TypeParagraph
Selection.Find.ClearFormatting
With Selection.Find
.Text = "^p^b"
.Replacement.Text = ""
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Selection.Find.Execute
End Sub
Sub Соединение_строк()
'
' Соединение_строк Макрос
' Макрос записан 03.03.2009 Kitten
'
Selection.Delete Unit:=wdCharacter, Count:=1
Selection.TypeText Text:=" "
Selection.Find.ClearFormatting
With Selection.Find
.Text = "^p^b"
.Replacement.Text = ""
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Selection.Find.Execute
End Sub
Sub Удаление_переноса()
'
' Удаление_переноса Макрос
' Макрос записан 03.03.2009 Kitten
'
Selection.Delete Unit:=wdCharacter, Count:=1
Selection.TypeBackspace
Selection.Find.ClearFormatting
With Selection.Find
.Text = "^p^b"
.Replacement.Text = ""
.Forward = True
.Wrap = wdFindContinue
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchWildcards = False
.MatchSoundsLike = False
.MatchAllWordForms = False
End With
Selection.Find.Execute
End Sub
Но это не всё... есть ведь ещё и колонки....
Отв: Как правильно отсканировать?
Я тут начал для затравки про макросы писать.
Пробовал кто-нибудь?
Продолжать дальше или нет?
Отв: Как правильно отсканировать?
А Вы не хотите написать все, чем можете поделиться и, выложив на Либрусеке, дать ссылку? Смотреть лучше все в комплекте, а не выискивать по кусочкам. Пригодится это обязательно - на самом деле довольно много людей, даже зная как, не умеют это объяснить другим. Туда же и макросы напишите. Это очень, leoparrd, полезное дело Вы придумали.
Отв: Как правильно отсканировать?
Не устану повторять:
НЕ НАДО djvu!!!!!
Djvu - могила для текста.
Делайте PDF. Кого анноит размер - делайте правильно.
И ещё - не надо фотоаппаратов... Тем более - "простеньких". Сделать приемлемый скан фотоаппаратом - достаточно нетривиальная задача. И решить её - не проще, чем добыть нормальный сканер.
А 200 страниц - на любом сканере несложно.
Отв: Как правильно отсканировать?
Обоснуй ))
Распознавал с правильно сделанных дежавю неоднократно - иногда качество распознанного лучше, чем я сам сканером получаю.
Криво сделанный pdf не лучше криво сделанного дежавю. Плюс размер нехилый.
Отв: Как правильно отсканировать?
Скажите пожалуйста, а почему могила-то? Мне приходилось окрить с ДежаВю с прекрасными результатами распознавания, почти без ошибок. Или Вы о чем-то другом пишете?
Отв: Как правильно отсканировать?
Аналогично.
Страницы