Вы здесьТекстовый pdf из сканов
Опубликовано чт, 09/12/2010 - 08:07 пользователем golma1
Forums: Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант. Я только не очень поняла, какие вопросы при этом возникают. ;)
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Larisa_F RE:Современная корейская литература. Книжная серия... 1 час
Larisa_F RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 час monochka RE:<НРЗБ> 1 день Океана RE:Подайте бедному копеечку на книжку с литреса... 1 день sem14 RE:Серия "Символы времени" издательства "Аграф" 4 дня sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 4 дня sem14 RE:«Юмористическая серия» 4 дня larin RE:Оплатил. Абонемент не отображается 1 неделя larin RE:Оплатил, но абонемент не отображается 1 неделя nehug@cheaphub.net RE:DNS 2 недели alexk RE:Багрепорт - 2 3 недели Isais RE:Семейственность в литературе 3 недели Violontan RE:Жан Батист Мольер воскрешенный 4 недели sem14 RE:Гонкуровская премия 1 месяц Dead_Space RE:Беженцы с Флибусты 1 месяц Саша из Киева RE:Приключения белочки Рыжки 1 месяц alex-from RE:Оплатил два раза, но абонемента нет 1 месяц Kiesza RE:На 78-м году жизни скончался советский и российский... 1 месяц Впечатления о книгах
tvv про Далин: Фарфор Ее Величества (Героическая фантастика, Фэнтези, Самиздат, сетевая литература)
23 12 Номера 4-6 в серии - это подсерия Костер и Саламандра.
Олег Макаров. про Тыналин: Инженер 1: паровая империя (Альтернативная история, Приключения: прочее, Попаданцы, Самиздат, сетевая литература)
22 12 Barbud спасибо, подтолкнули поинтересоваться. Вот что я нашёл: В 1856 году (в разгар Крымской войны и реформ Флоренс Найтингейл) медперсонал в больницах не носил белые халаты — это гораздо более поздняя традиция. ОДЕЖДА ………
Barbud про Тыналин: Инженер 1: паровая империя (Альтернативная история, Приключения: прочее, Попаданцы, Самиздат, сетевая литература)
22 12 1856 год... По госпиталю ходит медперсонал в белых халатах... ЧТО? Вспомнились строки пародиста Иванова, написанные по другому поводу, но вполне уместные: "Ты бы, дяденька, прежде чем что-то писать, Потрудился хотя бы об этом узнать". Оценка: нечитаемо
mysevra про Есаулкова: Удивительные истории о ведьмах [litres] (Ужасы, Современная проза)
22 12 По сути – очень интересно, но почему-то получилась лютая кустарщина. Одна надежда была на Бобылёву, но я утомилась ждать и не захотела дочитывать. Оценка: неплохо
mysevra про Государев: Треугольный человек (Психология)
22 12 «Научпоп» в лучшем смысле этого слова - мне как не специалисту было и понятно, и интересно. Оценка: отлично!
mysevra про Козлов: Философские сказки для обдумывающих житье, или Веселая книга о свободе и нравственности (Психология)
22 12 Пустая книга. Хорошо, когда человек высокого о себе мнения; плохо, когда за счёт умаления ценности других. Оценка: плохо
Barbud про Риддер: Парторг (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
21 12 Офицеры, офицеры, офицеры чуть не на каждой странице... Автор хотя бы поинтересовался, когда это слово узаконили в РККА. Оценка: нечитаемо
tvv про Гор: Шаровая молния 3 (Попаданцы, Самиздат, сетевая литература)
21 12 Вероятно, здесь претензия только к букве Ё.
trampak про Кот: Основа русского мира [litres] (Исторические приключения, Публицистика)
21 12 Русские сначала называют что-то русским, чтобы потом это сделать своим. Я.Гашек Оценка: нечитаемо
nambus про Гор: Шаровая молния 3 (Попаданцы, Самиздат, сетевая литература)
21 12 «Незалежная» — это разговорное, часто с оттенком иронии или пренебрежения, название для Украины, происходящее от украинского слова «незалежна», что означает «независимая». В более широком смысле, «незалежный» — это синоним ………
Олег Макаров. про Муха: Товарищ мэр (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
20 12 Сначала не понял, почему "Альтернативная история" а потом ка-ак понял: 2025 год, Россия в которой закон, справедливость и неподкупная журналистика побеждают алчность, беззаконие и коррупцию. А самизнаетечего и в помине нету. Оценка: хорошо
Никос Костакис про Гор: Шаровая молния 3 (Попаданцы, Самиздат, сетевая литература)
20 12 «напитались» реалиями Незалёжной первых лет XXI века. __________________ Незалёжной? Такого слова в украинском языке нет. В русском тоже. Тогда по-каковски это, а? |
Отв: Текстовый pdf из сканов
Не надо цитировать мультики, википедию, и растекаться мыслями. Мы и без википедии знаем, что TIFF - формат без потерь, а JPEG - с потерями. Еще с тех времен, когда вики не было. Речь не о теории, а о практике конкретной работы.
но по факту распознается не хуже
Отв: Текстовый pdf из сканов
Если знаешь, зачем тогда людей в заблуждение вводишь "голословными измышлениями"?
По какому факту?
У нас с Вами факты разные:
я Вам про Фому, Вы мне про Ерёмуя Вам факты привел, Вы сказали, что факты неправильные. Чем они неправильные? Они что, дают неправильный мёд? Или просто обзываете то, что неугодно Вам "неправильными" фактами.Я тоже по факту говорю: распознание с TIFF лучше, чем с JPEG,а Вы отвечаете: "Это всё теория, а на практике всё наоборот!"
Если бы я ничего не распознавал, я бы с Вами может и согласился, но мне тоже приходилось распознавать, и поэтому я знаю, что и практика говорит то же самое, что и теория.
Отв: Текстовый pdf из сканов
А вот не надо. Не надо замусоривать ветку по конкретному вопросу своими измышлениями.
Откройте новую и расскажите там всем о том, что JPEG 300dpi в оттенках серого ФР "не любит". В-)
Отв: Текстовый pdf из сканов
Да я бы, как грится, с радостью.
Но тогда в этой ветке останутся измышления niksi, на которые, как покажется, никто не дал отпор!
Так что приходится тут, что ж поделаешь...
Отв: Текстовый pdf из сканов
Читать умеешь? НЕ НАДО БЫЛО НАЧИНАТЬ. ТЕБЕ.
Еще раз. Джпеги 300 и тифы 300 распознаются примерно с одинаковым кол-вом ошибок. Одно не лучше другого. Хочешь оспорить - приводи примеры. Одних и тех же сканов, распознанных с тифоф и джпегов, с указанием кол-ва ошибок в одном и другом случае. В новой теме. Иначе говорить не о чем. Я с удовольствием признаю, что не прав, если это будет ДОКАЗАНО.
Отв: Текстовый pdf из сканов
Да, пожалуйста.
И я там обязательно напишу, что ВСЕ сканы, полученные мною от niksi и Ronja_Rovardotter, распознаются с минимальным количеством ошибок. В каком формате и с каким разрешением они сделаны, расскажут сами сканировщики. В-)
Отв: Текстовый pdf из сканов
Реплика убойная!
Я ж не знал, что на мою вполне невинную реплику будет столь громкий ор с
метанием какашекобзывааниями.Отв: Текстовый pdf из сканов
Давно я так не веселился. :-)
Отв: Текстовый pdf из сканов
(хихикает) Вот мне всегда кажется, что если я понимаю, то уже тогда точно и все понимают, а вот поди ж ты... Не бывает JPEG без потерь. Вот просто не бывает и все. Бывает сжатие с максимальным качеством. Ага, для JPEG-ов максимальным. )))
Отв: Текстовый pdf из сканов
Отв: Текстовый pdf из сканов
Видимо, необходимо все же отметить для тех, у кого еще не очень много опыта по оцифровке книг, что опытные и великолепные сканировщики, такие как niksi и Ronja_Rovardotter, и опытные и отличные OCR-щики, такие как Голма, обмениваются сканами именно в jpg, что значительно проще и быстрее. Такие сканы замечательно распознаются, и работать с их сканами - одно удовольствие.
Необходимо так же предупредить новичков об осторожности при принятии на веру утверждений и советов Zadd-а, т.к. в них энтузиазм и поспешность в суждениях, как правило, преобладает над знанием и умением. Полезно делать на это поправку, не отвергая, впрочем, и некоторой части его советов.
Отв: Текстовый pdf из сканов
Хм. Опробовал оба способа на 256-сером 300-dpi'йном скане, уже распознанном и (в меру возможностей ФР) вылизанном. У ФР получаются либо редкостно говённые картинки (даже акробат-ридер их через раз в упор не понимает), либо полноценные серые картинки, но сотни мег размера, зато с уже готовым текстом. У акробата - соответственно, ч/б картинки - ляля, размер на двух с чем-то сотнях страниц - меньше десятка метров, но текст никакой.
Ну и третий способ, который до сих пор юзаю, - выгрузить из файн-ридера однобитные ч/б картинки, их опять загрузить, распознать и сделать .pdf, - сочетает слабовыраженные недостатки предыдущих способов (картинка не особо хороша и текст так себе, размер в раза полтора побольше, чем после акробата).
А нельзя ли (ценой не чрезмерно больших трудозатрат) скрестить оба способа и получить файн-ридерный текст с акробатной картинкой?
Отв: Текстовый pdf из сканов
Сделать после распознавания в FR-е pdf по способу TaKir-а, но не для web, а с хорошим качеством, а потом ужать в Акробате готовый pdf?
Отв: Текстовый pdf из сканов
Отв: Текстовый pdf из сканов
Что-то Acrobat не хочет tiff-файлов...
Acrobat 9.0.0 а файлы цветные.
FineReader'ом из 75 страниц никак меньше 26 мегов pdf не получается.:(
Отв: Текстовый pdf из сканов
Таки получилось. Правда из другой книжки в сером цвете. 380 страниц - 15 Мегов. Очень хорошо.
Спасибо Голма!
Страницы