Вы здесьРаспределённые корректоры
Опубликовано ср, 26/11/2008 - 03:54 пользователем Jolly Roger
Нахально пользуясь популярностью Либрусека, позволю себе вбросить в массы одну интересную идею - subj. Итак: Имеет существовать уже довольно давно система "Распределенные корректоры" (подробно читать здесь: http://kapija.narod.ru/Translations/dp_russ.htm ) Суть желаемого российского варианта: любой желающий заводит аккаунт редактора, открывает некий проект и заливает на сервер сканы страниц. После чего кликает клич по друзьям и знакомым (или, к примеру, посетителям некоей библиотеки... :) ), кои заходят на страничку проекта и исполняют роль корректоров - каждому из них выдается маленький кусок скана и окно с распознанным текстом, каковой вычитывается с исправлением ошибок и сохраняется. Выглядит это где-то так: Скрипты настроены так, что каждый кусок выдается минимум двум корректорам - это дает некую гарантию качества вычитки. После окончания вычитки готовый распознанный и откорректированный текст предоставляется в распоряжение редактора и не выкладывается в публичный доступ - это позволяет с наглой мордой заявлять о нераспространении, типа "делал для себя - отлезьте, копирасты!" А где потом текст всплывёт - так это я не знаю... ;) Надобно отметить, что подобная система в рунете один раз уже была запущена - на сайте "Православная беседа", году где-то в 2003м ( http://kirrr.livejournal.com/12630.html ) , но сейчас проект закрыт ( http://pravbeseda.ru/ocrlab/ ), хотя книги, в нём распознанные и вычитаные, доступны (напр.: http://www.pravbeseda.ru/library/index.php?page=book&id=720 ). Проблема, как я помню, состояла в том, что "душой" того проекта был Братец ДыкЪ ( http://pravbeseda.ru/arc/old_agora/pravbeseda_common/1046713286.html ), занимавшийся им "по остаточному принципу", что было тяжело, и в критически малом числе добровольных корректоров в связи с нераскрученностью и православной спецификой проекта... З.Ы. Чего это я вдруг?... Это я в качестве конструктивного отклика вот на это...
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
kopak RE:О группе Дятлова. О той самой, того самого... 15 часов
ProstoTac RE:Таинственная личность админа Флибусты 1 день Aliki RE:Подайте бедному копеечку на книжку с литреса... 2 дня Isais RE:Кармен Мола - Пурпурная сеть [litres] 3 дня Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 дня Isais RE:Катя Водянова - Дом и два жениха в придачу 1 неделя Aleks_Sim RE:Прошу переформатировать, распознать, etc... 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 2 недели Саша из Киева RE:Детям о Ленине (Издание 1965 года) 3 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 3 недели babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Впечатления о книгах
Синявский про Поль-Лу Сулитцер
07 02 Скандальный французский писатель и сценарист Поль-Лу Сулицер скончался 6 февраля в возрасте 78 лет на острове Маврикий, информирует IMDb. Причиной смерти писателя стал инсульт.
Belomor.canal про Лубникова: От Рафаэля до Кавалера д’Арпино. Устройство римских живописных мастерских XVI века (История, Искусство и Дизайн, Искусствоведение)
07 02 Многие думают, что фрески Рафаэля — это всё он сам нарисовал. А вот и нет! На самом деле, их делали подмастерья в его мастерской. Они делали всё: от начала и до конца! Интересно, как были устроены эти «фабрики живописи»? ……… Оценка: отлично!
mysevra про Пауэлл: Магия тёмная и загадочная [litres] (Фэнтези, Городское фэнтези)
07 02 Поступки главной героини удивляют своей железбетонной глупостью, непорядочностью и самоуверенностью. Грустно, девицы. Оценка: плохо
mysevra про Чайлд: Лед-15 [Terminal Freeze ru] (Научная фантастика, Триллер)
07 02 Понравилось: бодренько и без личной драмы, так популярной ныне. За тех, кто ехал по льду, переживала больше, чем за тех, кто бегал по базе. Финальное предположение, что же это было, добавило каплю милоты. Оценка: хорошо
decim про Слободчиков: Облака над Суренью (Советская классическая проза)
07 02 Вот этим вот примерно до 1987 были забиты полки книжных магазинов. Жаль варварски вырубленных на целлюлозу ёлок, жаль ненужных усилий автора - честного лесника, зачем-то подавшегося в литературу. Нечитаемо. Оценка: нечитаемо
Kiesza про Лиманов: Пять лет спустя, или Вторая любовь д'Артаньяна [СИ] (Исторические приключения, Фанфик)
06 02 Не Дюма. Изложение скучноватое, неспешное. Кардинал мелочен, Рошфор глуп, д`Артаньян задрот. Оценка: плохо
sicomd про Никонов: От Второй мировой к холодной войне. Немыслимое (История, Публицистика)
06 02 Почему так корежит некоторых …. Когда речь заходит о СССР — только поэтому читать стоит!
Oleg68 про Куанг: Опиумная война [The Poppy War ru] (Фэнтези)
05 02 Очень понравилась книга. Необычно. Нравится слог автора. Оценка: отлично!
decim про Светлана Сергеевна Тюльбашева
05 02 Столкновение орков и вампирш, посвящённых 2-3 поколения назад и не осознающих своё вампирство. А кто другой может прошляться пол-лета по болотам, питаясь одной черникой и не быть съеденными комарами, когда кончится репеллент(столичным ………
Skyns71 про Олшейкер: Психологический портрет убийцы. Методики ФБР (Психология, Юриспруденция)
04 02 ...автор почётный поциент клиники Somerville Asylum в Бельмонте, опус - много слов поциента ни о чём". Уважаемый 187 - вы книгу-то читали? А хотя бы статью в Википедии про автора? Не стыдно нести чушь?
Barbud про Шалашов: Господин следователь 4 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
04 02 Читать можно. Повествование идет неторопливо и размеренно, в тексте много всяких бытовых подробностей - особенностей топки печей, пользования самоваром, найма прислуги, обращения с ней и т.д и т.п. ГГ ходит на службу, вкусно ……… Оценка: хорошо
virtcatty про Никонов: От Второй мировой к холодной войне. Немыслимое (История, Публицистика)
03 02 Для тех кто комментировал ранее. План "Немыслимое" всё-таки был. И холодная война была, и как всегда виновата РОССИЯ! |
Комментарии
Отв: Распределённые корректоры
Ох-ох...
Позволю себе привести забавную дискуссию, разгоревшуюся не так давно в Гостевой Фензина. Извините, если здесь уже всплывало :)
Головой думайте Пятница, 31. Октября 2008 18:37
Ну и ну, народ. Ну и ну.
Скажите, а вы вообще способны АДЕКВАТНО оценивать окружающую действительность?
Способны?
Ну тогда скажите мне: Кто во всем рунете сканирует фантастику?
Подумайте. Не торопитесь.
Ну а если напрягаться неохота, вот вам готовый ответ:
Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют.
Головой думайте:
И чего, в этом свете, стоят ваши вопли: "Ухожу на другой ресурс!!!", "ноги моей здесь больше не будет!!!!!", а?
Представьте, что фензин закрылся. Где, собственно, вы собираетесь брать новые книги? Сами сканировать будете? Ну так начинайте, чего ж не сканируете? Только стонать способны...
-----
Между прочим, я тоже предпочитаю получать книги бесплатно. Но, в отличие от некоторых, могу оценить - кто чего стоит.
aaa:
Головой думайте, сакраментальный вопрос - откуда дровишки?
rr3:
Ну и ну. Судя по нездоровому пафосу и зацикленности на уникальности - думать Вы, к сожалению, не способны. Увидев торжественное объявление о ПЕРВОЙ отсканированной книге - сделали вывод, что книга была единственной.
"И нигде больше не сканируют" - скажите, имена sem14, amyat, aprod и многих других Вам о чем-нибудь говорят?
Головой думайте:
У меня-то с головой все в порядке, это у вас язык ее опережает. Вы, чем болтать, просто возьмите и перечислите: какая фантастика была отсканирована на либрусеке. Не распознана с чужого скана или djvu, а именно отсканирована.
Если сможете.
И продолжение:
Головой думайте (Пятница, 31. Октября 2008 18:37) :
....Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют...
-------
Сегодня подсчитал, А.Антонов на ЛИБРУСЕКе представлен 23-мя произведениями, а на ФЕНЗИНе таковых только 10.
Так что - головой думайте
Да я-то думаю:
Чего и вам желаю. Слово "сканирует" - подразумевает вреня настоящее (или вы посчитали, что я имел ввиду - от сотворения времен?). Раз уж вы не поленились занятся подсчетами, не поленитесь поинтересоваться, когда и где книги были отсканированы, а когда файлы были перекачаны на либрусек и переформатированы. А потом прикиньте, во сколько процентов попадут остальные - относящиеся к нынешнему времени.
aaa:
А почему вы решили, что я ДОЛЖЕН ЭТИМ ИНТЕРЕСОВАТЬСЯ?
Я вижу счет - 23:10, и все остальное меня волнует мало.
Кстати, а где доказательства что только ФЕНЗИН занимается сканированием.
Пока я видел только голословные заявления, и не менее голословные обвинения
О как!:
Получается, интересоваться вы этим НЕ ДОЛЖНЫ, зато, что-то ДОЛЖЕН вам я?
Вы посчитали 23 к 10 и что? Все?
Я вот посмотрел автора, откинул эротику и боевики (которые вы почему-то посчитали?), посмотрел остальные книги - и не нашел среди них отсканенных в последнее время.
НО, может быть нашли вы? Не-а, вы оказывается и не искали. Вам это не интересно. Но, голословен, конечно я.
А вы тогда кто? Своей головой думать совсем не хочется?
aaa:
А почему вы решили, что я вас к чему-то обязываю.
Я просто констатировал факт.
Без комментариев.
У вас - одни лозунги. Фактов нет.
Тоже без комментариев.
У меня нет никакой возможности проверить, кто, где и что сканирует.
Как нет и такого желания.
Я читатель, а не следователь.
И меня это интересует не больше, чем страна и компания в которой сделали сахар, для моего утреннего кофе
Кстати, чем вам боевики не угодили?
Вместе с эротикой.
Про боевики и эротику:
Эротика - это наше все. Только вот разговор был о сканировании фантастики - вы это как-то упустили. Фензин - это вообще сайт, посвященный фантастике.
По поводу лозунгов:
Хм.. Я вам высказал мнение завсегдатая различных книжных сайтов и форумов, результат, если хотите, многолетнего мониторинга сети. Я бы не назвал это лозунгами. Другое дело - вы можете с моим мнением не согласиться. В таком случае, человек, как правило, пытается разобраться в ситуации самостоятельно - но этого вы тоже не хотите. Вы хотите от меня фактов и доказательств.
По поводу фактов:
Ну факты - они просты: вы видете прямо перед собой ресурс, регулярно выкладывающий отсканированную им фантастику - и не видете подобного на других ресурсах. Если вы знаете другой такой ресурс (кроме БСЧ) - поделитесь знанием.
По поводу доказательств: а что вы готовы счесть доказательством? Какого рода доказательства устроили бы лично вас?
aaa:
Ну с эротикой все ясно - тут у нас полное совпадение.
А как насчет боевиков?
Ах да, мы ж про фантастику!
Извините, увлекся.
Я люблю книжки читать, а не с мониторингом разбираться.
А что вы можете предложить.
Вот и мне интересно:
Мое мнение - вас не устраивает. Самостоятельно изучить вопрос - не-а, это не для вас. На вопрос "что вас бы устроило?" - вы, похоже, и сами не знаете, что ответить.
Вы хотите, чтобы я вам посоветовал - что делать?
aaa:
Вас зовут Н. Г. Чернышевский?
Или В. И. Ульянов-Ленин?
Вы серьезно считаете, что будучи в 2500 км от Москвы и 12000 км от Эквадора,
не имея никакого отношения ни к правоохранителям, ни к правооблаЖателям,
я займусь исследованием вопросов "что происходит?", "кто виноват?" и "что делать?"
Я лучше кофе попью с хз чьего производства сахаром :)
-------------------------------------------------------------------------------------------------------------
Неужели ситуация действительно настолько плачевна? :)
Что до сабжевого проекта - лично я всеми конечностями за, и готова поддерживать по мере сил. Только один вопрос к Jolly Roger - возможен ли запуск такого проекта тут, на либрусеке, или я чего-то не понимаю?
Отв: Распределённые корректоры
Ну это уж точно не ко мне вопрос. "Мопед не мой", я просто на удачу запускаю идею в ноосферу...
Уверен лишь, что если такой проект появится, то мы его задействуем в интересах Либрусека наверняка. :)
Отв: Распределённые корректоры
Спокойствие, только спокойствие.... У нас и у самих планшетные сканеры найдутся! :)
Если серьезно, источник сканов в Рунете далеко не единственный - раз.
Предлагаемый проект - не распределенное сканирование и не распределенный OCR, а именно вычитка. Ей тут и так только ленивый не занимается. :) Думаю, что прочитать и вычитать интересующую книгу целиком - более удобно, чем покусочно.
Отв: Распределённые корректоры
Ну дык. Олдмаглиб и Ершов - с ходу.
Да, но "гуртом батька бить легчей" и такая система позволяет производить вычитку гораздо быстрее и качественнее.
Отв: Распределённые корректоры
Возможно, просто непривычно как-то. Скажем так: я - эгоист, и горд тем, что сам этого достиг. Если кто-нибудь такую систему развернет, готов принять участие в тестировании и эксплуатации. Но поднимать сам даже и пытаться не буду, зашиваюсь :(
Отв: Распределённые корректоры
И это, и то - не очень умные стенания в стиле - ах! что же будет!
В свое время я и сам сканировал книжки и уж с десяток то их по инету гуляет в моем скане. Но потом оказалось, что народ успевает сосканить и выложить раньше, чем я доберусь до любимых авторов (в смысле пока куплю, пока найду время сосканить...). Так что долго ничего не сканил.
Если вдруг окажется, что то, что мне нравится, в бумаге уже давно есть, а в электронном формате нету, будьте спокойны - найду время купить и отсканить. Конечно только тех авторов, которых уважаю. Но вкусы у всех разные, так что не пропадем.
Кроме того, ИМХО, сегодня важнее вычитка. Книжки, в которых все время нужно мысленно одни буквы заменять другими и гадать иногда, что же вообще было написано, уже подзадолбали с тех же фензиновских времен.
А в предлагаемой системе поучаствовал бы безусловно.
Отв: Распределённые корректоры
Что-й то я плохо себе реализацию представляю...
Открытый ОЦР, понимающий русский язык, считай один - CuneiForm.
Сырой, как мох в болоте (я про невиндовый вариант).
Далее - требования к сканам. Они должны быть, видимо, в виде пачки постраничных файлов - а так никто не сканит.
Ну, дежавю ещё можно раздербанить на джипеги, но какчество от этого не повысится... А ПДФ - вообще труба дело.
Угу, ЦПУ-лоад такая хрень будет давать нехилый (хоть и бурстами) - не каждому хостеру понравится.
Вот...
А так - что ж, взять вики-движок (может, докрутить чего), да и выложить "документ", как серию "прошитых" страниц.
В начальный момент - предварительный ОЦР + "иллюстрация" скана.
Правьте до посинения.
Отв: Распределённые корректоры
Идея очень хорошая! Для примера: Сейчас ищу книгу Смирнов Андрей "Дары волшебства". В электронке пока нет, а бумагу не покупаю лет 8. Если бы был скан - помог вычитать. И таких как я, надеюсь здесь много. Так что, дерзай народ мы вас поддержим! А то загнётся литрес с непутёвым фензином - где оперативно брать новинки книжного рынка? Да и качество вычитки некоторых имеющихся текстов оставляет жалкое впечатление.
Отв: Распределённые корректоры
Идея вполне себе интересная. IMHO OCR тут не причем, здесь скорее вычитка и набор ( плюс возможно верстка ) из сканов страниц. Я думаю хранилище страниц из одной книги + какой-нибудь VCS + веб морда/софтина + координатор на каждую книгу -- таким, например, может быть вариант для подобной вычитки экземпляра книги. Оверлода для провайдера здесь не будет, сканеры заливают страницы -> вычитывальщики лочат выложенные страницы и коммитят вычитанне ( набранное ) -> координатор скриптом ( или руками ) собирает готовое -> выкладывает в библиотеку и закрывает текущий проект если нужно ( все готово ).
Думаю, важен такой проект будет не столько для книг в fb2, склолько для книг, в которых важно соответствие верстки.
Вот такое IMHO.
Отв: Распределённые корректоры
Ну, положим, сам редактор можно из WYMeditor'а сделать...
Он - уже "XMLный", для ФБ2 мало чего надо...
А если не FB2/XHTML - тогда как? Что у нас такого для вёрстки есть?
Отв: Распределённые корректоры
Да, с версткой конечно засада, на ум, кроме TeX, быстро ничего не пришло.
Отв: Распределённые корректоры
ото ж...
Отв: Распределённые корректоры
Да можно даже не Вики,а любой нормальный движок с гибкой настройкой прав доступа.
Отв: Распределённые корректоры
Права - сакс.
История/откат - рулез.