Вы здесьAldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168 книг)
Опубликовано вт, 26/08/2008 - 16:32 пользователем pkn
Выделил из AldLit вторую очередь заливки: EBD (11 книг) и KIT (4168 книг) EBD = книги из AldLit, которые в Либрусеке представлены результатом eBookDownloader-а, и version-aldlit >= version-libr KIT = книги из AldLit, которые в Либрусеке представлены результатом LibRusEc Kit-а, и version-aldlit >= version-libr Предзаливочная обработка(в изложенном порядке): Поскольку изначально было version-aldlit >= version-libr, то приподнятие версии на 0.001 должно было, по идее, убедить либрусечный заливочный скрипт в старшинстве заливаемой версии . В порядке эксперимента залил EBD (11 книг). Результат удручает: на 11 файлов - 6 дублей и 5 отказов. Ни один файл не был молча принят :(( Причины непонятны... Файл Andrey_Rubanov_Sazhayte_i_vyirastet уже есть в базе. Повторы недопустимы. --------------------
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 часа
sem14 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 3 дня Океана RE:Подайте бедному копеечку на книжку с литреса... 1 день Larisa_F RE:Современная корейская литература. Книжная серия... 2 недели Larisa_F RE:Таррин Фишер 2 недели Aleks_Sim RE:Беженцы с Флибусты 2 недели Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 2 недели Isais RE:Семейственность в литературе 3 недели miri.ness_ RE:Доступ 27 3 недели bmusanov Оплатил, но абонемент не отображается 3 недели holla RE:Багрепорт - 2 3 недели konst1 RE:Файнридер для Win11 1 месяц larin RE:Оплатил, но абонемент не отображается 1 месяц sem14 RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц Isais RE:Национальный конкурс на лучшее литературное произведение... 1 месяц Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц sem14 RE:«Морской роман» — книжная серия Калининградского книжного... 1 месяц larin RE:Оплатил,но абонемент не отображается 1 месяц Впечатления о книгах
udrees про Каку: Физика невозможного [Physics of the Impossible: A Scientific Exploration into the World of Phasers, Force Fields, Teleportation, and Time Travel ru] (Физика, Научпоп)
31 08 Увлекательно прочитать про возможности и открытия, которые могут быть доступны в ближайшие сотню лет или больше. Книга немного уже устарела, информация базируется видимо на сведениях 2006-2007 годов. Сейчас в 2025 году часть ……… Оценка: хорошо
udrees про Роузвуд: Джеффри Дамер. Ужасающая история одного из самых известных маньяков в мире [litres] [Jeffrey Dahmer: A Terrifying True Story of Rape, Murder & Cannibalism ru] (Биографии и Мемуары, Публицистика, Документальная литература)
31 08 Кому интересно почитать про историю ужасных преступлений Джеффри Дамера – почитайте книгу. Она достаточно подробно на 50 страницах описывает его похождения и убийства мужчин, без особых кровавых подробностей, хотя описания ……… Оценка: неплохо
udrees про Мантикор: Зеркало Мисы (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
31 08 Как увлекательно становится читать долгую историю приключений друида, который по силе невероятно прокачался по ветке РПГ, что практически стал богом, когда он натыкается на препятствия и противников, которые сводят на нет ……… Оценка: отлично!
Stager про Дроздов: Зубных дел мастер (Космическая фантастика, Попаданцы, Самиздат, сетевая литература)
31 08 Ну это даже не третьесортная литература. Это вообще не литература. Ещё это редкое говно по содержанию. Неожиданно для Дроздова. У них там в Белоруссии так плохо? Оценка: плохо
Amfortas про Бачигалупи: Навола (Социальная фантастика, Городское фэнтези, Историческое фэнтези)
30 08 Скучно. Невыносимо скучно. Не одолел, бросил на половине. Слащавый "роман воспитания" с кучей банальных деталей. Повествование, ведущее в никуда. Не спасает даже стилизация под итальянское Возрождение. Лучше почитать словарь. Веселее и более интригующе. Оценка: плохо
Олег Макаров. про Юдковски: Гарри Поттер и методы рационального мышления [Harry Potter and the Methods of Rationality ru] (Фэнтези, Фанфик)
30 08 Один из лучших в мире специалистов по критическому мышлению написал фанфик по Гарри Поттеру для того, чтобы большее количество людей заинтересовались критическим мышлением. Представляете, что получилось? Оценка "отлично". ……… Оценка: отлично!
Олег Макаров. про Капба: На золотом крыльце - 2 (Киберпанк, Городское фэнтези, Самиздат, сетевая литература)
30 08 Капба это Капба. К его книгам не читайте аннотаций, читайте сами книги. 5 баллов это недостаточное количество баллов. Оценка: отлично!
Sello про Мережковский: Петр и Алексей (Историческая проза)
30 08 Поздновато, конечно, я разобрался, почему "не прет" мне Мережковский - лишь с третьей попытки, на третьем романе серии. Потому что там, где религия перетягивает на себя одеяло в ущерб историческому повествованию, истина, всегда, ……… Оценка: неплохо
mysevra про Эйрес: Оззи. Автобиография без цензуры [I Am Ozzy ru] (Биографии и Мемуары)
29 08 Несмотря на множество грустных моментов, книга просто пропитана оптимизмом и юмором. Возможно, местами позитив слишком уж натужный, но по-другому никак не выжить в некоторых обстоятельствах, тут тянешь себя за волосы как Мюнхгаузен. Оценка: отлично!
mysevra про Тюльбашева: Лес (Ужасы, Триллер, Мистика)
29 08 Слишком "мыльный" привкус. Где, собственно, события? Заблудились, пропали, шли, шли, поели макарон, шли, шли, совсем пропали. Часть вторая… Оценка: плохо
mysevra про Васильев: Легкий заказ [СИ] (Городское фэнтези, Самиздат, сетевая литература)
29 08 Мило, но слишком кустарно. Продолжение читать не хочется. Оценка: неплохо
Barbud про Демин: 3 книга. 1 глава. Одна планета одно правительство, основной язык общения русский. 15 письмо проекта Главам государств, от 07.12.2023 года [СИ] (Публицистика, Ненаучная фантастика, Самиздат, сетевая литература)
28 08 Сезонное обострение? Рано вроде... Оценка: нечитаемо |
Комментарии
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Чудеса... попытался сейчас, от отчаяния, залить ещё раз ровно тот же самый rar, содержащий ровно те же самые 11 файлов... результат:
-----------------------
file:Andrey_Rubanov_Sazhayte_i_vyirastet Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Сажайте, и вырастет http://lib.rus.ec/b/119946/join/104702
file:Andrey_Rubanov_Velikaya_Mechta Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Великая Мечта http://lib.rus.ec/b/119947/join/104703
Книга уже есть в библиотеке - Космос!!! http://lib.rus.ec/b/119940
Книга уже есть в библиотеке - Крейсер «Безумный» http://lib.rus.ec/b/119941
Книга уже есть в библиотеке - Принцесса помойки http://lib.rus.ec/b/119942
Книга уже есть в библиотеке - Звезда с одним лучом непонятный жанр http://lib.rus.ec/b/119943
file:Daliya_Meyerovna_Truskinovskaya_Bednyie_ryitsari Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Бедные рыцари http://lib.rus.ec/b/119948/join/102653
file:Polina_Dashkova_Vechnaya_noch Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Вечная ночь http://lib.rus.ec/b/119949/join/102646
file:Dzhuliana_Makleyn_Prelyudiya_lyubvi Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Прелюдия любви http://lib.rus.ec/b/119950/join/100660
Книга уже есть в библиотеке - Я и ты под персиковыми облаками http://lib.rus.ec/b/119944
Книга уже есть в библиотеке - Дело № 34840 http://lib.rus.ec/b/119945
-----------------------
То есть...
1. 6 файлов, залившихся (через дублей, но залившихся), во второй попытке получили отлуп ("Книга уже есть в библиотеке"). Что есть логично.
2. 5 файлов, в первой попытке получившие другой отлуп ("уже есть в базе. Повторы недопустимы."), во второй попытке прошли (через дублей, но прошли). Что есть непонятно.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Похоже, главная тут - функция AddFileToLibrusec, находится в файле author.inc. Распечатал файло, буду читать на сон грядуший...
P.S. Чтобы грепнуть сорс на моем винбоксе - пришлось его из UTF-8 перекодировываь в win-1251. И все равно не помогло - grep кириллицы не понимает хоть убей... нашел тыком.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Не используй костыли типа цыгвин, используй нативные инструменты!
vim - the best!!!
Отв: AldLit, вторая очередь заливки
А как ты вычислял LibRusEc Kit? К примеру если книга была китом, а потом заменилась на нормальный вариант, в архивах остался кит и добавился нормальный вариант. Причем не факт что "прямо" добавился. Тоесть могут быть разночтения в тегах вида "конан" "конан(конан варвар - 3)". Теперь еще один пункт. Книги либрусека часто датированы 2011 годом, что изрядно смущает его дублеловку. Также у некоторых файлов версия не 1.0 как должна бы быть, а 1.5.
ИМХО для либрусека проще понимать зипы. На рарах периодически спотыкается.
*вздыхает* зря... размер увеличился, качество файлов не изменилось.
Отв: AldLit, вторая очередь заливки
Ну... логика сравнилки на данный момент примерно такая. Сравнилка берет одно файло из AldLit-а, ставит ему priority=0 (NEW), и с ним в зубах идет по всем 100+ тысячам Либрусека.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом eBookDownloader AND version-aldlit >= version-libr, то помечаем это файло как EBD, priority=1 (EBD).
Но на этом сравнилка не останавливается, а идет, с тем же файлом, по Либрусеку дальше.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом LibRusEc Kit AND version-aldlit >= version-libr, то помечаем это файло как KIT, priority=2 (KIT).
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, но выполняется version-aldlit >= version-libr, то priority=3 (REP)(значит REPlace, наш алдлитный файл лучше либрусечного)
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, и не выполняется version-aldlit >= version-libr, то priority=4 (OLD)(значит OLD, наш алдлитный файл хуже либрусечного)
При этом priority может только увеличиваться, не вниз, так что порядок встречи дублей не имеет значения.
В результате получаем разбивку АлдЛита на пять групп:
0 NEW - алдлитное файло новое, в Либрусеке не встречено.
1 EBD - алдлитное файло имеет в Либрусеке дубль от eBookDownloader
2 KIT - алдлитное файло имеет в Либрусеке дубль от LibRuEc Kit
3 REP - алдлитное файло имеет в Либрусеке дубль от кого-то ещё, но алдлитное файло лучше.
4 OLD - алдлитное файло хуже имеющегося в Либрусеке.
Вроде должна работать такая логика.
Ну тут я бессилен. Такие книги воспринимаются как разные.
Гм... мне-то это пофиг, я на дату вообще не смотрю... а вот если дублеловка смотрит... непонятно зачем бы ей это, но вдруг... надо будет на этот предмет сорсы тоже глянуть.
Оп-па... такого не замечал. Проверю.
Спасибо, учту.
Ларин сказал UTF - значит UTF.
Отв: AldLit, вторая очередь заливки
Вобщем из логики скрипта что смутило: очень часто бывает что на либрусеке лежат книги одного автора(файла), а на альде - другово. Соответственно и версии отличаются. Не факт, что файл автора X, версии 1.6 будет лучше файла автора Y версии 1.4.
А вот либрусек понимает что это дубли :Р Для этого надо не учитывать в названии книги все, что в круглых скобках.
Хм... ты прав. Это глюк fb2fix. Пропускал через него весь либрусек и по какой-то загадочной причине, он решил влепить части либрусечных файлов версию 1.5. Глянул эти же файлы здесь - версия 1.0, так что вопрос снимаю.
Отв: AldLit, вторая очередь заливки
Оно, конечно, не факт. Но как ещё программно решить какая из книг лучше, если не по номеру версии? Авторов-файла по ранжиру же не построишь. Конечно, можно в сравнилке учитывать не только версию, но и автора-файла. То бишь если автор-файла один и тот же, то лучше книга с большей версией. Но если авторы-файла разные, проблема остается.
Впрочем, в любом случае REP - это третья очередь заливки, и с ней, когда время придет, будем разбираться отдельно. Дай бог пока с KIT управиться.
Гм... а ведь и правда похоже... как-то этот момент я пропустил. Попробую в сравнилке прибивать в названии все, что в круглых скобках.
Отв: AldLit, вторая очередь заливки
Надо учитывать автора. А если авторы разные - в отдельный список для ручного разгребания, и ничего не трогать. Список потом можешь опубликовать - "всем миром" будем сравнивать :) Не факт что на альде будут лучшие версии. К примеру хроники нарнии лучше на либрусеке. А пратчет был лучше на альде.
Отв: AldLit, вторая очередь заливки
OK
Отв: AldLit, вторая очередь заливки
Можно еще применить вот такой метод
http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0
Но, здесь надо обязательно учитывать разницу в длине сравниваемых строк. Очепятки отлавливает аж бегом. Ну или когда в кириллицу вставляют латинские символы одинакового начертания.
Отв: AldLit, вторая очередь заливки
Листинг показал, что таких файлов в Либрусеке всего два, оба раза версия приподнята обоснованно. Ложная тревога.
Отв: AldLit, вторая очередь заливки
ИМХО, дубли и ошибки неизбежны. Лучше иметь сотню дублей, чем потерять одну хорошую книгу. Совершенно невозможно избавиться от ошибок, когда анализируется только заголовок. Не говоря о возможных ошибках / опечатках, там еще все зависит от того, кто его делал и как. Меня смущает другое. Когда все сомнения останутся позади, просьба не заливать все такой дикой массой, как в прошлый раз - там было около 40 страниц обновлений за день :(. Практически невозможно все просмотреть, и выбрать / скачать то, что интересно. Пожалейте сервер и наши глаза! Если можно, просьба заливать ну хотя бы произведений по 500 в день ;). Конечно, если это трудно технически, лейте как есть, переживем ;). Может, это даже к лучшему - отмучиться сразу и не растягивать удовольствие. Точно знаю только, что при прошлой заливке я пропустил много интересного, по чисто физической невозможности просмотреть и оценить все.
Отв: AldLit, вторая очередь заливки
Лучше сразу отмучатся :) Я например когда добавлял архивы либрусека, чтобы лишний раз не перезаписывать, то, что уже есть(а альд я выкачивал полностью), не добавлял книги вообще за 18-е число. Аналогично поступлю и с этой заливкой. А вот если будет по 500 книжек в день - начнутся проблемы. Так что лучше уж кучей.
Отв: AldLit, вторая очередь заливки
Это-то да... проблема в том, что если не удается убедить дублеловку принять новый файл молча, то приходится каждую пару дублей разрешать вручную, кликая. При заливке нескольких тысяч книг это становится, мягко говоря, проблематично.
Я думал на этим вопросом... по-моему, все-таки лучше рубить кошке хвост разом, а не по частям...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Гы... на 250-гиговом диске, выделенном под эти игры, осталось 25 гиг места. Пришлось кое-что постирать к бубеням...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Кстати, та кошмарная) заливка уже отразилась в Дайли и можно ли её уже скачать одним файлом обновлений?
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Да, только не одним, Илья на два разбил (слишком большой файл?).
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
ОК, спасибо! Попробую найти.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Если именно те два файла в Дейли, то на http://lib.rus.ec/all/daily/ они под (ошибочно одним и тем же) именем 114698-119287.zip 114698-119287.zip
Линки там под этими именами на самом деле на два разных файла:
http://lib.rus.ec/all/daily/114698-117000.zip
http://lib.rus.ec/all/daily/117001-119287.zip
Но в принципе основная разбивка "по тысяче" http://lib.rus.ec/allbooks уже тоже добралась до этих номеров и даже дальше.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки. Понял про Либрусек пару вещей, заслуживающих записи.
1. Приподнимание версии не заставит дублеловку молча принять файл. Потому что:
LogAction ("INSERT INTO libbook (FileName, FileSize, FileType, Title, Year, SeqId, SeqNumb, Id, Ver, Lang, FileAuthor) VALUES ("$nn", '$fs', '$filetype','$title','$year', '$SeqId', '$sequencei','$id', '$ver', '$lang', '$nick')", "Add book","");
$b = Sel("BookId FROM libbook WHERE FileName = "$nn"");
if (!$b) return $r. "Что-то не получилось. Свяжитесь с администрацией";
if ($actionid = Sel ("ActionId FROM libactions WHERE ActionDesc = 'Add book'
AND BookId = 0 AND ActionSQL LIKE "($nn," LIMIT 1"))
Update (libactions, "BookId=$b", "ActionId=$actionid");
$r .= "<p><a href=/b/$b/edit target=_blank>Книга добавлена</a><br>";
system ("chmod a+r $nn1");
foreach ($GenreIds as $gid) Insert ('libgenre', 'BookId, GenreId', "$b, $gid");
foreach ($PD->AvtorIds as $aid) {if ($aid && $la != $aid) Insert ('libavtor', 'BookId, AvtorId', "$b, $aid"); $la = $aid;}
if ($dublid = Sel ("BookId FROM libbook JOIN libavtor USING (BookId) WHERE Title="$title" AND AvtorId = $a AND BookID != $b AND NOT Deleted"))
$r .= "<p>Кажется, нашли дубля. Ткните в него для разрешения конфликта. <a href=/b/$b/join/$dublid target=_blank>Дубль: $title</a>";
(file author.inc lines 599-610)
Здесь $b это АйДи (либрусечный номер) свежедобавленной книги, $dublid - АйДи (либрусечный номер) найденного дубля. Версия не учитывается совсем. Надо искать другие пути обхода дублеловилки.
2. В Либрусеке много книжек, в которых:
# fictionbook/description/document-info/author/nickname rusec
# fictionbook/description/document-info/author/email lib_at_rus.ec
# fictionbook/description/document-info/program-used LibRusEc kit, Fiction Book Designer, Fiction Book Investigator, FB Editor v2.0
# fictionbook/description/document-info/date 29.11.2007
# fictionbook/description/document-info/id 283111f6-feec-102a-9d2a-1f07c3bd69d8
# fictionbook/description/document-info/version 1.0
# fictionbook/description/publish-info/book-name Поэтический побег
То бишь, после LibRusEc kit был и FBD, и множество всякого, но версия так и осталась 1.0
Мне надо в сравнилке сильно ужесточить критерии для зачисления в категорию KIT.
Вероятно, по ID, см. тут: http://www.fictionbook.org/forum/viewtopic.php?p=34606&sid=ce80b4a0e032856378070ac1bcf5dfd6#34606