Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ

Вы здесь Главная » Блоги » Блог пользователя TaKir Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: пе (не), оп (он), пи (ни), ва (за), пее (нее), опа (она)... Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Собранная статистика еще больше упростит отлов косяков сканирования и, соответственно, позволит более качественно и быстро делать верстку отсканенных книг и быстрее находить косяки в уже сделанных книгах тем, кто занимается их правкой-вычиткой. Сейчас данный скрипт у меня ищет: - смесь латиницы с кириллицей во всех вариантах, - смесь букв с цифрами, - неправильные дефисы-тире, - мусор после скана, - концы строк без знаков препинания - неполный курсив слова - указанные выше типичные ошибки распознавания и другие подозрительные места. Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ. Блог пользователя TaKir Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 30/01/2011 - 15:54 пользователем chas Закончил книгу, где использовал данный скрипт. Призведя вычитку, убедился. что ляпов практически нет. Скрипт сработал на отлично. В тексте осталась только замена "ьщ" на "ыц". Ещё раз спасибо TaKir, да и вообще всем, принявшим участие в его создании. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 31/01/2011 - 13:22 пользователем Алексей_Н Неожиданно выпало: "щей" вместо "шеи". Можно и не заметить, оба слова в словаре присутствуют. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 31/01/2011 - 13:25 пользователем Pawel Вот еще, из довольно частых: Айда - Аида, ай - аи. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 04/02/2011 - 13:10 пользователем shokons Добавляю: Ищет смесь регистров (кириллица ) проимерно так: проБа или ПРоба. Не трогает имена собственные addRegExp("[а-яё][А-ЯЁ]","","Найдено: смесь регистров"); addRegExp("[А-ЯЁ][А-ЯЁ][а-яё]","","Найдено: смесь регистров"); Слипшиеся слова....А то..., .....И то tagRegExp("(?< ![а-яё])ато(?![а-яё])","i","Найдено: слово \"ато\" (\"а то\" с опечаткой)."); tagRegExp("(?< ![а-яё])ито(?![а-яё])","i","Найдено: слово \"ито\" (\"и то\" с опечаткой)."); Удалить пробелы перед восклицательным знаком (!) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 04/02/2011 - 13:52 пользователем shokons А вообще - убойный скрипт!! Ещё раз спасибо Такиру и Склексу!! Может кому пригодится - я задублировал три таких скрипта - с небольшими изменениями, каждый на своей кнопке. Это касается украинских, болгарских букв ( у меня они выставлены в ФР и я частенько забываю их откл/вкл)), специальных знаков итд. В общем - каждый себе может подобрать набор. ОЧЕНЬ убыстряет и улучшает Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 05/02/2011 - 07:31 пользователем Sclex Полагаю, стоит включить версию скрипта с регэкспами ТаКир'а в следующий релиз FBE. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 05/02/2011 - 08:24 пользователем golma1 Sclex написал: Полагаю, стоит включить версию скрипта с регэкспами ТаКир'а в следующий релиз FBE. +1. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 05/02/2011 - 12:17 пользователем Pawel вес - все Круглов - Круглое Валет - Балет рот - рог Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 12/02/2011 - 06:29 пользователем shokons Случайно обнаружил, что скрипт не ищет буква+знак препинания+цифра Это могут быть цифры пропущенных сносок примерно в таком виде: Текст,3...Текст)3... Текст.3... Текст»3.... Предлагаю добавить: addRegExp("[A-Za-zА-яЁё»).,][0-9]","","Найдено:Подозрение на пропущенную сноску"); К сожалению не получилось добавит сюда комп. кавычки - начинает выдавать ошибку скрипта. Для целенаправленного поиска только таких цифр можно проводить и рег. выражением: [A-Za-zА-яЁё"»).,][\d] УПД: Если сделать так: addRegExp("[A-Za-zА-яЁё\"»).,][0-9]","","Найдено:Подозрение на сноску"); То комп.кавычку+цифра находится нормально (пришлось дополнительно вставить слеш) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 22/02/2011 - 09:12 пользователем Sclex В регэкспе была ошибка, поправил: addMacros("<откр-закр-em-str>","<emphasis>\|</emphasis>\|<strong>\|</strong>"); tagRegExp("([а-яёa-z]<откр-закр-em-str>)?[а-яёa-z]<откр-закр-em-str>(<emphasis>\|</emphasis>)<откр-закр-em-str>([а-яёa-z]<откр-закр-em-str>)+","i","Найдено: курсивность части слова."); (Заменил один плюс на звездочку.) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 22/02/2011 - 09:14 пользователем Sclex Упс. Вместо "ответить" кликнул на "изменить", в итоге затер старое сообщение. Или форум сглючил? Вряд ли. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 18/02/2011 - 11:15 пользователем Алексей_Н Хорошо бы добавить точку с запятой (;) в конце абзаца. Иногда вместо двоеточия перед прямой речью выскакивает. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 03:45 пользователем wotti Алексей_Н написал:* Хорошо бы добавить точку с запятой (;) в конце абзаца. Иногда вместо двоеточия перед прямой речью выскакивает. Да неплохо бы! Всем привет. Когда починят добавлялку? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 10:12 пользователем Алексей_Н вамп = вами II = И попятно = понятно Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 11:13 пользователем shokons Алексей_Н написал: вамп = вами II = И попятно = понятно первое и третье можно будет добавить, а вот со вторым проблемы могут возникнуть. Скрипт будет показывать ВСЕ вхождения "И" (как отдельно стоящего слова) и боюсь их может быть многовато ((( Я вот ещё думаю, может добавить V+любую цифру? Довольно часто встречается вместо дроби (напр. 1/2 Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 11:16 пользователем Алексей_Н В скрипт нужно добавить не "И", а "II" с пробелами с обоих сторон. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 13:11 пользователем s_Sergius Алексей_Н написал: В скрипт нужно добавить не "И", а "II" с пробелами с обоих сторон. И скрипт будет останавливаться на каждом “II”? Боюсь для исторических текстов с обилием имен типа Екатерина II это не совсем хорошо. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 13:23 пользователем Алексей_Н Сейчас скрипт останавливается на каждой "б" (частица), "яи" (в словах типа "хозяин"), и эти случаи встречаются чаще, чем "Екатерина II". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 13:46 пользователем s_Sergius Насчет "хозяина", "яиц" и т.п. спорить не буду, а вот одиночная "б" встречается довольно редко, поэтому не раздражает. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 19/02/2011 - 11:31 пользователем shokons Сорри, я наверное не так понял. У меня просто чаще встречается ошибка, когда вместо римской цифры - выдаёт "И" )) tagRegExp("(?< ![а-яё])вамп(?![а-яё])","i","Найдено: слово \"вамп\" (\"вами\" с опечаткой)."); tagRegExp("(?< ![а-яё])попятно(?![а-яё])","i","Найдено: слово \"попятно \" (\"понятно\" с опечаткой)."); tagRegExp("(?< ![а-яё])II(?![а-яё])","i","Найдено: слово \"II\" (\"И\" с опечаткой)."); Хочу ещё раз подчеркнуть - скрип целесообразно иметь не один. Лучше его поделить на несколько, оставив в каждом необходимые+специфические. Ведь всё-таки есть разница по частоте ошибок в разных жанрах - свои словечки (жаргонизмы) есть в фантастике, свои слова в политической, научной или другой литературе. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 20/02/2011 - 09:16 пользователем F.CYXOB Здравствуйте, все! Большое спасибо Sclex-у за срипты, а TaKir-у - что открыл эту тему! Попробовал - очень полезно! И, конечно, уже дополнил кое-чем, о чём вспомнил. Вот это дополнение. В файле скрипта от Sclex-а "Поиск по набору регэкспов_TaKir_24_01_2011.js" после строки // -------------конец блока TaKir - регэкспы:--------------- я добавил следующие (прошу строго не судить - чайник): // -------------начало блока F.CYXOB - регэкспы:-------------- tagRegExp("(ыо)","i","Найдено: часть слова \"ыо\" (\"ью\" с опечаткой?).","",1); tagRegExp("(ыш)","i","Найдено: часть слова \"ыш\" (\"ьни\" с опечаткой?).","",1); tagRegExp("(?#(![а-яё])ужо(?![а-яё])","i","Найдено: слово \"ужо\" (\"уже\" с опечаткой, если это не просторечие).","",1); addRegExp("^[Л][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Л вместо А в начале строки"); addRegExp("^[Л][.,:;!\?]","i","Найдено: буква Л вместо А в начале строки"); addRegExp("^[Д][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Д вместо А в начале строки"); addRegExp("^[Д][.,:;!\?]","i","Найдено: буква Д вместо А в начале строки"); addRegExp("^[Н][\\x20\\xA0\\t\\n\\r\\f]","i","Найдено: буква Н вместо И в начале строки"); addRegExp("^[Н][.,:;!\?]","i","Найдено: буква Н вместо И в начале строки"); addRegExp("[\\x20][.,:;!\?]","i","Найдено: пробел перед знаком препинания"); addRegExp("[\\x20][»”’]","i","Найдено: пробел перед закрывающей кавычкой"); addRegExp("[…][.,]","i","Найдено: трёхточие с прилегающим справа знаком препинания"); // ~~~~~~~~~~ идея про строчные в начале предлож. от Рыжего Тигры. С усовершенствованием от F.CYXOB'а: addRegExp("^[a-zа-яё]","","Найдено: строчная буква в начале строки"); addRegExp("[A-Za-zА-яЁё][….!\?][\\x20][a-zа-яё]","","Найдено: строчная буква в начале предложения."); // ~~~~~~~~~~ идея про сноски от shokons. С усовершенствованием от F.CYXOB'а: addRegExp("[A-Za-zА-яЁё][»….,:;!\?«)(\"”“][0-9]","i","Найдено: Подозрение на пропущенную сноску"); // -------------конец блока F.CYXOB - регэкспы:--------------- Пару символов "#(" в третьей строке tagRegExp надо заменить на левую угловую скобку. Конечно, старшие товарищи меня пусть поправят, если что... Спасибо! Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 20/02/2011 - 06:05 пользователем Алексей_Н По ходу работы над очередной книгой, выискиваются еще случаи: отда, вместо отца конда, вместо конца лидами, вместо лицами Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 20/02/2011 - 10:45 пользователем Igorek67 Встретил сегодня ф вместо гр. А еще у меня истоия вот такая открылась, может уже здесь и писал кто: Я раньше не особо не обращал внимания на точки и запятые перед тире в прямой речи. Вдруг обратил и огорчился. Например предложение: "— Ты же меня знаешь — гнили не подсуну, — ответил взводный, — Драться умеют все." И в книге и по-правилам: "— Ты же меня знаешь — гнили не подсуну, — ответил взводный. — Драться умеют все." То-есть перед заглавной буквой должна стоять точка, А перед маленькой запятая: "— Как букашку под микроскопом — вот что я хотел сказать, — буркнул он." В книгах проставлено верно, а наши вычитывальщики вместо точки перед заглавной часто ставят запятую. Или файнридер им ставит. Но не обращают внимания. Нельзя ли это как-то скриптом находить? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 20/02/2011 - 10:50 пользователем Алексей_Н А не пробовали использовать скрипт "Точка, тире, буква"? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 20/02/2011 - 11:56 пользователем Igorek67 Алексей_Н написал: А не пробовали использовать скрипт "Точка, тире, буква"? СПАСИБО, ДОБРЫЙ ЧЕЛОВЕК! Так и пришлось 2.5 ставить. :) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 24/02/2011 - 13:03 пользователем mikebb Смешные очепатки - ЖЗЛ Гулыга "Гегель" http://lib.rus.ec/b/188976/read "Неловкий, старообразный, неряшливо одетый, у женщин он успехом используется." Узнаем что Гегель учился на геологическом факультете "Это не мешает Гегелю в двадцать лет стать магистром философии. По заведенному на геологическом факультете" Который он закончил не много ни мало в осенью 4793 года!!! "Консисториальный экзамен осенью 4793 года — последняя дань пребыванию на студенческой скамье." И ещё Fr10 устойчиво фамилию Бальтазар распознавал как Бсихьтазар или Балыпазар Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 02/03/2011 - 14:43 пользователем golma1 "еше" вместо "еще" Я себе уже сама добавила. Подглядела, как ТаКир сделал. ;) Но коль скрипт в этом виде собираются добавлять в следующий релиз, то не мешало бы включить и эту весьма распространённую ошибку. :) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 12/03/2011 - 06:18 пользователем chas Есть вопрос. Номера строк в стихотворных произведения сильно отвлекают (мешают) при чтении. Я представил эти номера над строкой и мне очень понравилось (кому интересно, можно посмотреть http://lib.rus.ec/b/269388). Так вот нужно ли и можно ли это автоматизировать? Делать это ручками можно, но занимает много времени. Прошу извинить за то, что не совсем в тему. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 12/03/2011 - 10:19 пользователем Sclex Если опишете поподробней, как вы себе представляете функциональность и интерфейс такого скрипта, может, когда-нибудь сделаю. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 12/03/2011 - 06:21 пользователем Алексей_Н Не помню, отмечалось или нет: "Аза" вместо "А за". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 19/04/2011 - 05:06 пользователем JonVic sd написал: открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится. *Точно! Помогает.* Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо. TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки... Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 19/04/2011 - 07:24 пользователем wotti JonVic написал: И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки... это проверяется спелчеком. если это вставлять (вы представляете СКОЛЬКО частоупотребляемых слов с дефисами есть в русском языке?) затормозим работу скрипта до полного аута Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 19/04/2011 - 09:09 пользователем Алексей_Н Почему "часто употребляемых"? Слов, типа "чтото, какогото" и т. п. в русском языке нет. И если скрипт поможет выявить эти ошибки - прекрасно. Скрипт ведь будет искать не слова с дефисами, а именно случаи без дефисов. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 19/04/2011 - 11:02 пользователем wotti Виноват невнимательно прочитал и не вник. ((( Алексей, если имеется ввиду окончание слов на "то". То может быть. Правда много будет и холостых срабатываний (просто, запросто, итд) Но мне довольно часто попадаются слитные - какнибудь, какойлибо итд. В своё время мне Склекс присылал выборку слов с дефисами в тхт (надо поискать куда засунул) так этот тхт весил немерянно. ПС кстати - изза - в исходном скрипте есть Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 29/04/2011 - 02:59 пользователем JonVic нот -> вот Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 15/05/2011 - 08:19 пользователем Алексей_Н "чю" вместо "что" Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 15/05/2011 - 08:34 пользователем PrePress Слово "полста" часто распознается как "полета". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вс, 15/05/2011 - 18:47 пользователем x10327 PrePress написал: Слово "полста" часто распознается как "полета". +1. Надо бы в скрипт добавить. Сейчас делаю книгу, автор любит слово полста... Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано вт, 31/05/2011 - 02:34 пользователем Алексей_Н 06 - вместо "об" 01 - вместо "от" Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 29/06/2011 - 09:13 пользователем Aldio эго = это И вот это: "но" после слова и в обрамлении пробелов, скорее всего нужно "по". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 29/06/2011 - 18:50 пользователем Roxana Да, тоже хотела про "но" написать. Как правильно такую строчку прописать в скрипте, чтобы она не искала все подряд "но"? А именно сочетание "конец слова" + пробел + но + пробел. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 29/06/2011 - 20:05 пользователем Aldio "[а-я] но " Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 06:27 пользователем Roxana Спасибо, попробую. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 07:31 пользователем golma1 Aldio написал: "[а-я] но " Не годится. После запятой (если это правильно "но") тоже стоит пробел. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 10:50 пользователем Aldio golma1 написал: Aldio написал: "[а-я] но " Не годится. После запятой (если это правильно "но") тоже стоит пробел. Годится. Запятая в множество [а-я] не входит. Пользуюсь давно - работает. Причём это один из наиболее упускаемых даже при хорошей вычитке багов. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 11:23 пользователем golma1 Aldio написал: golma1 написал: Aldio написал: "[а-я] но " Не годится. После запятой (если это правильно "но") тоже стоит пробел. Годится. Запятая в множество [а-я] не входит. Пользуюсь давно - работает. Причём это один из наиболее упускаемых даже при хорошей вычитке багов. Хммм... Напиши тогда полную строку, пожалуйста. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 11:36 пользователем Aldio golma1 написал: Хммм... Напиши тогда полную строку, пожалуйста. Пытался - не выходит. Режется. Единственное, я делал это под оператором addRegExp а не tagRegExp. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:14 пользователем golma1 Aldio написал: golma1 написал: Хммм... Напиши тогда полную строку, пожалуйста. Пытался - не выходит. Режется. Единственное, я делал это под оператором addRegExp а не tagRegExp. Чё-то у меня не получается. :( А в тэге "code" тоже режется? Или сделай вместо круглых скобок фигурные. Очень бы хотелось пользоваться. По поводу пропущенных точек: есть отдельный скрипт, но он останавливается перед каждый именем собственным. Я пользуюсь "точка, тире, буква" - он ищет неправильные знаки в прямой речи. Твой может больше? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:12 пользователем wotti golma1 написал: Хммм... Напиши тогда полную строку, пожалуйста. `tagRegExp("[а-яё] (но) ","i","Найдено: слово "но" ("но " без запятой).");` Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:24 пользователем golma1 wotti написал: golma1 написал: Хммм... Напиши тогда полную строку, пожалуйста. `tagRegExp("[а-яё] (но) ","i","Найдено: слово "но" ("но " без запятой).");` О, спасибо, Миша. Я не увидела и сама пыталась писать. Твой скрипт действительно находит в указанном месте, а в следующем уже нет. :( "вид но" Как такое может быть? Я написала addRegExp, но он ВСЕ "но" ищет. :( А мне нужно только те, у которых до пробела нет запятой. Страницы « первая ‹ предыдущая 1 2 3 4 5 6 7 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии нэнси RE:Подайте бедному копеечку на книжку с литреса... 2 дня Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 3 дня Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 4 дня larin RE:Заблокирован 5 дней alexk RE:Прошу переформатировать, распознать, etc... 1 неделя konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 2 недели Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 2 недели fixel RE:Пропал абонемент 3 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 месяц Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 2 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 2 месяца tvv RE:faq brainstorm =) 2 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 2 месяца larin RE:абонемент не обновлен 2 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 2 месяца sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 2 месяца Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 2 месяца Впечатления о книгах Oleg68 про Эндрюс: Икар [Icarus ru] (Триллер) 07 04 Отличный триллер. В напряжении держит до последних страниц. Очень неожиданный главный злодей и непредсказуемый финал. Оценка: отлично! decim про Горан Скробонья 07 04 Всё замазано серым. Снова привычные "уставился", ну куда без них. Словно гуглопер с посредственного английского перевода. Может быть в оригинале это интересно, а так - плохо. ЗЫ, в послужном списке транслейтора ещё есть ……… Irsanta про Данияр Саматович Сугралинов 06 04 Интересно. «Бывает и хуже» Алмазова и «22 несчастья» Сугралинова с одного образца писались? Irsanta про Игорь Алмазов 06 04 Интересно. «Бывает и хуже» Алмазова и «22 несчастья» Сугралинова с одного образца писались? mysevra про Вольнов: Ловчий желаний [litres] (Боевая фантастика) 05 04 Слишком витиевато на мой вкус. Много забавного, но лишнего, не по теме. Оценка: неплохо mysevra про Каляева: Порождения войны (Альтернативная история, Героическая фантастика, Исторические приключения, Самиздат, сетевая литература) 05 04 Для меня самая мякотка в книге – загадка, возможность строить предположения и угадывать, что же за всем этим скрывается. А тут – хороший язык, яркие персонажи, месмеризм, опять же, но той самой загадки нет, всё на поверхности. Вот это для меня минус. Оценка: хорошо mysevra про Пинтер: Симулятор убийств [litres] (Детективная фантастика, Триллер, Детективы: прочее) 05 04 Не скажу, что я в восторге, но, в принципе, неплохо. Оценка: неплохо udrees про Каменистый: Убийца легенд (Боевая фантастика, Фэнтези, Попаданцы, ЛитРПГ) 05 04 Отличное продолжение приключений попаданца в теле аристократа. Написано живо, красочно, с оттенками юмора, без всяких пошлостей. В книге хватает сражений с самыми разными противниками, для которых подбирается своя тактика. ……… Оценка: отлично! udrees про Володин: Газлайтер. Том 13 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 05 04 Дурацкая книга о слишком сильном телепате-школьнике, вчера закончившем школу, но успевшем стать супербизнесменом, приближенным Царя, еще и в другом мире захватил пару королевств, женился на 4-х девушках, одна из них не-человек, ……… Оценка: плохо udrees про Хендерсон: Книга о самых невообразимых животных. Бестиарий XXI века [litres] [IThe Book of Barely Imagined Beings: A 21st Century Bestiary ru] (Биология, Научная литература: прочее) 05 04 Я не очень понял по какому принципу автор отбирал животных для своей книги, я думал тут будут интересные факты о необычных животных, ну ладно там аксолотль. Но тут сборная солянка, все идет по алфавиту и видимо для соответствия ……… Оценка: плохо udrees про Макнилл: Моргенштерн (Боевая фантастика, Эпическая фантастика) 05 04 Просто пьеса, как у Шекспира и других. Никаких почти действий. Коротенький рассказ-пьеса, где примарх и Ариман идут и разговаривают. Не скажу что было интересно читать. Оценка: неплохо udrees про Френч: И настала полночь [ЛП] (Боевая фантастика) 05 04 Неплохой рассказик о ночи накануне великого сражения за Дворец Императора. Хорошо показано висящее напряжение, прям как 22 июня 1941 года. Ожидание конечно действует сильнее самого сражения. Оценка: неплохо больше впечатлений