Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ

Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ:

Варианты:
пе (не), оп (он), пи (ни), ва (за), пее (нее), опа (она)...

Прошу участвовать всех желающих.

Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ.
Собранная статистика еще больше упростит отлов косяков сканирования и, соответственно, позволит более качественно и быстро делать верстку отсканенных книг и быстрее находить косяки в уже сделанных книгах тем, кто занимается их правкой-вычиткой.

Сейчас данный скрипт у меня ищет:
- смесь латиницы с кириллицей во всех вариантах,
- смесь букв с цифрами,
- неправильные дефисы-тире,
- мусор после скана,
- концы строк без знаков препинания
- неполный курсив слова
- указанные выше типичные ошибки распознавания
и другие подозрительные места.

Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.

Комментарии

Не понимаю, зачем нужно останавливаться на каждом тире. Есть ведь отдельный скрипт "Дефис-тире".

TaKir
Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов
addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");

Добавил в поиск "мусора" ®°™εє
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");

shokons написал:
TaKir
Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов
addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");

Да, там забавный глюк... Это из-за дефиса. Если его перенести в начало или убрать вообще, то не ловит елочки в начале строки )
addRegExp("^[-\\].,:;!»\\?·)(]","","Найдено:знаки препинания в начале строки");

Понял. Прикольно. )))

XtraVert написал:
Кто-нибудь, выложите пожалуйста скрипт со всеми поисковыми строками, и закомменченый, где нужно... У меня с этим проблемы.

Присоединяюсь к данной просьбе. Установил вариант, предложенный shokons и уже опробовал. Чудная вещь.

TaKir написал:
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html

Спасибо! :)

TaKir написал:
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html

Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем!

час написал:

Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем!

А какие именно, не могли бы подсказать? ))

TaKir написал:
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html

Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать?

Tanja45 написал:
TaKir написал:
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html

Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать?

Да, должен работать... Только может (имхо) не отображаться статус найденной ошибки

Ради интереса попробовал на версии 2.0 BETA от 2008 года. Скрипт и там работает. Точнее, плюхи находит, но сообщение в строке статуса не пишет.

Да, возможность скриптам менять текст строки статуса SeNS добавил (специально для сабжевого скрипта) в какой-то из последних версий FBE, то ли 2.5, то ли 2.6.

Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел.

час написал:
Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел.

Проверил.
"П" вместо "и" находится нормально (так же, как и другие "отдельные буквы в пробелах")
Прилипшее тире - если это был примерно такой текст
Цитата:
господином Кроевым— вступила

То таки да - я такое не ищу, а меняю массово регеспом, который писал выше.
Меняет на такое:
Цитата:
господином Кроевым — вступила

То-есть вставляет пробел между последней буквой и тире

Так, что наверное вы просто ошиблись ))

shokons написал:

...Так, что наверное вы просто ошиблись ))

Скорее всего.
Сейчас смотрю стихи. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать. А в целом я очень доволен тем, что есть в настоящее время. Спасибо.

Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR?

Tanja45 написал:
Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR?

Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(

А о чем конкретно речь?
Можно пример привести? Сорцы там или скриншот из боди?

TaKir написал:
А о чем конкретно речь?
Можно пример привести? Сорцы там или скриншот из боди?

< p>< style name="a0">Да, она была умна. В первом же стихотворении, с ко­торым она меня познакомила, «Балладе о ночных часах» ван Вейка Лау, идет речь о нескольких часах без­умной, пьяной страсти во всех подробностях — и эро­тичных, и печальных. А в конце наступает рассвет; герой встречает утро со стаканом в руке. Для него наступает «час темной жажды». После очередного соития я лежал на ней, усталый, опустошенный, а она шептала мне на ухо стихи — так тихо, что приходилось напрягать слух. А когда я наконец услышал, для меня открылся другой мир, слова приобрели смысл. Наверное, тогда я в пер­вый раз понял, что такое настоящее искусство.< /style>< /p>
   < p>< style name="a0">Бетта объяснила, что в сексе всегда так: посткоитальная депрессия — проклятие мужчин. Она привела в пример французов, которые называют оргазм «ма­ленькой смертью», но пояснила, что секс с любимым человеком — всегда исключение из общего правила. Секс с любимым человеком сродни исцелению от всех недугов. Ее слова произвели на меня неизгладимое впечатление. Они служили мне путеводным огнем в поисках единственной великой любви, предзнамено­ванием и предвкушением которой были отношения моих родителей, а потом и рассуждения Бетты Ван­драг. Мне казалось, что жизнь обязательно должна по­дарить мне такую любовь.< /style></p>

Это ещё приличный вид. Бывает внутри строки стиль меняется. :(
Бывает только при копипасте.

Действительно, штука неудобная и явно лишняя. Я избавляюсь путем замены. Выделяю тег "style" - заменяю на ничего.

golma1 написал:
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(
Благзаинф. :( Останусь на 2.4. Только я все равно не понимаю, что туда можно добавить из более поздних версий, а что не заработает. Скрипт Sclex-а/TaKir-а запихаю - вот этот http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html. А что еще?

golma1 написал:
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(

Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.

sd написал:
golma1 написал:
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(

Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.

Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало.

golma1 написал:
sd написал:
golma1 написал:
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(

Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.

Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало.

И у меня остались - меньше, но все равно куча. Даже если все в стиль "обычный текст" перевести с сохранением курсива и болда, все равно эти проклятые разные стили откуда-то вылезают, РАО их побери! ((((

Было давно, на тулзах или первой двойке. Не выложите где-нибудь исходники, потестиовать бы?
Кстати, раз были версии ФБЕ не подхватывающие стили, то стоит дать знать Сенсу, может прикрутит опцию Отключить перенос стилей
UPD
Оставил сообщение в Группе.

sd написал:
Не выложите где-нибудь исходники, потестиовать бы?

Какие исходники? Дока после ФР?

его самого, если сохранились, конечно.

sd написал:
его самого, если сохранились, конечно.

Угу. Я как раз пробовала на небольшом файле.
Вот он - сразу после ФР. После замены на единый шрифт и копипаста в ФБЕ осталось 2 или 3 стиля.

http://www.multiupload.com/TPF5MG47VW

Спасибо. Скачал и пробовал, и пробовал - ничего хорошего. Отвлекся потроллить на флибусте, вернулся, открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad

Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE.

Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится.

Я ничего не менял, какой был размер шрифта, такой и оставил. Ненавистные "стили" не перенеслись.

Ничего не скажу. Молчать буду молча. Ожидая вечера и глядя на бутылку коньяка, а там пять звезд - в каком же он звании?

Алексей_Н написал:
Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE.

Нет, там с абзацами не всё в порядке получается.
А при копировании из Ворда после предварительных танцев с бубном - хорошо. Спасибо, sd!

sd написал:
открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного!
Лекарство - WordPad
Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится.

Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.

TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...

У меня 2.4, на нем отлично скрипт юзается. Зачем мне отдельная табличка с тем, что именно и в каком количестве скрипт нашел? Курсор ставится туда, где подозрение на косяк, можно сразу править, можно идти дальше.
Типа только ради общего отчета табличка? Не понимаю, в чем плюс более поздней версии ФБЕ, если речь именно о данном скрипте Sclex-a (а не моем).

Может кому потребуется:
addRegExp("^[a-zа-яё\d]","","Найдено:маленькие буквы, цифры в начале строки","-stanza -poem");
Находит строки, начинающиеся с маленькой буквы или цифры, кроме стихов.
Объясню- зачем добавил эту строку. ФР часто определяет цифры, как список и doc2fb их съедает. Остаётся начало строки в примерно таком виде: июня началось наводнение

Цитата:
. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать

Попробую
Посмотел - там вроде стоит ограничение на стихи, но попробую у себя воспроизвести и отпишусь потом

Посмотрел - у меня стихи пропускает, да и в строчке скрипта это отражено
-title -subtitle -stanza -poem");
А стихи у вас уже выделены тегами stanza -poem ? Если ещё не выделены, тогда правильно всё - будет спотыкаться о запятые.

Большое спасибо TaKir!
Отловились шесть ошибок OCR, не найденных иными всякими проверками. (FBE 2.4) Только не всегда понятно, что скрипту не нравится - то ли он нашел латиницу в кириллице, то ли просто буквосочетание подозрительное. Но это мелочь, на самом-то деле. Спасибо еще раз.

Вот для этого-то и служит сообщение в строке статуса: пишет каждый раз, что́ именно найдено. Так гораздо удобнее.

У меня кроме TM именно trade mark) ещё постоянное превращение
Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ

Belomor.canal написал:
У меня кроме TM именно trade mark) ещё постоянное превращение
Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ

По ТМ (trade mark) я уже писал:
Откройте скрипт блокнотом, найдите строку с комментом -----Найдено:мусор после скана------
И замените её на эту
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Здесь я добавил элементы ®°™©εβє Можете добавить ещё какие считаете нужным (без пробелов, запятых)
Насчёт цифр - попробуйте на проблемной странице книги в ФР включить режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ.
Имхо легче один раз Фаню натаскать, чем постоянно искать огрехи.

Знак препинания и после него тире без пробела (обычного или неразрывного).
Пробел перед знаком препинания.
[\.:\?…][^А-Яа-я]*[а-я] - строчная буква в начале предложения.

Рыжий Тигра написал:
Знак препинания и после него тире без пробела (обычного или неразрывного).
Пробел перед знаком препинания.
[\.:\?…][^А-Яа-я]*[а-я] - строчная буква в начале предложения.

Тигра, такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(

golma1 написал:
такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(
Юзаю FBE 2.4 - всё, что сверх того, на win2000 отказывается работать. :-(

Твои варианты лечатся банальной генуборкой и данным скриптом.

TaKir написал:
Твои варианты лечатся банальной генуборкой и данным скриптом.
"Генеральная уборка" гадит: превращает ошибку сканирования - паразитный дефис после знака препинания - в полноценное тире с отбивкой пробелами, потом его хрен найдёшь, кроме как глазами. :-( Твой скрипт от 24/01 не берёт, более свежие пока не пробовал.
Кстати, "[,:;][^А-Яа-я]*[А-Я]" - эти тоже не берёт.

Рыжий Тигра написал:
TaKir написал:
Твои варианты лечатся банальной генуборкой и данным скриптом.
"Генеральная уборка" гадит: превращает ошибку сканирования - паразитный дефис после знака препинания - в полноценное тире с отбивкой пробелами, потом его хрен найдёшь, кроме как глазами. :-( Твой скрипт от 24/01 не берёт, более свежие пока не пробовал.
Кстати, "[,:;][^А-Яа-я]*[А-Я]" - эти тоже не берёт.

Юзай массовую замену "дефис+пробел" на "дефис" перед ГУ. Потом пройдись скриптом "Слова".

Рыжий Тигра написал:
golma1 написал:
такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(
Юзаю FBE 2.4 - всё, что сверх того, на win2000 отказывается работать. :-(

Но скрипты-то можно поставить. Думаю, они все должны работать и под 2.4.
http://scripts.fictionbook.org/

Страницы

X