Курьезы сканировщика

Forums: 

Забавные нелепицы иной раз рождаются при сканировании. Вот, например, сегодня вместо "высокопоставленным лицам" вдруг возникло "высокопоставленным яйцам".
А чуть ранее слово "мультиканальный" было разделено на два и получилось "мультик анальный".

Vadi написал:
golma1 написал:

Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.

в настройках экспорта djvu поставил 150dpi...

Я pdf или djvu(реже) всегда делаю: так удобнее вычитывать, чем по сканам, да и пропавшую часть текста можно по ходу скопипастить...

Ясно. Я djvu делаю под заказ - поэтому с сохранением разрешения исходника.

А pdf для вычитки делаю из сканов. Когда-то давно Lord KiRon научил. ;)

Vadi написал:
На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск

Загоняю в Ворд Если сноски в ФР стоят стилем сноски, то получаются сносками в Ворде. Проверяю сноски если чего-то не достает - доставляю. Картинки стоят на своих местах. Можно подвигать, чтоб не разрывали абзац. Проверяю Орфо и сохраняю. Открываю В FBD. Сноски стоят все в конце. Выделяю все сноски и в Меню "format" щелкаю "mark note block". Все сноски становятся фиолетовыми. Устанавливаю стили Заголовок по уровням. Сохраняю fb2. А дальше скриптами в FBE.

Этот алгоритм мне знаком давно и с ним нет проблем.
ФР пользуюсь еще с версии 2.0. )
С 8 ФР нет проблем совсем, но Голма так расхвалила 11 ФР, что хочется выяснить, может и пора переходить, но пока впечатления от 11 версии не очень.
Возможно, руки кривые у меня, хз.

Сижу на 9-ке - устраивает.
Пробовал 11 - и кстати, тоже не очень... Особых плюсов кроме прямого экспорта в fb2 не прочувствовал. А девятка тоже хорошо распознает... Короче - до 11-го пока не дорос...

На примере хорошего издательского текстового pdf экспериментально выяснил, что 11 версия ФР уступает в аккуратности распознавания старой 8 версии ФР.
8 версия идеально распознала текст (есть режим "извлекать тест из pdf"), но не понимает сносок, распознает как обычный текст.
11 версия в режиме тщательного распознавания создала сноску, но потеряла курсив в этой сноске.
Т.е явный софтовый регресс при работе с хорошими исходниками в 11 версии ФР (

На плохих исходниках (типа скриншотов) в 11 версии все супер, восьмерка просто выдает нечитаемый бред.

TaKir написал:
Этот алгоритм мне знаком давно и с ним нет проблем.
ФР пользуюсь еще с версии 2.0. )
С 8 ФР нет проблем совсем, но Голма так расхвалила 11 ФР, что хочется выяснить, может и пора переходить, но пока впечатления от 11 версии не очень.
Возможно, руки кривые у меня, хз.

При хороших сканах или pdf с ФР11 нет проблем с распознаванием. Но проверятьнадо. Я сначала проверяю, как он расставил области в том числе их нумерацию. Потом даю распознать. Потом просматриваю каждую страницу по ошибкам и сноскам.
Единственно создает очень много стилей. Практически каждый абзац считает стилем. Но по сравнению с прошлыми версиями значительно лучше. А я последовательно прошел все начиная с 4. Единственно словарь без морфологии. Основная проверка в Ворде Орфо и скриптами в FBE.

Ну вот, превратили развлекательную тему в Очень Важную Техническую Тему!
Ну ничего святого у людей нет!!!))))

laurentina1 написал:
Ну вот, превратили развлекательную тему в Очень Важную Техническую Тему!
Ну ничего святого у людей нет!!!))))

Вот именно!

А курьезы со сканировщиками разные бывают.

Мне, например, известна куча историй о падении сканировщиков в яму. Или как сканировщика приняли за важную птицу.

Свеженькое:
Мистический триппер...

Симпатично! Любопытно - в какой момент сие обнаружилось? И ещё интересует - было-ли второе слово на лазурном фоне в документе ПЧ?

XtraVert написал:
Свеженькое: Мистический триппер...

*бу-га-га* Прикольно! Самое главное в этом словосочетании - слово "мистический"!

Зы: Понится, у меня тоже как-то Фаня слово "киллер" переименовал в "шиллер" *немного не в тему, но...* И вообще я заметила, что не любит Фаня сдвоенных букв!

U-la написал:
...И вообще я заметила, что не любит Фаня сдвоенных букв!

Зато почему-то очень любит "нуда" и "аты". Подгонкой под словарь не объяснить. И слова склеивать странным образом, типа "Нонашдолгнедопуститьубийствадругихлюдей" (это самое длинное из попадавшихся). На БСЧ еще тоже набралась небольшая коллекция прекрасного.

J_Blood написал:
U-la написал:
...И вообще я заметила, что не любит Фаня сдвоенных букв!

... И слова склеивать странным образом, типа "Нонашдолгнедопуститьубийствадругихлюдей" (это самое длинное из попадавшихся).

подобная кака, похоже, зависит от качества печати, в старых книгах не встречается

Убило наповал:

Цитата:
...наших подданных? - ...наших помойных?

Функции и графини.

Аватар пользователя Антонина82

Книга 1982 издания, постоянно путаются н,п,и. Из фразы:"Ты, запрягающая оленей И ты, стирающая ногами белье" получилось - "Ты, запрягающая оленей И ты, стирающая йогами белье".

Да, мысли о чудесном фанатике действуют весьма положительно (в тексте это гранатик - деревце)

.

Бывало и так, что он оговаривался и называл Алехина его настоящей срамилией. (фамилией)

гуридетря жди - придется идти

В курсиве иногда "ы" любит распознаваться как "и". Бывает забавно: О, не забить мне тебя, любимий!

Аватар пользователя Антонина82

Улыбнул сейчас Файнридер. Делаю книжку уругвайского автора Онетти. И строка "что могло бы удержать сеньора Ларсе-" им распознана как "что могло бы удержать сеньора Ларина"
Так что привет всем из Уругвая! :)
Скриншонт прилагается

Аватар пользователя Антонина82

Порадовал вновь ФР. Хотя книжка с очень плохим качеством текста. Хороша хоть ранее загнала ноет-поет в словарь, иначе бы глаз не заметил

Цитата:
бывает же такое, думала я, в одной женщине — все: красива, неотразимо обаятельна, пластична, чудесно ноет, непринужденно танцует и при этом талантливая актриса!

А что? Прелестная женщина даже ноет чудесно.

}}
Вспомнил пару моментов из "Рабы любви", где Соловей удалось совершить актерское чудо и соединить несоединимое: "чудесно" и "ныть"

Аватар пользователя Isais

Вчера столкнулся, чуть не пролетел мимо: распозналось "в кожаной шишечной кобуре".
Оказывается, все-таки "в кожаной наплечной кобуре". :)

Аватар пользователя Антонина82

Утро начинается с улыбки...

Цитата:
Твой кабинет, он похож скорее на храм, в который ты уходил на целые часы от своего счастья, от своего теплого гнездышка, от коралловых губок Бронки, чтобы терзать там свое сердце, чтобы тосковать о том, что дает тебе чувство странного наслаждения, и всеми сипами рваться к тому, что зажигает твою кровь огнем безумия.

Нужно силами.
Задумалась, почему у ФР11 это слово вошло в словарь. Оказывается всё верно

Аватар пользователя Антонина82

Веселье продолжается...

Цитата:
Бронка прианально смотрит на нее

Надо пристально.
Вообще-то с этой книгой весьма много странного. Может Мизулина предупреждает: Не делай эту книгу, Тонечка!!!
Аватар пользователя Isais

Кто-то выгрузил текст из FR прямо в EPUB, минуя "лишний этап" вычитки, и залил. Попадаются отменные курьёзы:
стал с ним лицом к яйцу (конечно, лицом к лицу), вой-пса = войска, однако, паяажа = папаха (еле догадался!).

Аватар пользователя Антонина82

ФР12 - хулиган :)
Специально привожу скрин страницы, а то мне могут не поверить
Очень лирическое стихотворение Туманяна и так испоганить
УЖ НЕ ВЕРНУТЬ
То чувство выжжено дотла.

Которым ты пренебрегла.

Оно со вздохом улетело.

Теперь то место опустело

Уж не взывай, не плачь, мой друг, —

От слез твоих проснутся вдруг

Печальные воспоминанья,

Но поздно воскрешать желанья.

Антонина82 написал:
ФР12 - хулиган :)
Специально привожу скрин страницы, а то мне могут не поверить


Слов нет!
Ох, Фаня, ох и похабник!

«Алиса в Зазеркалье».
Часово – жиркие товы.
И джикали, и джакали в исходе.
Все тенали бороговы.
И гуко свитали оводи.
Мне одному кажется, что Кэрролл сталкивался с ФР ?

Аватар пользователя Isais

serg709 написал:
«Алиса в Зазеркалье».
Часово – жиркие товы.
И джикали, и джакали в исходе.
Все тенали бороговы.
И гуко свитали оводи.
Мне одному кажется, что Кэрролл сталкивался с ФР?

Это ФР сталкивался с Кэрроллом. И набрался у него дурного.
UPD. Вполне кэрролловское словечко: зушожество. По-русски это будет множество.

Название сборника Телегиной "Душные бандиты" - [ушные бананы

Кос-какис = кое-какие

в 1ггоге = в итоге
Какого раз = Как-то раз

В инициалах П. упорно распознается как Г1.

Аватар пользователя Isais

В автобиографии (летчика и яхтсмена): во времена, о которых я пищу...

Осарлсп 0'Хера = Скарлетт О'Хара.

Цитата:
Англия отдельно, Шотландия, Ирландия, Узлы - отдельно.

Бывает и такое.

:))

Да , Миши - мы ! Да, ненасытны мы !
Мы с черными и жадными очами!
Мильоны - вас. Нас - тьмы, и тьмы, и тьмы.
Попробуйте, сразитесь с нами !
.
Для вас - века, для нас - единый час.
Благословен наш труд, покрытый мраком !
Сливаем текстов тьму в один кипящий чан
И пожираем с чавканьем и смаком !

monochka написал:
Да , Миши - мы ! Да, ненасытны мы !
Мы с черными и жадными очами!
Мильоны - вас. Нас - тьмы, и тьмы, и тьмы.
Попробуйте, сразитесь с нами !
.
Для вас - века, для нас - единый час.
Благословен наш труд, покрытый мраком !
Сливаем текстов тьму в один кипящий чан
И пожираем с чавканьем и смаком !

Алексей_Н написал:
Забавные нелепицы иной раз рождаются при сканировании.
"Эт' хорошо, эт' здорово, вы м-молодец!.." (с) Плохо то, что такие курьезы крайне сложно обнаружить, поскольку они вполне себе словарные и их виновник, как правило, пресловутый "интеллект" FR, то есть тупая подгонка к имеющемуся словарю. Поэтому позволю себе напомнить что нужно сделать, дабы и чтобы избежать такой подгонки. Да, ошибок вылезет несколько больше, но словарь в них участвовать не будет.
Цитата:
Английский
Меню Tools -> Language Editor -> Выбираем язык -> New -> Соглашаемся создать копию (Create a new language based on existing one) -> Раздел "Dictionary", кнопка "None".
Русский
Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел "Словарь", кнопка "Нет".

Этого и сейчас можно достичь. Для этого нужно создать язык с нужным алфавитом, отключить словарную проверку и внимательно просмотреть его свойства на страничке Advanced (Дополнительно). Важно: правильно указать пунктуаторы и выключить (либо оставить включённой, но делая это осознанно) галочку "в языке есть аббревиатуры, числа и т.п."

GMAP написал:
Алексей_Н написал:

Цитата:
Английский
Меню Tools -> Language Editor -> Выбираем язык -> New -> Соглашаемся создать копию (Create a new language based on existing one) -> Раздел "Dictionary", кнопка "None".
Русский
Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел "Словарь", кнопка "Нет".

Этого и сейчас можно достичь. Для этого нужно создать язык с нужным алфавитом, отключить словарную проверку и внимательно просмотреть его свойства на страничке Advanced (Дополнительно). Важно: правильно указать пунктуаторы и выключить (либо оставить включённой, но делая это осознанно) галочку "в языке есть аббревиатуры, числа и т.п."


Курьезов будет меньше, но ошибок наделает в десятки раз больше.

izekbis написал:
Курьезов будет меньше, но ошибок наделает в десятки раз больше.
Вольному воля, спасенному рай. Если скан качественный, то ошибок будет далеко не так много, как кажется. Зато ошибки будут не "подгоночные", а чистА орфографические, каковые легко ловятся на автомате.
Аватар пользователя Антонина82

GMAP написал:
Алексей_Н написал:
Забавные нелепицы иной раз рождаются при сканировании.
"Эт' хорошо, эт' здорово, вы м-молодец!.." (с) Плохо то, что такие курьезы крайне сложно обнаружить, поскольку они вполне себе словарные и их виновник, как правило, пресловутый "интеллект" FR, то есть тупая подгонка к имеющемуся словарю.

Вот пример работы "интеллекта" FR. Он решил заменить слово "турист" на слово "дурист", которого нет в словаре. Почему он так решил... Хотя, может в этом "великая сермяжная правда"
Аватар пользователя Isais

Когда заменит "Госдуму" на "Госдупу", это и будет торжеством машинного интеллекта.

Антонина82 написал:
GMAP написал:
Алексей_Н написал:
Забавные нелепицы иной раз рождаются при сканировании.
"Эт' хорошо, эт' здорово, вы м-молодец!.." (с) Плохо то, что такие курьезы крайне сложно обнаружить, поскольку они вполне себе словарные и их виновник, как правило, пресловутый "интеллект" FR, то есть тупая подгонка к имеющемуся словарю.

Вот пример работы "интеллекта" FR. Он решил заменить слово "турист" на слово "дурист", которого нет в словаре. Почему он так решил... Хотя, может в этом "великая сермяжная правда"

Посмотрите на скан. Наверняка у буквы Т какая-нибудь грязь.

Страницы

X