Не, пока с ПЧ (ФР) не получиться.
Там есть возможность, создавая новый язык создать словарь на основе регекспов, но, похоже возможности скудные, да и как прикрутить неясно. Вот когда они дадут возможность плагинами или как-нить по другому "прикручивать"
проверку регекспами - тогда - другое дело!
А так да - для ФБЕ. При условии что есть дежавюха (пэ-дэ-эф-ка) с текстовым слоем - енто не проблема, тем более,
если, как говориться, "поезд ушел" - т.е. ПЧ/(ФР)-ного документа вже нема!
Кстати есть кое-какие мысли по поводу совместной работы ФБЕ и файла с текстовым слоем. Размышляю...
Скрипты и регеспы
Сообщений 91 страница 120 из 1007
Поделиться912012-08-06 22:03:34
Поделиться922012-08-06 22:08:00
И еще. Если этот скрипт 100% ловит этот разрыв абзаца, то не факт, что лучше просмотреть, скажем 500 страниц текста? а не прогнать скриптом и в 90% случаем отмести найденное, как ложное срабатывание, не прибегая к оригиналу? Опять-же, ИМХО.
Поделиться932012-08-06 22:34:29
И еще. Если этот скрипт 100% ловит этот разрыв абзаца, то не факт, что лучше просмотреть, скажем 500 страниц текста? а не прогнать скриптом и в 90% случаем отмести найденное, как ложное срабатывание, не прибегая к оригиналу? Опять-же, ИМХО.
Ну может быть... Будем пробовать. Спасибо.
Поделиться942012-08-07 12:16:45
Отчёт. К сожалению, не слишком представительный, поскольку в книге нашёлся только один случай.
В ФР место выглядит так:
При экспорте в FBE и прохождении скриптом картинка выглядит так:
По-моему, это просто совпадение, нет?
Скрипт увидел предыдущую короткую строку, но не среагировал на нужную.
Или "Обратите внимание на предыдущий абзац" надо интерпретировать иначе?
Сам скрипт очень наглядный и интерфейс нравится. Если бы он ещё искал нужные места.
В любом случае, Алекс, огромное спасибо, что Вы обращаете внимание на нужды верстальщиков и Вам хочется нам помочь.
Забыла сказать: буду проверять дальше.
Отредактировано golma1 (2012-08-07 14:53:12)
Поделиться952012-08-07 20:14:45
Здравствуйте!
И вам спасибо за тестирование! Скорее всего, скрипт нуждается в доработке по части формулировок. А отработал (спозиционировал) он правильно!. Уже писал - абзацы проверяються последовательно-попарно друг за другом.
Я внятен?!
Принято (уже писал), что длина строки (в бумажной книге не долее)- 57 символов - т.е. если больше - абзац стало быть - не наш случай.
А вот, если - да, то проверяется плотнее. Может правильнее во всплывающем окошке писать типа: "Возможный разрыв абзаца в строке!" ? (Курсор так и будет позиционироваться, как сейчас).
Поделиться962012-08-07 20:19:47
Дополнительно.
Фактически скрипт ловит относительно короткие (размером не более бумажной строки) подряд идущие абзацы,
и обращает внимание, что в один из них начинается на дефис/тире. Т.о. подозрение падает на второй абзац (из пары), который и вызывает смутные сомнения, а не разрыв ли это абзаца. Как то так.
Поделиться972012-08-08 00:03:58
И еще.
Для сокращения кол-ва ложных срабатываний, наверное правильно будет анализировать не два подряд, а три абзаца, и если третий начинается с тире/дефиса, то это не наш случай. С другой стороны - возможно это ошибка распознавания диалога (пропущено тире). Надо поэксперементировать! Пока текущий вариант можно не использовать. Как исправлю - отпишусь.
Поделиться982012-08-08 09:26:31
Дополнительно.
Фактически скрипт ловит относительно короткие (размером не более бумажной строки) подряд идущие абзацы,
и обращает внимание, что в один из них начинается на дефис/тире. Т.о. подозрение падает на второй абзац (из пары), который и вызывает смутные сомнения, а не разрыв ли это абзаца. Как то так.
Да, я это поняла.
В приведённом примере он посчитал, что строка с курсором оторвана от предыдущей строки (посчитал знаки в реплике "Чтоб меня черти взяли..."). А на самом деле оторвана была следующая строка от неё.
При этом можно видеть, что наличие тире вовсе не обязательно.
Я внятна? (с) Очень мне нравится Ваша формулировка.
Может правильнее во всплывающем окошке писать типа: "Возможный разрыв абзаца в строке!" ? (Курсор так и будет позиционироваться, как сейчас).
При указанном положении курсора это более ясная формулировка. Но только в случае, если будут изменены критерии поиска. Потому что, думаю, приведённый случай - это просто совпадение: на самом деле скрипт нашёл сомнительное место по своим критериям. То, что эта же строка оказалась разорванной, - случайность.
Я всё-таки попробую ещё на парочке книг. Может, выявится какая-нибудь закономерность.
Поделиться992012-08-08 09:27:27
Для сокращения кол-ва ложных срабатываний, наверное правильно будет анализировать не два подряд, а три абзаца, и если третий начинается с тире/дефиса, то это не наш случай.
Срабатываний, кстати, было не так уж много.
Но книга вообще очень хорошо распозналась, так что Вы правы - надо экспериментировать.
Поделиться1002012-08-08 20:53:21
Добрый вечер!
Новая версия: http://rusfolder.com/32033804
Изменений довольно много - добавился стартовый диалог, учитываются ТРИ абзаца подряд, уточнены формулировки.
В стартовом диалоге указывать ТОЧНОЕ кол-во символов на строку - необязательно. 55 и так с запасом. В книгах, как правило: от 48 до 53-х. Но вот, если, скажем длина строки (средняя по книге) - 40 символов (в т.ч. пробелы и знаки препинания) - то лучше указать - 45. Или, скажем, что-то больно убористо-широкое, в среднем - 67 символов.
Лучше указать - 70. А так - можно просто "хрясать" Enter.
Из-за анализ трёх абзацев подряд уменьшилось кол-во "ложных" срабатываний, ну тут всё зависит от автора, как он написал.
Курсор в новой версии позиционируется на третьем (из тройки) абзаце и выводит предупреждение с более пристойной формулировкой.
Поганял на некоторых своих выложенных книгах. Кое-где обнаружил - увы и ах! - разорванный абзац. По одному-два на файл. Халтура-лайт, стало быть.
C другой стороны - работой скрипта полностью удовлетворен. Впредь разорванный абзац - не пройдёт!
Я внятна? (с) Очень мне нравится Ваша формулировка.
- ага...
Спасибо! На самом деле это цитата (неоднократно упоминаемая в книге Ю.Полякова "Грибной царь").
Самому нравиться.
И вдобавок - недруги величают Юрия Полякова как "Юркий Подляков" - не перевелись таланты!
Спасибо за внимание!
Удачи!
Поделиться1012012-08-08 22:27:36
Собралась как раз написать следующий отчёт, но проверю сначала новый вариант.
Поделиться1022012-08-08 22:45:41
Рассказываю.
При прогоне первым вариантом скрипта было обнаружено два места, схожих с описанным выше. Второй вариант их тоже нашёл. За счёт более точной формулировки вопросов не возникло.
Первый вариант один раз сработал здесь:
Что, конечно, неправильно. Зато второй вариант сработал правильно.
А теперь плохие новости, к работе скрипта отношения не имеющие.
В тексте обнаружилось ещё два разрыва, критерии которых, насколько я понимаю, никак не подпадают под скрипт.
Вот одно из них:
Поделиться1032012-08-08 22:56:59
На первый вариант мона и нуна забить!
У... Мелковато видно... Но... Мда...
Непонятно за что "цепляться"!
Разве что, "По ..." начинается с нулевой позиции в окне ПЧ.
С ходу предложить не могу ничего!
Поделиться1042012-08-08 23:03:48
А второй случай?
Поделиться1052012-08-08 23:04:02
Разве что, "По ..." начинается с нулевой позиции в окне ПЧ.
Кстати, да, я как раз хотела сказать. Я задумалась, как я определяю "спорное место", ведь смотрю я только на окно "Текст". И поняла, что бессознательно искала именно такие абзацы - без отступа.
Я сейчас наловчилась, листаю довольно быстро. Иногда приходится возвращаться на предыдущую страницу, потому что глаз за что-то "зацепился". Специально проверила - речь идёт именно о таких абзацах.
Но для скрипта это ни разу не помощь. Поскольку в ФБЕ такой абзац выглядит обычно, ничем от других не отличаясь.
Поделиться1062012-08-08 23:04:54
А второй случай?
Не сделала сразу скриншот, теперь не могу найти. Сорри.
Но тоже - НЕ после реплики в диалоге и НЕ в первой строке абзаца.
Поделиться1072012-08-08 23:15:09
Вы довольно немилосердны к своим глазкам!
Ок! Поразмышляю на досуге! Но ничего не обещаю...
Поделиться1082012-08-08 23:18:20
Вы довольно немилосердны к своим глазкам!
Проклятый перфекционизм!
Поделиться1092012-08-09 18:49:34
Сегодня скрипт не нашёл два места с "типичным" разрывом строки.
Поделиться1102012-08-09 20:36:59
Добрый день!
Ага... Ненаходчивость объясняется тем, что посчитал: первая (диалоговая) строка не слишком по длине должна отличаться от второй (ошибочно разорванной). Считал, что эта дельта длин не больше 5. Просчитался...
Если есть интерес продолжить эксперимент, то либо могу выложить исправленную версию, либо в 36-й строке скрипта (считая от верха), конкретно такую:
var Delta = 5;
нужно изменить на:
var Delta = 20;
- пожалуй должно хватать и ложных срабатываний много не лезть. Полагаю справитесь!
Была мысль вынести этот параметр в диалоговое окно, (20 - скажем по-умолчанию), но не подобрал
внятной формулировки, как его обозвать.
Может есть идеи?!
И наконец, я внятен?!
И, конечно, спасибо!
Поделиться1112012-08-09 23:48:21
Я исправила и скрипт сработал правильно.
Как назвать "дельту", может, и можно придумать, но, боюсь, будет выглядеть пугающе для нубов. Чем меньше настроек, тем проще новичкам. Их и так само слово "скрипты" пугает.
Лучше цифру подобрать эмпирически.
Потестируем ещё на нескольких книгах.
В любом случае, это, конечно, подмога. Бывают ситуации, когда нет просто сил просматривать ещё раз книгу, особенно, если она большая по объёму. А скрипт выловит хотя бы "типичные" разрывы. Да и "нетипичные" встречаются не так чтобы часто. В определённых ситуациях можно пренебречь.
Спасибо.
P.S. Кстати, в этой книге (после исправления скрипта) было всего 1 ложное срабатывание.
Отредактировано golma1 (2012-08-09 23:49:26)
Поделиться1122012-08-10 07:21:25
Уря!
Та отож! Нубы!
Правильно, наверное, будет увязать эту "дельту" с параметром "длина строки" - где-то на уровне 0.35-0.45.
И не афишировать этот параметр!
Сильно завышать - полезут "ложные" - может и немного, но полезут. Т.е. от "ложных" никуда не деться, но лучше - перебдеть!
А вот с тем другим случаем "разорванности" пока плохо.
Удачи!
Поделиться1132012-08-10 13:56:57
Моё почтение!
Значит, так! Зародилась новая идея... Размышляю! Существенным
подспорьем будут отдельные jpg-файлы тех страниц, где скрипт "промахивается", либо вообще "мышей не ловит" - a-la кусман скрипта о событиях в аббатстве (/монастыре?) на моё мыло. Ну или хотя бы скриншоты покрупнее.
Поделиться1142012-08-10 16:08:49
Упс!
В последнем сообщении, вместо:
a-la кусман скрипта
следует читать: a-la кусман скрина
Поделиться1152012-08-10 18:14:02
подспорьем будут отдельные jpg-файлы тех страниц, где скрипт "промахивается", либо вообще "мышей не ловит" - a-la кусман скрипта о событиях в аббатстве (/монастыре?) на моё мыло.
Будет сделано.
Но сейчас возникнет небольшая пауза в работе. Сын приезжает в гости. Так что на несколько дней я выпадаю.
Поделиться1162012-08-11 12:51:33
Моё почтение!
Ок!
Хотя по размышлении, пришел к выводу, что пожалуй примеры страниц не нужны.
Проанализировав имеющиеся скриншоты и собственные jpg-и, djvu-и пришел к
Короче - идея такая: абзац рвёться в тех местах, где посередине его на бумажном носителе некая строка кончается точкой. Если абзац разрывает страница - ес-но наш случай! Первая строка, заканчивающаяся точкой - тоже подпадает под этот случай. (Если перед ней однострочный диалог - катализатор разрыва.). Притом, разрыв происходит не всега, но если происходит - то только в этом случае: строка (книжная) заканчивается точкой, близкорасположенной к правому краю страницы. Вот этот-то случай я и собираюсь "ловить". Обоснованно предполагаю, что удасться, но не без: 1. лишних телодвижений и 2. некоторого кол-ва ложных срабатываний.
Но, похоже, дело того стоит!
Да ещё - всё зто планирую "ловить" ДО создания FB2-файла из ПЧ.
Я внятен?!
Поделиться1172012-08-12 12:49:56
Притом, разрыв происходит не всегда, но если происходит - то только в этом случае: строка (книжная) заканчивается точкой, близкорасположенной к правому краю страницы.
Совершенно верно, отлично сформулировано.
Да ещё - всё зто планирую "ловить" ДО создания FB2-файла из ПЧ.
Вау! Это - лучшая из новостей.
Поскольку предполагает возможность сразу увидеть, "наш" ли это случай. Если получится, Вы - гигант. И если не получится, тоже.
P.S. Пока сын отсыпается, делаю потихоньку книги. В последней скрипт выловил все (2) "типичные" разрывы. "Нетипичных" не наблюдалось. Количество ложных срабатываний - 2.
По-моему, отличный результат.
Поделиться1182012-08-12 14:00:19
Здравствуйте!
Получиться-получиться!
Спокойствие, только спокойствие! (с)
Отличные новости! 2+2 - это, действительно, здорово! Такого и не ожидал. Но, предполагал!
Работа с новым скриптом тоже движется. И успешно. Думаю так - если мой новый способ "отлова разрыва" будет признан годным, то этот нынешний скрипт сгодится для работы, как сейчас; и если не пользоваться новым. Просто смысла не будет. Посмотрим. Кстати, подумал, что по-новому мона будет достаточно легко "ловить" стихи в тексте,
ну и "протоколировать" этот факт. Ок, это будет - "доработка-2"
Пусть сначала заработает "базовая версия".
Удачной охоты! (с) т.е. - работы.
Поделиться1192012-08-12 15:22:38
что по-новому мона будет достаточно легко "ловить" стихи в тексте,
Тоже хорошая тема.
Поделиться1202012-08-13 21:03:17
Я что-то запуталась, что надо присылать.
На всякий случай вот ссылка на "нетипичный разрыв": скан и скриншот.
Если не надо, то и ладно.
Вотти, обрати внимание на хостинг - для него есть аддон для ФФ. Очень удобно.
И сразу ещё один: скан и скриншот.
В обоих случаях - в начале строки Т, которое неправильно распозналось.
Отредактировано golma1 (2012-08-13 21:09:51)
Быстрый ответ
Вы здесь » Графика » Остальные программы » Скрипты и регеспы