встречаем: Наблюдатель, он же Spotter-3.
Просим! Просим!
Графика |
Привет, Гость! Войдите или зарегистрируйтесь.
Вы здесь » Графика » Остальные программы » Скрипты и регеспы
встречаем: Наблюдатель, он же Spotter-3.
Просим! Просим!
Моё почтение!
Просим! Просим!
Как и обещал прогу выложу сегодня, после 19-00 местного - поисправляю недочёты.
А пока - что-то типа инструкции.
1. Прога Spotter3.exe - на скриптах в данном случае далеко не уедешь. Exe-шник смирный. В системный реестр ничего не пишет, лишних tmp-файлов не создаёть, в инет не просится. К жилищным условиям неприхотлив - приткнуть мона в любом месте.
2. К проге прилагается Spotter3.ini - текстовый файл:
[PATH]
BookPath=[диск]:\[папка]\[подпапка и т.д.?]\
[LOG]
LogCreate=0
[папка] - в данном случае корневая папка с подпапками(?) гиде наши txt-htm-файлы.
Типа:
Содержимое папки E:\FB2\Books4spotter
<DIR> .
<DIR> ..
<DIR> Evgenidis
<DIR> Golova
<DIR> Лора Томпсон - Агата Кристи. Английская тайна
<DIR> Уинслоу - Особо опасные
Да, наличие кириллицы и пробелов в именах папок-файлов рояли не играет.
LogCreate=0 - на скриншоте вид проги с LogCreate=2 - т.е. виден чекбокс с уже проставленной "галочкой" - да! нам нужен лог-файл. (При LogCreate=1) - то же самое, но не "обгалченное".
Когда LogCreate=0 - чекбокс не виден. В принципе простому user-у он и не нужен. Лог файл-то. Файл не секретный, сведена воедино инфа из наших txt-htm-файлов. Лог файл нужен для анализа, если что не так. Но ПРИСЫЛАТЬ его мне не нужно! Достаточно исходного материала: txt-htm- и примкнувшего к ним pdf-файлов.
Отсутствие Spotter3.ini некритично.
3. После того как прогу застартовали - увидели что-то типа того, что на скриншоте, "обгалчиваем" нужное, либо сперва нажимаем кнопку "Выбрать" и выбираем наш txt-файл из пары txt-htm-.
Если всё путём - видим в окне (на белом поле) соответствующую инфу.
"Обгалчиваются" пока ТОЛЬКО "Алгоритмы..." да "Тривиальный...". Пока только эти.
Собственно лучше не трогать - во-первых "точный(медленный)" подсчет - это всего несколько десятков (один-два) лишних секунд, а мусорить "тривиальным" разрывом отчет особой нужды нет.
4. Теперя мона и "Обработка" нажимать. Почему не сразу, как выбрали файлы? Так надо!
5. Ждём, курим/(иное)... Если курим - курим быстро. В зависимости от быстродействия компа на всё про всё уходит несколько минут. Всё решает объём книги.
6. Если не курим - можем (прижелании даже успевать) читать ход обработки.
7. После того, как прога обработает файлы и "выплюнет" hta-протокол, она (прога) автоматицки сама "захлопнется" через 30 сек. Ну или нажимаем "Выход".
8. Изучаем hta-файл. Делимся впечатлением. Hta-файл создаётся рядышком с txt-htm-файлами. (Там же создаётся и лог-файл, если спецом укажем).
Собс-но о "дележе впечатлениями". Во-первых - статус "бэта" у проги. Т.е. ест-но есть недочеты м недоделки. Устранимо. Во-вторых - алгоритмы обработки ОТЛИЧНЫ от spotter-2, посему ВНИМАНИЕ и ЕЩЕ РАЗ ВНИМАНИЕ! В третьих: интересуют пропущенные места. Ну как интересуют?
Всё зависит от исходного материала - например, в "Уинслоу - Особо опасны" присутствует некий "авангардизм" от типографской вёрстки - отсутствует "красный" пробел. Всё бы ничего, но ежели конец главы заканчивается страницей со строкой с точкой у правого края (я внятен?!), а следующая глава - ест-но с новой страницы, а ПЧ номер этой самой главы взял да и обозначил колонтитулом - вуаля: ложная сработка о разорванном абзаце. По счастью такого вроде немного...
Далее. Фраз "слипшийся абзац" в отчёте НЕТ. Почему? Хм! Разрыв (как правило существующий, хотя в той-же "Уинслоу - Особо опасны" из-за того-же "авангардизма" присутствуют и ложные сработки разрыва текста) - он и в Африке разрыв. А вот со "слипшимся" абзацем не всё так однозначно...
Короче: фраза "Подозрительный фрагмент текста!" - это оно самое и есть.
Как-то так. Ждём вечера...
Я внятен?!
Я внятен?!
Кажется...
Но я лучше попробую вживую.
Пока, вроде, всё ясно.
Итак! Тута: оно самое, долгожданное
Spotter3.ini рихтуем в любом текстовом редакторе.
И последнее. Пока проблема с ТОЧНЫМ диагностирование
случАя, когда начало абзаца на одной странице и заканчивается
точкой в последней строке, а продолжение абзаца на другой;
и начинается (ест-но) с Прописной. Поэтому, НИ В КОЕМ СЛУЧАЕ
НЕ ИГНОРИРУЕМ что-то типа:
Стр. док. 32 — Разрыв абзаца!/Разрыв страницей
<>
Эстебан жил в многоквартирном доме и частенько
задавался вопросами, большую часть которых адре-
совал белым американцам.
Удачи!
Здорово! Скачала.
На следующей книге проверю.
Сохранять нужно:
htm - гибкая копия, utf-8, с колонтитулами или без?
txt - тоже в utf-8?
HTM-файл: в UTF-8 кодировке, без css, без колонтитулов, без разделения на строки, гибкая копия.
TXT-файл : в UTF-8 кодировке, с разделением на строки, с колонтитулами.
Кстати, сильно не ковырял (может только у меня так), но похоже ПЧ HTM-файл сохраняет БЕЗ колонтитулов при ЛЮБОМ указанном варианте: хоть с ними, хоть без.
Эта... Когда захожу в Таверну читаю:
Здесь нет модерирования! И зачем вам нянька? Сами не маленькие уже ... И да, мы на «ты»
и ниже:
Привет, Alex2L. Ваш последний визит: Сегодня 19:51:19.
- некий пародокс. А?
Может "Ваш" стОит при таком раскладе заменить на "Твой" ?!
Может "Ваш" стОит при таком раскладе заменить на "Твой" ?!
Я думаю, что это встроенная фишка.
А "ты" - это мы сами придумали.
Ещё эта... Порылся в txt/htm-файлах-эталонах ("тренировочных кошках") не обнаружил конструкций типа *** - разделителя абзацев - так вот, я на это дело не закладывался - соответственно будут ложные разрывы. Желательно подогнать пару новых кошек для устранения дефекта.
Желательно подогнать пару новых кошек для устранения дефекта.
Ок, буду иметь в виду.
То есть, скрипт скажет "разрыв абзаца" в том месте, где будут * * *?
Ага... Это я тут ретроспективу написанных страниц провёл. Искал ответ на вопрос о кодировках.
Гиде-то в р-не 11-той - 12-той стриниц наткнулся на упоминание об этом. И подумал: а ведь таки да!
Всё поправимо!
Первый проход. Неутешительный.
Обработка длилась 20 минут.
Результат:
Подозрительный фрагмент текста 7
Возможный разрыв абзаца 4
Всё остальное - по нулям.
Что тебе ещё рассказать/прислать?
Вечер!
Сорри!!!! Облажался!!!
HTM-файл нужно сохранять с ДЕЛЕНИЕМ НА СТРОКИ!!!!!!!!!!
Меня вчера переклинило!
Please только пересохранить HTM!
И всё должно быть путём!
Ече раз сорри!
Ага, щас попробую.
Вот, что получилось.
Если нажать ОК, сообщение исчезает, но ничего не происходит - крутится колёсика, как будто чего-то ждёт.
Добавлены строки:
8:43:08 Начата обработка C:\Users\M\Desktop\Ebook\OCR\Алекс\Lihejn.txt файла
18:43:08 Считано 0 строк
1. Нужно нажать на "Закрыть"
А можно куда-нить оперативно HTM и тхт куда-нить віложить? Если pdf-rb нет - всё равно.
Выловил еще одну ошибку у себя. Исправил. Хотца посметреть у себя и тогда выложу новую версию.
(Свою ошибку откопал в др. месте)
1. Нужно нажать на "Закрыть"
Ну, до этого я как раз догадалась.
В архиве - все созданные файлы и pdf: http://ge.tt/6Ic3NVT/v/0?c
Значит так. Тута: Версия
Это ВЧЕРАШНЯЯ версия откомпилированная Delphi 7 (рабочая).
+ мой вариант отчета. М... фрагмент:
У майора Джона Демпси из полицейского управ-
ления штата Массачусетс было широкое, как
блин, ирландское лицо и настороженные, слегка
выпученные глаза филина. Он даже и моргал...
со стр. 230 НЕ ПОПАЛ в htm-файл. Уж не знаю, попал ли он в fb2, но на всякий случай просигналил.
Эта версия УЖЕ устаревшая, но работает. Дома ваяю на Delphi EX-3, пока есть некоторые проблемы.
Я внятен?!
со стр. 230 НЕ ПОПАЛ в htm-файл. Уж не знаю, попал ли он в fb2, но на всякий случай просигналил.
Эта часть текста была распознана как сноска.
Я такие вещи вылавливаю после работы с редактором стилей.
Сейчас попробую новую версию.
В интерфейсе новой версии все надписи выглядят вопросительными знаками.
Но работает шустро. Прошёл весь цикл секунд за 20.
Я видела, что ты положил hta-файл, но мне хотелось самой его получить.
А в результате:
Стр. док. — Подозрительный фрагмент текста!/Разрыв абзаца /Разрыв абзаца /Разрыв абзаца /Разрыв абзаца /Разрыв абзаца /Разрыв абзаца /Разрыв абзаца /Разрыв абзаца /Разрыв страницей /Разрыв абзаца
Dennis Lehane
GONE, BABY, GONE
??????? ? ??????????? ?.????????
????????????? ???????? ????? ?.????????
?????????????? ??????????
? ????? ????? ?.??????????
?????? ?.
?65 ??????, ?????, ?????? : ????? / ?????? ?????? ; ???. ? ????. ?.????-
????. — ?.: ??????????, ??????-???????, 2013. — 544 ?. — (?????????
?? ?????).
ISBN 978-5-389-04135-6
Что-то с кодировкой...
Мой как воспроизводится?
А если сличить мой и вновь полученный файл?
Мой как воспроизводится?
Отлично!
А если сличить мой и вновь полученный файл?
Цифры отличаются. Причем нехило.
Мой:
Критерий Кол-во сработок
Разрыв абзаца страницей 0
Подозрительный фрагмент текста 32
Возможный разрыв абзаца 4311
Внутриабзацный разрыв 0
Возможно стихи на странице 0
Возможно слипшийся абзац 0
Отсутствие знаков препинания 0
Нераспознанный ошибочный абзац 0
Твой:
Критерий Кол-во сработок
Разрыв абзаца страницей 0
Подозрительный фрагмент текста 26
Возможный разрыв абзаца 255
Внутриабзацный разрыв 0
Возможно стихи на странице 0
Возможно слипшийся абзац 0
Отсутствие знаков препинания 0
Нераспознанный ошибочный абзац 0
Досадно...
ОК! Буду думать, как поправить в НОВОЙ (сегодняшней) версии.
Досадно...
Не расстраивайся. Лиха беда начало.
Отредактировано golma1 (2012-12-13 23:01:41)
Та да... Не в первой.
Эта... Сильно интересует - много ли пропущенных слипшихся? По протоколу выходит так, что слипшихся маловато?
Моё почтение!
Эта... Желательно выложить куда-нить тот hta-файл с вопросиками-кракозябрами.
Надо посмотреть гиде там собака порылась.
Желательно выложить куда-нить тот hta-файл с вопросиками-кракозябрами.
Без проблем.
Сильно интересует - много ли пропущенных слипшихся?
Это я смогу сказать тебе позже.
Я сейчас пройдусь по твоему протоколу, потом (после своего распознавания - "вглазную") своим обычным алгоритмом поиска слипшихся абзацев. И потом соообщу.
М-дя... Фигня фиговая. У меня тоже вопросики. Поделать, похоже, ничего нельзя.
Пока суть, да дело:
Улучшенный протокол
Саму прогу не выкладываю (много чего поизменял), т.к. под рукой только 7-ка, т.е. смысла нет - будут вопросики.
По ходу буду писать о вопросах.
1. стр. 10 Сноска? Иная ошибка / Вероятно неверно оформленный текст!
Почему? По каким критериям?
2. стр. 25 Разрыв абзаца!/Разрыв страницей
Следующая страница начинается с маленькой буквы. Тогда это "тривиальный разрыв абзаца" или? Он не должен быть в протоколе, насколько я понимаю.
3. Стр. 29. — Разрыв абзаца!
-Угу.
Там нет разрыва. Непонятно по каким критериям выбрано.
4. Это, наверное, не ошибка, но выглядит в протоколе странно:
Стр. 61. — Разрыв абзаца!
— Не было у нее больших долгов, — сказал
вдруг Большой Дейв. — Ну, должна она мне, может,
Стр. 62. — Разрыв абзаца!
баксов шестьдесят. Если б задолжала кому дру-
гому за... гостинцы, я б об этом знал.
Это - тривиальный разрыв абзаца. Но на стр. 61 есть полиграфическая отметка, наверное, это из-за неё происходит?
5. Стр. 64. — Разрыв абзаца!/Разрыв страницей
<>
Неудачница. И дочка ее такая же вырастет. Что бы
там ни случилось с ребенком, ей же лучше. Но вот
что мне не нравится, так это когда посетители
моего бара намекают, будто я наркодилер, и вообще
ведут себя так, будто я им в подметки не гожусь.
Если я правильно понимаю, должна быть стр. 63 - это на ней разрыв абзаца страницей. Хотя пометку я ставлю как раз на 64. Но, чтобы увидеть, разрыв ли это абзаца или типографический изыск, мне приходится всё равно вернуться на 63. Очевидно на стр. 25 та же история: там речь идёт о первой, а не о последней строке на странице.
Можно перестроиться, конечно. Эта привычка осталась со споттера-2. Но если можно переделать, на мой взгляд, было бы удобнее. Сразу видно, что страница кончается полной строкой (с точкой или без).
6. Стр. 65. — Разрыв абзаца!
Он оценил расстояние между нами. Подумал о
рукоятке пистолета калибра и о моей правой руке в
сантиметре от нее. Взглянул мне в лицо. Наклонился
и положил кий к моим ногам. Сделал шаг назад В этот
момент со стуком упал на пол кий его приятеля
Нет разрыва.
7. Стр. 79. — Разрыв абзаца!/Разрыв страницей
А вот тут всё правильно.
8. Стр. 126. — Разрыв абзаца!/Разрыв страницей
Опять учтена первая строка.
9. Стр. док. — Разрыв абзаца!
•
Вообще-то это просто мусор. Но по каким критериям был выбран этот фрагмент?
10. Стр. 145. — Разрыв абзаца!/Разрыв страницей
— Думаете, он убьет вашу дочку и сна ли-
шится? — сказала Энджи. — Хелен! — Энджи потя-
<>
нулась через стол и ухватила Хелен за мосластое
запястье. — Так вы думаете?
Снова тривиальный разрыв абзаца. Правда, на стр. 145 есть сноска (детектед). Может, поэтому?
11. Стр. 157. — Разрыв абзаца!
— А что, если типа последить за Крисом
Малленом? Может, он, сам того не зная, выведет
на Аманду
Нет.
12. Стр. 157. — Разрыв абзаца!
— Когда я укладывала ее спать в тот вечер. Это
последние ее слова, которые я от нее слышала:
«Мам, есть хочется». — Глаза Хелен наполнились
См. № 4.
13. Стр. 158. — Разрыв абзаца!
слезами. — А я ей: «Не беспокойся, детка. Утром
поешь». Они ведь ее кормят, правда? Она ведь там
у них не голодная? — Хелен взглянула на меня. —
Правда же?
Нет.
14. Стр. 159. — Разрыв абзаца!
Но знал я также Сыра, который как-то вечером
глянул на парня в баре с такой спокойной враждеб-
ностью, что сразу стало ясно, что жить тому оста-
лось минуты полторы. Я знал Сыра, который брал
на работу доходяг героинщиц. Они сдавали ему
выручку, скатанные в рулончики купюры, стояли,
прислонившись к его машине, а он похлопывал их
по костлявым задам и снова отправлял на работу
Нет. Возможно, потому что в конце абзаца не распозналась точка?
15. Стр. 159. — Разрыв абзаца!/Разрыв страницей
Тривиальный разрыв. Сноска помешала?
16. Стр. 166. — Разрыв абзаца!/Разрыв страницей
Тривиальный разрыв.
17. Стр. 174. — Разрыв абзаца!/Разрыв страницей
Тривиальный разрыв. Сноска?
18. Стр. 193. — Разрыв абзаца!/Разрыв страницей
<>
В последнем случае ей пришлось где-то там спря-
таться.
Вообще-то, да. Но опять учтена первая строка на странице. Логичнее было бы указать стр. 192.
19. Стр. 196. — Разрыв абзаца!
" — Что? — Я подался вперед.
Нет.
20. Стр. 208. — Разрыв абзаца!
Нет. Отсутствие точки?
21. Стр. 212. — Разрыв абзаца!/Разрыв страницей
<>
День у Дойла не задался. Лицо было серым, мешки
под глазами темными, и от него пахло кофейной
гущей.
1 «Бруинс» — спортивные команды Университета
Калифорнии, штат Лос-Анджелес.
Вот интересный пример. Текст сноски - с предыдущей страницы. Для идентификации "разрыва страницей" применена первая строка.
Но, вернувшись на предыдущую, видно, что это - типографский изыск. Так отмечено место разрыва текста (пустой строкой, например).
Поскольку предыдущая страница заканчивается неполной строкой (и сам текст, и сноска), непонятен критерий выбора.
22. Стр. 224. — Разрыв абзаца!/Разрыв страницей
Нет.
23. Стр. 225. — Разрыв абзаца!
— Серьезно, ну, на секунду
Нет. Отсутствие точки?
24. Стр. 230. — Сноска. Подозрительный фрагмент текста! / Потерянный фрагмент текста!
Шикарно! Теперь уж точно не пропустишь.
25. Стр. 231. — Разрыв абзаца!
Нет.
26. Стр. 238. — Разрыв абзаца!/Разрыв страницей
Нет. Сноска? Учтена последняя строка на странице.
27. Стр. 242. — Разрыв абзаца!
Дойл взял приемник и включил тумблер
Да, но почему-то не попала оторванная часть строки - «Исходящий».
28. Стр. 260. — Разрыв абзаца!
Нет. Отсутствие точки?
29. Стр. 262. — Разрыв абзаца!
То же.
30. Стр. 264. — Разрыв абзаца!/Разрыв страницей
Она легла на скалу рядом со мной и посветила
туда же, куда и я. На расстоянии почти двадцати
метров луч, конечно, был недостаточно ярок. Круги
света от наших фонарей двигались параллель-
<>
ными курсами, как пара глаз, методично освещая
одну полосу воды за другой.
Нет разрыва страницей, но есть разрыв абзаца. Обычный.
31. Стр. 266. — Разрыв абзаца!
Нет. Точка?
32. Стр. 267. — Разрыв абзаца!/Разрыв страницей
Да, но учтена первая строка на странице. Разрыв должен быть на стр. 266.
33. Стр. 271. — Разрыв абзаца!/Разрыв страницей
См. № 30.
34. Стр. 281. — Разрыв абзаца!
Нет. Непонятен критерий.
35. Стр. 291. — Разрыв абзаца!
Нет. Точка?
36. Стр. 302. — Разрыв абзаца!
(
Не вижу эту строку.
37. Стр. 315. — Сноска? Иная ошибка / Вероятно неверно оформленный текст!
Зима
.
Стр. 315. — Разрыв абзаца!/Разрыв страницей
Часть вторая
<>
'•
Непонятен критерий.
38. Стр. 317. — Разрыв абзаца!
Нет. Хотя абзац начинается без отступа, но предыдущая очень короткая.
39. Стр. 318. — Разрыв абзаца!
Нет. Кстати, здесь скрипт в той же ситуации сработал правильно (Пул смог вернуться к работе...).
40. Стр. 321. — Разрыв абзаца!/Разрыв страницей
Нет. Сноска?
41. Стр. 328.
См. № 37.
42. Стр. 330. — Разрыв абзаца!/Разрыв страницей
Нет. Сноска?
43. Стр. 348. — Разрыв абзаца!/Разрыв страницей
Да, но учтена первая строка на странице.
44. Стр. 351. — Разрыв абзаца!
Нет. Точка?
45. Стр. 352. — Подозрительный фрагмент текста!
46. Стр. 375. — Разрыв абзаца!/Разрыв страницей
Тривиальный разрыв.
47. Стр. 381. — Разрыв абзаца!
Нет. Точка?
48. Стр. 390. — Разрыв абзаца!/Разрыв страницей
См. № 30.
49. Стр. 407. — Разрыв абзаца!
Энджи
Непонятен критерий.
50. Стр. 411. — Разрыв абзаца!
— Стадион «Гарвард». Встретимся уже там. —
И Бруссард повесил трубку
Нет.
51. Стр. 419. — Разрыв абзаца!/Разрыв страницей
<>
Как раннингбэк я набрал около двенадцати ярдов
на четырех переносах мяча, а как сейфети дважды
облажался с Джимми Пакстоном, после чего стал
опекать его так плотно, что куортербэк изменил
стратегию и стал играть через других принима-
ющих.
1 Сделать пант — выбить мяч ногой с руки в сторону
соперника.
Да. Но учтена первая строка на странице, а текст сноски находится на предыдущей странице.
52. Стр. 436. — Разрыв абзаца!/Разрыв страницей
<>
Так вот папаня говорил: надо смотреть в оба
и не зевать, опасаясь не лося и не оленя, а других
охотников.
Да, но учтена первая строка на странице.
53. Стр. 440. — Разрыв абзаца!/Разрыв страницей
См. № 51.
54. Стр. 444. — Разрыв абзаца!
Нет. Типографская пометка?
60. Стр. 445. — Разрыв абзаца!
Нет.
61. Стр. 465. — Разрыв абзаца!
\
Не вижу строку. Знак есть в середине абзаца.
62. Стр. 468. — Разрыв абзаца!
Нет.
63. Стр. 476. — Разрыв абзаца!
Нет. Типографский знак?
64. Стр. 477. — Разрыв абзаца!
вив дуло горизонтально, он держал пистолет 45-го
калибра.
Нет.
65. Стр. 478. — Разрыв абзаца!/Разрыв страницей
Тривиальный разрыв.
66. Стр. 480. — Разрыв абзаца!
¦ — У кого-нибудь еще? — спросил Каспер.
"Мусор" в начале строки. Непонятен критерий.
67. Стр. 493. — Разрыв абзаца!
Нет.
68. Стр. 494. — Разрыв абзаца!/Разрыв страницей
Да, но учтена первая строка на странице.
69. Стр. 502. — Разрыв абзаца!
— А та кукла? — Я слегка похлопал его по руке,
-и он открыл один глаз. — А лоскут футболки
Да, не отобразилась оторванная часть абзаца (Аманды на стене карьера?).
70. Стр. 508. — Разрыв абзаца!
Я пошел за ним в гостиную...
Нет. Точка?
71. Стр. 525. — Разрыв абзаца!
Эпилог
Непонятен критерий
72. Стр. 532. — Разрыв абзаца!
Порт-Меса, Техас
Октябрь 1998
Непонятен критерий.
************************
Ой, нет спойлера!
Не пугайся количества - ошибки многократно повторяются. Во-первых, мне было удобнее писать их одну за другой, а во-вторых, так видна их частота.
Насчёт слипшихся абзацев сообщу позже.
Вы здесь » Графика » Остальные программы » Скрипты и регеспы