Графика

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Графика » Остальные программы » Скрипты и регеспы


Скрипты и регеспы

Сообщений 121 страница 150 из 1000

121

Решила проверить в последний раз скрипт. Если бы сработал без ошибок, бросила бы "глазное" просматривание.
К сожалению, нет.
1 раз сработал правильно, 2 раза - ложно, 1 раз - не поймал.
Скан

Скриншот

Не знаю, имеет смысл дальше тестировать?

122

Добрый вечер!

Я что-то запуталась, что надо присылать.

;)
Ну... Интересно, но можно и НЕ присылать! Надеюсь, что такие случаи удастся отлавливать.
Т.е. если существующий скрипт "Параграф-интерактив" - пропускает, вот там можно присылать, а "нетипицкие"
мона не присылать. Бум ловить новым скриптом! Скрипт готов где-то на 50%.

в начале строки Т

- не совсем так. Уже писал, и вы подтвердили:

Совершенно верно, отлично сформулировано.

, с поправкой - "разрывная" строка может заканчиваться на вопросительный и восклицательный знаки... - далее самоцитирование: "близкорасположенной к правому краю страницы."
Удивило, что ПЧ не шмог распознать Т. :(
Интересно, по-идее скоро, может в течении нескольких недель, выйдет ПЧ-12. Что он сможет и какие будут улучшения?

123

Решила проверить в последний раз скрипт. Если бы сработал без ошибок, бросила бы "глазное" просматривание.
К сожалению, нет.
1 раз сработал правильно, 2 раза - ложно, 1 раз - не поймал.
Скан

Скриншот

Не знаю, имеет смысл дальше тестировать?


Э.... На ваше усмотрение! Дело в том, что скрипт-то при старте, что спрашивает? "...указать длину строку в символах". Из скриншота следует, что длинна строки, увы!, больше, чем 55 (по умолчанию) :(
Правильнее исправить внутри скрипта 55 на, например, 60, и по-крайней мере этот разрыв тоже словит!
Ну или при старте, изменить 55 на, скажем, 59. Эффект тот-же!
Т.е. 55 - мало для "по умолчанию"! Что укажем, то скрипт и отработает. Увы, энто не искусственный интеллект!

Я внятен?! :blush:

124

Alex2L написал(а):

Я внятен?!

Угу.

Alex2L написал(а):

в начале строки Т

- не совсем так. Уже писал, и вы подтвердили:

Речь шла об этих двух "нетипичных" разрывах - конкретно. И в том, и в другом случае ФР споткнулся на Т.

Alex2L написал(а):

Что он сможет и какие будут улучшения?

Увидим. А вдруг исправит эти баги и Ваши труды окажутся втуне?  :blush:

Но наделает новых - это как пить дать.
Очень надеюсь, что улучшат словарь. Хотя бы вернут на уровень 10-й версии. :(

125

Да, с 60-ю знаками сработало. Но как узнать, в какой момент надо увеличить это значение?
Просто посчитать в "средней" строке?

Alex2L написал(а):

Бум ловить новым скриптом! Скрипт готов где-то на 50%.

Ждём-с.  :flirt:

Отредактировано golma1 (2012-08-14 23:45:23)

126

Просто посчитать в "средней" строке?

Вроде того! Ваш глаз - намётанный! :)

На самом деле, испытывая новый скрипт - убеждаюсь, что таки - да, 55 - это мало!
Как правило, мало! Ну для этого и ввёл ентот параметр. К тому же - версия скрипта - бэта...
Подбираем параметры благодаря вашим усилиям эмпирицки. :)

За что - большое - гранд-мерси!

127

Моё почтение!

Подумал, как можно действовать без кропотливого высчитывания символов на строку. Кстати, если и считать, то лучше брать строку без Прописных, и с минимумом широких букв, типа "щ", "ш", "м", "ж", ну и набавлять к полученному рез-ту, скажем, троечку.
На всякий пожарный!
А можно, (попробовать) так: сходу заявляем, что у нас дескать длина строки - 70 символов.
На первом же ложном срабатывании, видим "перелет" по сравнению с бумагой (сканом) на, предположим, 12 символов. Скрипт останавливаем и снова стартуем с того же места, но убавляем длину (в окне вопроса) на эти 12-ть символов. Выходит - 58.

Я внятен?!

128

Кстати: http://www.i2r.ru/static/676/out_22620.shtml
И оттуда:

Из прочитанных материалов хочу сделать вывод, что оптимальная длина строки зависит от ситуации, например от отступов, размера и типа шрифта. Но всё же люди предпочитают длину строки, которая равняется 10-ти сантиметрам (4 дюйма), что равняется примерно 60-ти символам в строке.


- таки, похоже, да!

В скрипте стоит исправить 55 на 60. Вырисовывается такая картина: если мы укажем правильную длину строки (+ 1-...3 символа) - скрипт словит все места разрывов + некоторое кол-во ложных срабатываний. Если завысим длину строки - тоже самое + возросшее кол-во ложных срабатываний. Если занизим - рискуем чтой-то пропустить.

129

Alex2L написал(а):

В скрипте стоит исправить 55 на 60.

Ок, попробуем.
Кстати, при повторном запуске скрипта (с 60 знаками) ложных срабатываний было по-прежнему 2.

Надо будет потестировать, насколько увеличивается количество ложных срабатываний при  увеличении числа знаков: просто прогнать скрипт, даже на готовом тексте.
Как сделаю, отпишусь. :)

130

Угу... :)
Ложные срабатывания, как по мне - так автор (/переводчик) написал текст. Т.е. он "подозрительно" выглядит с точки зрения скрипта, а по сути такой вот и есть. Это в случае, правильного задания длины строки.
Иначе, "попрут" ложные в том смысле, что на бумаге они занимаю строку с "хвостиком" и
этот "хвостик" - портит всю картину. Писал выше - мона несильно убавить длину. Хотя это утомляет... :(

131

Alex2L написал(а):

Писал выше - мона несильно убавить длину. Хотя это утомляет...

Оптимально: набрать статистику, на основании которой выбрать параметры.
Всё остальное отпугнёт от применения скрипта тех, кто привык "нажимать пимпочку".

Обещанная статистика зависимости ложных срабатываний от количества знаков в строке:
- при изменении 55 на 60: без изменений
- при изменении 60 на 65: в одной книге +1

В книге, где при 55 срабатываний вообще не было, изменение количества знаков к "находкам" не привело.

Проверено на 7 книгах различного объёма.

На мой взгляд, можно ставить 60 по умолчанию (как Вы выше и писали).

132

В книге, где при 55 срабатываний вообще не было, изменение количества знаков к "находкам" не привело.


- и хорошо! В принципе такого рода ошибок много быть не должно.

Проверено на 7 книгах различного объёма.

- сам объем большой рояли не играет, более важна "ширина страницы". Т.е. для книг покетбукного формата 60 будет слишком много, а так - да! :)

А про 60 - это, выходит, вывели в позапрошлом веке! Так что, тут я скорее ошибался, первоначально считая "на пальцах", а не сразу чтобы взять, да и по-гуглить! Ну да кто не ошибается!

133

Моё почтение!

Надо будет потестировать, насколько увеличивается количество ложных срабатываний при  увеличении числа знаков: просто прогнать скрипт, даже на готовом тексте.


О!!! Это ж идея!!!

Обещанная статистика зависимости ложных срабатываний от количества знаков в строке:
- при изменении 55 на 60: без изменений
- при изменении 60 на 65: в одной книге +1


Браво! Что и требовалось доказать!

Сеть идеи така: ПЕРЕДЕЛАТЬ скрипт так, что бы он СПЕРВА автоматицки, начиная, возможно, с ширины 40 и с шагом 5, до пожалуй 75 просканировал текст. Сканирует бысто, верно? Запомнил все "стрёмные места" и выдал отчет. Возможно т.о. мона будет отсеять т.н. "ложные". Таким образом мы уходим от стартового диалога.
Надо подумать! Что скажите? В смысле - напишите?

Теперь вопрос иного плана. :)
Волею судеб попала в руки книга: Обложка

Содержание: Содержание  и 
Содержание прод.

Ваша [url=http://lib.rus.ec/b/314943[/url]- гиде-то с рассказа "Коломбр" - расходится. Плотно не сличал. И повесть "Увеличенный портрет" в Библиотеке отсутствует. Что посоветуете, при условии, что бить на отдельные рассказы, отсутствующие в Библиотеке - неохота. :sceptic:
Ну, "Татарскую пустыню" могу пропустить.
Или - забить и не париться?! А заниматься скриптами? :)

134

Alex2L написал(а):

сам объем большой рояли не играет

Ну почему же... Количество встречающихся разрывов пропорционально количеству текста. Как и количество ложных срабатываний.

Но ширина, конечно, имеет большее значение.

135

Ну почему же... Количество встречающихся разрывов пропорционально количеству текста. Как и количество ложных срабатываний.

- не, ну, это - да!
Имел в виду, что скрипт (уже писал) проверяет по ТРЁМ абзацам подряд, а сколько их в тексте - неважно. Т.о. их кол-во на кач-во обнаружения не влияет.

136

Alex2L написал(а):

Т.о. их кол-во на кач-во обнаружения не влияет.

Я другое имела в виду.
При большом объёме текста, скажем, при 55 знаках ложных срабатываний 2, а при 60 - 4, а при маленьком объёме - соответственно 2 и 2.

Ну ладно, неважно. ;) Важно, что при любом объёме количество ложных срабатываний (существенно) НЕ увеличивается.

137

Только что нашла "типичный" разрыв не на точке, а на двоеточие.

Скан

В конце страницы:
Макс повернулся на бок лицом к Элли и с любопытством шепнул:
«Что там?» Она лишь вздернула брови.

Отредактировано golma1 (2012-08-15 21:59:15)

138

Довольно редкий случай! Двоеточие и потом прямая речь в кавычках. Поправимо!

Я считал (просчитался!), что 2-ой абзац (из трёх), тот что после диалога, не может заканчиваться на двоеточие.
Итак, исправляем (у меня это 216-я, у вас, скорее всего - 215-я):

    if (mPrgrph1_ColonCnt == 0 && mPrgrph2_ColonCnt == 0) {

на:

    if (mPrgrph1_ColonCnt == 0) {

На ВСЁМ прочем ЭТО не скажется!

139

Ок, сделаю.
Я сейчас на другом компе, завтра попробую. :)

140

Попробовала. Сработало. :)

Всего 2 правильных и 1 ложное.
Из правильных - одно срабатывание на двоеточии.

Количество знаков - 60.

Отредактировано golma1 (2012-08-16 12:21:47)

141

В одной книге не было искомых мест.
В другой - скрипт на 55 и 60 нашёл все 3 случая + 1 ложное срабатывание.

142

Моё почтение!

Хм! Не так уж и плохо, похоже! :)
Вожусь с "новым" скриптом - заработал. Но кое-что мне не понравилось. Решил переделать...
Сейчас вообще никак не работает. :(  Да на либрусек не могу зайти. :(  Короче - спошной минор!
Не, ну копии скрипта до "перестройки" сохранились. Но уж больно они мне нравятся.
По-прежнему - ждёмс, однако!

143

Alex2L написал(а):

ждёмс, однако!

http://fludu.h1.ru/Smiles/JC_gimmefive.gif

144

Есть пример книги с огромным количеством коротких абзацев и, соответственно, многими искомыми местами.
Могу предложить: скан, pdf с текстовым слоем, "сырой" fb2 (с неисправленными местами).

Интересует? :)

Чуть позже отпишусь о том, как сработал скрипт.

145

Здравствуйте!

Скан интересует. Тем более, что всё запрацювало! :)
Не исключено, что сегодня-завтра и ...

А скрипт на 55 гонять смысла точно нет, 55 - мало. Я вот было дело, спрашивал насчет Буццати, на всякий случай - отсканил, а то книга - библиотечная - уже вернул; так вот - в ней строки ваще убористым шрифтом за 70-т знаков в строке зашкаливало, т.е. 60 - для неё и подобных - МАЛО!!!

146

Эта... Значит так! Кроме скана - лучше вот что: преамбула, как работает новый скрипт.
Итак. Как художник сначала делает набросок карандашом, скульптор ваяет сперва в гипсе и т.д и т.п., так будем поступать и мы! FB2 - наше всё. В борьбе за качество электронной книге - все средства хороши! Чудес не бывает и проникнуть в "закулисье" ПЧ я не могу, тем более, что ПЧ не понимает (или я этого не знаю как) работать со "сплошным" (а не по-страничным) текстом. Стало быть, перед сохранением в FB2 (либо когда удобно) сохраняем нашу книгу в ТХТ-формате. Со следующими настройками:

- Сохранять деление на строки
- Разделять страницы кодом конца страницы
- Разделять абзацы пустыми строками
- Сохранять колонтитулы

- "обгалчиваем" всё!

Кодировка - Кириллическая (1251). ПЧ это запомнит и в следующий раз поступит как было ранее. Вот на этот тхт-файл мы и будем "напускать" наш скрипт. ТХТ удобен тем, что "простой как фанера" - ни тебе жирного шрифта, ни наклонного. Нам на этом этапе он и не нужен. Цель - найти разрывы абзацев, по крайней мере - "хитрые".
По итогам работы скрипта будет "выбрасываться" окошко с результатами анализа + некоторое кол-во "плюшек", ну чтобы было не совсем скучно. ПЧ при этом держим открытым. Как увидим результат анализа - поймём где что нужно проверить и при случае - исправить или пометить для последующей правки.

Я внятен?!

Если да - так мне бы к сканам вот этот тхт-файл, ну чтобы не распознавать всё в ПЧ по-новой; кстати сгодиться и pdf-ка. Даже лучше!
Итак - pdf-ка + тхт-шка! :)

Отредактировано Alex2L (2012-08-21 12:57:11)

147

Любой каприз.  :flirt:

https://www.rapidshare.com/files/127088 … Alex2L.rar

Отчёт по работе актуального скрипта на этом файле:
1. Различий между 55 и 60 знаков нет.
2. Ложных срабатываний - 9.
3. Из 8 искомых мест найдено 7.
4. Не найдено строка, в которой первые слова - в латинице.

Список разрывов (чтобы не искать) - везде строка, после которой идёт разрыв:

Мужчина в киоске выглядел раздраженным.

Из кармана его пальто торчала “Экспрессен”.

Сибилла внимательно посмотрела на женщину.

Она нажала на кнопку, и окно снова закрылось.

Последнее слово отзывается в голове долгим эхом.

Теперь он был немного раздражен. Она тоже.

Кофе. Кофе ее сейчас интересовал меньше всего.

Ликующие люди ушли, оставив ее в одиночестве. - эта не найдена

148

Забыла.
Скан: https://rapidshare.com/files/4167955924/alvtegen.rar

149

Скачал. Скоро поизучаю.

4. Не найдено строка, в которой первые слова - в латинице.


- странно! Интересно было бы глянуть на скриншот! Т.к. латиница-кариллица неважно.

150

Alex2L написал(а):

Интересно было бы глянуть на скриншот!

Я ж говорю: "Любой каприз!" ;)

Похоже, что дело в "апострофе" - грязь при печати:

http://s1.uploads.ru/i/l4SHu.jpg

http://s1.uploads.ru/i/jqEDH.jpg


Вы здесь » Графика » Остальные программы » Скрипты и регеспы