Графика

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Графика » Остальные программы » Скрипты и регеспы


Скрипты и регеспы

Сообщений 391 страница 420 из 1000

391

http://fludu.h1.ru/Smiles/sm405.gif
Спасибо!
Ок!

В третьей версии - часть проблем точно уйдёт.

P.S. "пробоину" в носу заткнул.  :)

392

Приветствую! Как драгоценное здоровье?  :flirt:

Следующая книга.

В основном, разрывы абзаца страницей. Парочку ложных "слипшихся" абзацев.
Но одно место - очень интересное, на мой взгляд.

стр. 285
Скрипт правильно (!) опознал слипшийся абзац, но эта же строка содержит внутриабзацный разрыв, которого он не "увидел". Понимаю, почему.
Но, может быть, имеет смысл это сделать критерием? Так бывает очень часто.

Пособираем, конечно, ещё статистику. Это просто информация - для размышления и просто, чтоб не пропала. ;)

Несколько срабатываний на слове "Глава" (на новой странице), но ты уже это знаешь из предыдущей книги.

Архив.

Нужно ещё делать такие отчёты? Или будем уже ждать третьей версии? :)

393

Мое почтение!

Как драгоценное здоровье?

Спасибо, постепенно нормализуется.

стр. 285
Скрипт правильно (!) опознал слипшийся абзац, но эта же строка содержит внутриабзацный разрыв, которого он не "увидел". Понимаю, почему.
Но, может быть, имеет смысл это сделать критерием? Так бывает очень часто.


- да, некурасиво... подумаю.

Парочку ложных "слипшихся" абзацев.

- ну насчет парочки - несколько преувеличено, ИМХО.  :) 
Другое дело, как понимаю была "глазная" проверка слипшихся абзацев - так, догадываюсь,  было похоже всего одно место и оно "попалось в сети"? По-прежнему интересны случаи "неотлова" слипшихся и в т.ч.:

Нужно ещё делать такие отчёты? Или будем уже ждать третьей версии?


- именно такие нужны! Как на стр. 285. А с главами ... хм! - в 2.ХХ в принципе - решаемо, но полагаю бум ждать 3-ю версию.

394

Alex2L написал(а):

По-прежнему интересны случаи "неотлова" слипшихся и в т.ч.:

Чуть позже сообщу, пока не делала.
Всё-таки мне удобнее это делать в конце, после основного OCR. Но если нужно, могу перестроиться.  :flirt:

395

Всё-таки мне удобнее это делать в конце, после основного OCR. Но если нужно, могу перестроиться.

http://fludu.h1.ru/Smiles/swoon.gif Не нуна перестраиваться! Тем более, вдруг, ещё чё-нить выскочит.
Вот тогда, за компанию и отправить. :)

Ещё эта... интересует ответ на такой вопрос: насколько "рентабельна" spell-check проверка? Часто-ли доводится применять на практике?

Полагаю, внятен?!

396

Alex2L написал(а):

насколько "рентабельна" spell-check проверка?

Очень. Всегда что-нибудь находится.
Или "рентабельна" в смысле - отношение затраченного времени к количеству найденных ошибок? Тогда это вопрос не ко мне. Я ж перфекционистка: должна "вычистить" всё, до чего могу дотянуться.  :writing:

Делаю на всех своих файлах, если они не идут в вычитку перед заливкой на сайт. Если сама вычитываю, делаю всё равно.
Я читаю сейчас на Киндле, это значит, что надо делать закладки. Так вот, чтобы уменьшить количество (возможных) закладок, делаю сначала спеллчек.

Но, может, это я одна такая дурная...  :dontknow:

Отредактировано golma1 (2012-09-21 21:27:46)

397

Докладываю: слипшихся абзацев больше в книге не обнаружено.  :dontknow:

398

Моё почтение!

  Итак, http://rusfolder.com/32763095  - версия: 2.27 [22.09.2012]:
Алгоритм поиска "слипшихся" абзацев отделен от алгоритма поиска
"разорванных" абзацев. Как следствие, в случае, если два абзаца
(возможно) сперва отдетектируються как слипшиеся, а затем второй
абзац (возможно) будет идентифицирован, как "разорванный" - сообщение
в итоговом протоколе будет сдублировано с разными формулировками

Я внятен?!

Полагаю, что таких случаев будет очень немного, зато ничего не проскочет непрокомментированным на счёт "разорванности-слипшести".

"рентабельна" в смысле - отношение затраченного времени к количеству найденных ошибок? Тогда это вопрос не ко мне. Я ж перфекционистка: должна "вычистить" всё, до чего могу дотянуться.

- вот только эта... не надо ярлыки навешивать! В т.ч. и на себя. :)
Интересуюсь ить не из праздного любопытства - появилась мысля, как мона значительно удобнее и быстрее проводить, по крайней мере, орфографицкую проверку. Ест-но реализация потребует усилий. Но дело, похоже, того стоит. Правда, когда им заниматься?! Вот пятый день, пока хвораю, к третьей версии spotter-а не прикасался.
А хворь, всё никак не одолею... :(
С другой стороны родилась идея про спелл-чекер. Чем дальше "обсасываю" - тем больше наравицца.

Я читаю сейчас на Киндле

- а эта... книги для Киндла-то переводятся в mobi-формат? Али хакнутый Киндл, и через CR-3 читает fb2-шки?! - вот тут, просто из любопытства спрашиваю.

Докладываю: слипшихся абзацев больше в книге не обнаружено.

- как же так?!
А кито 21-го 9-го в 11-ть 45-ть писал:

стр. 285
Скрипт правильно (!) опознал слипшийся абзац


- или акромя этого случая?! :)

Удачи!

399

Alex2L написал(а):

версия: 2.27 [22.09.2012]:

Вот прямо сейчас и попробую - как раз новая книжка подоспела.

Alex2L написал(а):

Я внятен?!

Абсолютно. И логичен. ;)

Alex2L написал(а):

Интересуюсь ить не из праздного любопытства - появилась мысля, как мона значительно удобнее и быстрее проводить, по крайней мере, орфографицкую проверку. Ест-но реализация потребует усилий.

Скажу тебе как на духу.
Если сделать скрипт, который все-все-все ошибки найдёт, было бы здорово. Но если нет, то это развратит верстальщика, полагающегося на скрипты и, как следствие, прилагающего меньше собственных усилий.
Орфография ж - штука непростая: и авторское словообразование надо учесть, и характерную речь ГГ (диалект или неграмотность), и специальное коверкание слов. Не могу себе представить, что программа может это всё учесть.

Alex2L написал(а):

С другой стороны родилась идея про спелл-чекер. Чем дальше "обсасываю" - тем больше наравицца.

Я боюсь, что наличие скрипта, обещающего орфографическую проверку, приведёт к снижению общего качества книг, а не к повышению.
Будь бдителен!  :glasses:

Alex2L написал(а):

книги для Киндла-то переводятся в mobi-формат?

Да.

Alex2L написал(а):

или акромя этого случая?!

Конечно.

Мой алгоритм:

- запуск скрипта
- проверка всех задекларированных мест и исправление
- общее распознавание
- проверка слипшихся абзацев "традиционным" методом
- [отменено] проверка разорванных абзацев "традиционным" методом

Таким образом, если все ошибки исправлены (в данном случае одна), больше слипшихся абзацев не обнаруживается.

Очень бы хотелось попасть на книгу, где было бы хотя бы пяток таких мест, и проверить на ней скрипт.  :flirt:

400

Проверила.

Стр. 94 - сработал чистенько. Всё нашёл.  :cool:
Стр. 115 - сработал правильно.
Стр. 137 - сработал неправильно: на "звёздочке".
Стр. 370 - три ложных срабатывания: похоже, что ориентировка на точку в конце абзаца и следующую одну строку не даёт уверенных результатов. :(
Стр. 374 - почему-то два одинаковых сообщения; срабатывание ложное.

Уже лучше - 2 правильных срабатывания. Но зато 15 ложных.
Подождём, найдутся ли пропущенные слипшиеся абзацы.

Архив

401

Хех!

Если сделать скрипт, который все-все-все ошибки найдёт, было бы здорово. Но если нет, то это развратит верстальщика, полагающегося на скрипты и, как следствие, прилагающего меньше собственных усилий.
Орфография ж - штука непростая: и авторское словообразование надо учесть, и характерную речь ГГ (диалект или неграмотность), и специальное коверкание слов. Не могу себе представить, что программа может это всё учесть.

-мабудь, не так чтобы сильно внятен. Я не предлагаю скрипт, который найдёт все-все-все ошибки.

Я боюсь, что наличие скрипта, обещающего орфографическую проверку, приведёт к снижению общего качества книг, а не к повышению.

- не нуна бояцца! Второе: без труда, как говорится...
Скрипт (если он и появится) НИЧЕГО АВТОМАТИЧЕСКИ ИСПРАВЛЯТЬ не будет. Я похожее уже по-поводу будущего "Метаграмма-контекст" высказывался. Верстальщику бездельничать не прийдётся!
Тем более - мы-то в "узком" кругу всё опробуем сперва, а потом решим - выпускать-ли на волю. Толпа о "Параграф-интерактив.js" - ведать не ведает и живёть счастливо! - "мы помним, с чего начиналось ..." (с)  М-В А.М.

Не..., тут имеется в виду другое! Сокращение времени при том-же качестве (или даже лучшем) проверки орфографии. Ну фо?! Заинтриговал?

402

Alex2L написал(а):

Заинтриговал?

Ещё как!  http://fludu.h1.ru/Smiles/friends.gif

403

О! Другое дело!
Масенькая преамбула - т.к. исходники FBE открыты - не поленился, полез, посмотрел, что да как. Н-да, писаны оные на C++. Послендим не владею, да и особо овладевать неохота. Хотя место нашёл: "word under caret"  (или что-то в этом роде) - типа слово в котором(под которым) курсор...

Похоже работает и ОРФО-2010 - скрупулёзно-методицки проверяет КАЖДОЕ слово в словаре. Любо-дорого смотреть как курсор живо бегает по строчкам, и не знаешь, когда он отыщет ОЧЕРЕДНУЮ ошибку - через 5 сек. или через 25-ть. Но юзер упорно смотрит на экран... Эст-но, из перфектционистских побуждений. А как же иначе?! :)

Как мона иначе? Хм! Мона, для начала... Кстати, а не стоит-ли методу запатентовать?!  :)
Итак, с начала (за НЕСКОЛЬКО секунд - в буквальном смысле слова) проделываем частотный анализ текста пословно. Ну частота-то нас не сильно "парит", но, для интереса:  книга-сказка "Золотой ключик" из библиотеки.
Всего слов в тексте 18636, уникальных - 6178.
Из них, ВЫБОРОЧНО! :

      13 Алиса
      50 Артемон
      19 Базилио
      99 Барабас
      20 Барабаса
     346 Буратино
      46 было
      14 волосами
      25 время
      54 всё
      32 все
      40 где
      32 глаза
      14 голубыми
      29 даже
     124 его
      15 золотой
     700 и
      94 как
     100 Карабас
      20 Карабаса
     111 Карло
      29 ключик
     433 на
     199 он
      46 она
      61 они
      10 оно
     168 я

много-ли смысла в том, что найдя ПЕРВЫЙ раз в словаре слово "и", и убедиться, что оное - верное, потом ещё 699-ть раз проверять его снова?!

Идея ясна?
1. Выбираем уникальные слова из текста.
2. Напускаем на них спелл-чекер, но не родной! Нам спотыкаться через 5-25 сек. не хотца.
3. ВСЕ ВЕРНЫЕ слова - ВЫКИНУТЬ! Они нам не нужны! И работать только с не идентифицированными "как верные". Которые, скажем "выплёвываються" в виде списка в столбик. Далее - любимая перфекционистская забава - пробежать список и исправить нужное. Ну это уже не суть как.

Я внятен?!  :)

404

Стр. 374 - почему-то два одинаковых сообщения; срабатывание ложное.


Упс! Случайно выпали две строчки кода и испортили картину маслом!
Версия та же. Здеся: http://rusfolder.com/32764364
Уже не 15-ть ложных, а всего 14-ть! :)

Стр. 137 - сработал неправильно: на "звёздочке".

- поправится в 3.ХХ

Стр. 370 - три ложных срабатывания: похоже, что ориентировка на точку в конце абзаца и следующую одну строку не даёт уверенных результатов.

- ну... да... Якоря-то всё равно нужны! К чему привязаться. И, потом, что рентабельнее - скажем, 14-ть
раз понять, что скрипт облажался (иногда, слава богу, в рамках одной страницы) или прсматривать
слипшиеся абзацы "по-старинке"?
Возможно, возможно в 3-ей версии что-то улучшится.

405

Alex2L написал(а):

Идея ясна?

Ясна.

Я правильно поняла, что это будет скрипт для ФБЕ, а не для промежуточного текстового файла из ФР?

406

Я правильно поняла, что это будет скрипт для ФБЕ, а не для промежуточного текстового файла из ФР?

- канэшна! А вот насчёт будет. Ну... могет быть и будет. :)

Задумка така:

авторское словообразование надо учесть, и характерную речь ГГ (диалект или неграмотность), и специальное коверкание слов. Не могу себе представить, что программа может это всё учесть.


- ВСЁ это будет учитываться, и если это самое "авторское словообразование" не есть словарно-понимаемое (это я авторски словообразую. Вернее, пытаюсь) - то енто всё буде видно. Так, что всё представляемо, всё возможно.
Более того, при старте скрипта можно будет "галчить" про  то как обращаться с "ё" - т.е. игнорировать или наоборот акцентировать. Кстати, встроенный спелл-чекер "ё" игнорирует принципиально. Это я тоже в коде углядел. Так что, так... :)

407

Alex2L написал(а):

А вот насчёт будет. Ну... могет быть и будет.

Будет-будет. Я верю.  :glasses:

Помнишь, я в начале нашего знакомства старый анекдот вспоминала про быков? (...тихонько спустимся в долину...)
Таки ещё актуально.  http://fludu.h1.ru/Smiles/JC_gimmefive.gif

408

Ок! Как говорили древние римляне: Festina Lente

409

По теме:

старый анекдот вспоминала про быков?


Читаю здеся: http://www.gazeta.ru/news/
— 22.09.2012 16:03 —
В австрийской деревне стадо овец по ошибке зашло в спортивный магазин

В австрийской деревне Санкт-Антон-ам-Арльберг стадо овец, направлявшееся на пастбище, перепутало поворот и оказалось в магазине спортивных товаров, передает Asia One.

По словам очевидцев, одна из овец увидела свое отражение в стеклянной витрине магазина и решила зайти в находившуюся рядом открытую дверь. За ней последовало все стадо.

Спустя некоторое время двум пастухам удалось убедить животных покинуть помещение, пока они не причинили магазину значительный ущерб.

«Они сломали несколько солнцезащитных очков и оставили после себя много грязи. Нам пришлось довольно долго убираться», – менеджер магазина Михаил Эсс, добавив, что ранее с ним «не происходило ничего подобного».  «Газета.Ru»  :)

410

Alex2L написал(а):

Санкт-Антон-ам-Арльберг

Не поверишь! Я в эту местность собираюсь в начале октября.  :D
Спасибо за предупреждение.  :crazy:

411

Пока не забыла!

Было бы хорошо в версии 3.хх детектировать текст в нижней части страницы, распознанный как сноска. Знаешь, о чём я говорю?

412

Незамеченный слипшийся абзац (стр. 307):

В воздухе пахло дымом. Вспышка молнии позволила ему рассмотреть правую сторону машины. От жара краска пошла пузырями, но стекла были целы.

— Фернандо, посмотри на колеса. Они целы?[абзац]-Да.

— Помоги мне забраться в машину.


Это я в процессе распознавания увидела. Если потом ещё найдутся, добавлю.

Кстати, прилипший к "Да" дефис - характерный признак.

Добавляю:

— Но хотя бы разговаривать мне можно? Фотографы, кстати, ненавидели, когда я разговаривала.

— Пожалуйста. Говорить можно сколько угодно. [абзац] Малоун сделал еще несколько штрихов, а затем вырвал лист из альбома и положил его на стол.

Отредактировано golma1 (2012-09-23 13:44:58)

413

Моё почтение!  http://fludu.h1.ru/Smiles/sm405.gif

Было бы хорошо в версии 3.хх детектировать текст в нижней части страницы, распознанный как сноска. Знаешь, о чём я говорю?

  http://fludu.h1.ru/Smiles/dntknw.gif - если вдруг закралось подозрение, что я ко всему прочему, ещё и гадать могу, то спешу опровергнуть! Нетъ! http://fludu.h1.ru/Smiles/nea.gif

Всё, что попадёт в текстовый файл - можно отследить. Если имеется в виду текстуха типографских тетрадок - как-то фио автора, всякие буковки, циферки, то - да.

Здеся: http://rusfolder.com/32774544 - существенно переработанная версия. Взял да и отсёк много ложных срабатываний по-залипу. Может погорячился?! :)
А вот всё что не попадало в "кадр" - теперя попадает. Кстати:

Добавляю:

и т.д. - там ещё один такой-же слУчай. Всё (мало мальски похожее) теперь учитывается!

Отредактировано Alex2L (2012-09-23 17:02:21)

414

Стоп!

Пока эта... 2.28 - лучше не пользоваться!

415

Alex2L написал(а):

Пока эта... 2.28 - лучше не пользоваться!

Ок.

Alex2L написал(а):

если вдруг закралось подозрение, что я ко всему прочему, ещё и гадать могу, то спешу опровергнуть! Нетъ!

Ну вообще-то это довольно распространённый случай.  :glasses:

http://s1.uploads.ru/DExad.jpg

416

Вот этой: http://rusfolder.com/32774820  уже мона!

' Версия: 2.28 [28.09.2012] - две (или более) подряд диалоговые строки - слипшийся абзац. Устранены
'            замеченные ошибки

Т.е. весь 6-ой параграф как сноска?!
Очень хотелось-бы поиметь TXT(с колонтитулами) и HTM(гибкая) в UTF-8-кодировке.

417

Alex2L написал(а):

Очень хотелось-бы поиметь TXT(с колонтитулами) и HTM(гибкая) в UTF-8-кодировке.

Любой каприз.

Архив

Там ещё 2 (или 3?) таких места есть.
Ради детектирования таких случаев я и предлагаю поработать сначала с редактором стилей.

418

http://fludu.h1.ru/Smiles/secret.gif Значится так. Отдетектится за милую душу без всяких яких! :)
В смысле - без лишних телодвижений со стилями. http://fludu.h1.ru/Smiles/pardon.gif

Отредактировано Alex2L (2012-09-23 18:43:37)

419

Alex2L написал(а):

Отдетектится за милую душу без всяких яких!

Отлично!  :cool:

420

Новая книга.

Тилье

Много срабатываний "Возможный разрыв абзаца" перед заголовком (например, стр.145). Понимаю, что в текстовом формате это не различить, но, может, это наблюдение пригодится для версии 3.хх.  :writing: Во всяком случае, на этом файле можно хорошо этот момент "отработать".

Поэтому в архив положила: 2 файла в txt (win1251 и utf8), htm, hta и pdf.  :flirt:


Вы здесь » Графика » Остальные программы » Скрипты и регеспы