Графика

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Графика » Остальные программы » Скрипты и регэкспы часть II


Скрипты и регэкспы часть II

Сообщений 31 страница 60 из 451

1

Топик по скриптам, регэкспам и прочим полезным вещам в практике книгоделов.

Полезности
Перенумератор ссылок в FB2 файлах (читать READ ME!)
PopChar 5.5.2 для вставки любых символов в текст (портабельная)
CompareIt! 4.2.2221 для сравнения двух файлов (портабельная)
ACDSee 5 самый маленький и быстрый вьюер/редактор для основных типов графики (портабельный)
Scholar 1.0 + ORFO 2010 portable
Scholar 1.0.2 portable (если нужно, то ORFO 2010 берется из ссылки выше)

Отредактировано GMAP (2013-05-08 18:55:20)

31

Alex2L написал(а):

ОРФО-2010 весьма хорош

С чего бы это вдруг? Если в целом, то такое же УГ, как и все подобные программы. Ситуацию со спеллчекерами и словарями русского можно охарактеризовать одним словом - ху...до :-) Давеча прикупил себе сборник электронных словарей, весь из себя такой полный. И что? У титанов типа Лопатина и иже с ним, то и дело расхождения по поводу орфографии, один так, другой эдак. Про грамматику вообще молчу. Нет государственного подхода к родному языку, вот и выеживаются кто на что горазд. Вот эти деятели в детстве читали жюльверновскую книгу? Имхается, что нет, разве что букварь выкурили?
http://s017.radikal.ru/i430/1304/00/1d6aa0738a67.gif

32

С чего бы это вдруг?

- категоричный вы наш! http://fludu.h1.ru/Smiles/sarcasticaa9.gif
Всё, как говорится, познаётся в сравнении. Так вот в сравнении со штатной  проверкой орфографии в FBE, ОРФО выглядит намного предпочтительнее.
И кстати "пятнадцатилетний" не считает ошибкой. Чем проверялся вышеприведенный фрагмент? Неплохо было бы указать! Чтобы другие на теже грабли...
Это с одной стороны, с другой - мне интересно, чтобы spellchecker можно было "привинтить" к программе. Много ли таких словарей? Я вот ещё поглядывал в сторону
hanspell-овских словарей. Пробовал (субъективно ест-но), бегло вот этот: dict_ru_RU-AOT-0.2.7-ieyo.oxt показал рез-ты сопоставимые с ОРФО-2010.
Но я пока остановился на всё таки на ОРФО. Более того, пробовал on-line сервис от Яндекса. Так тот тоже показал себе не на высоте. Вдобавок там ограничение на кол-во символов проверяемого фрагмента, да и неохота писать прогу, которая лезет в паутину, правда с вполне мирными намерениями.
В целом, согласен - ситуация с проверкой хотя бы орфографии не ахти, но надо же хоть на что-то опираться.
Если есть из словарей что-нить лучше и с возможностью "прикрутить" - дай знать, может что и "выгорит".

Я внятен?!

33

Alex2L написал(а):

категоричный вы наш!

Тэкс! Бум приводить практические примеры. Вы судите об ОРФО исключительно как о плагине к другим софтам, в том числе и к своему, а я рассматриваю его работу как Stand alone. Есть у меня такое право? И могу поклясться, положа руку на любую часть тела, что ни один девелопер никогда не проверял им реальный текст. Ибо при попытке по ходу дела исправить текст (ошибка, которую ОРФО не видит), нужно выходить из режима проверки, иначе окно блокируется. Опустим нецензурные выражения в ходе такой проверки. И Ворд, и FBE, и многие другие софты, таких косяков себе не позволяют. А если вспомнить о забывчивости ОРФО при выходе, где он был и что ему было сказано, то эпитет УГ выглядит почти комплиментом :-) Да, забыл, "пятнадцатилетний" косяк - "нежно любимый" FR11. Который просто обожает выдать что-нибудь эдакое, скажем, вместо Глория - Ююрия, "1лоуб" - "Глоуб", все ходы записаны :-) А его конек - замена "с" на "е" в конце буквально всех слов в кавычках, которые он не знает, свежее "Таймс" - "Тайме". Кстати, надо будет сделать такую проверку в скрипте. Что до наилучшего метода проверки орфографии, если бы я умел редактировать словари, то просто забил бы туда лопатинский файл на 190 000 тыщ слов, потом напустил бы на свои книги словарный поисковик, отфильтровал бы повторы и так после каждой новой книги. Сразу говорю - не знаком с базами данных, поэтому плохо представляю при каком количестве слов будут тормоза. А вот с грамматикой куда сложнее, выбор небольшой - Ворд да ОРФО, других что-то не припоминаю.

34

GMAP написал(а):

Кстати, надо будет сделать такую проверку в скрипте.

Давно есть. Как и "Уильяме" вместо "Уильямс".
Говорю же - оглядитесь сперва. Может, Вам не придётся так много выдумывать.  :glasses:

Вот исходный  скрипт.
Вот мой  вариант.

Отредактировано golma1 (2013-04-05 13:03:46)

35

Моё почтение! http://fludu.h1.ru/Smiles/sm405.gif
А можно эта... Уильяме, Уильямс и пр. что в скрипте - просто при случае посмотреть, сколь уверенно ПЧ-11 распознал это место.
Т.е. нет ли лазоревого фона на Уильяме?! И еще - сильно любопытно: как распознавал такие случаи ПЧ-8? Вот только не надо сетовать на память! http://fludu.h1.ru/Smiles/smile3.gif

36

golma1 написал(а):

Говорю же - оглядитесь сперва

Ваш вариант - версия 2.7, а на указанном сайте 2.9. Вопрос - если это плов, то где же кошка? Если это кошка, где же плов? :-) Не надо меня все время тыкать носом в некие приватные скрипты, поскольку предмет тыкания толком не документирован и не очевиден, до него еще добраться надо. Я с полпинка не смог, если бы не Ваши ссылки, то в жисть бы не нашел. Придется в КомпареИт все тщательно сравнивать и отделять плов от кошек, а кошек от плова...

37

Алекс, посмотрела в книжке, где ПЧ-11 распознал имя Монс как Моне, и Фридрихс как Фридрихе. Все 33 случая Моне были на лазоревом фоне, из восьми случаев Фридрихе только один не был подсвечен лазоревым.

Отредактировано evernet (2013-04-05 15:22:22)

38

О! Ольга, приветствую!
Это есть good! http://fludu.h1.ru/Smiles/good.gif

из восьми случаев Фридрихе только один не был подсвечен лазоревым

- как говориться: "достаточно одной таблэтки" (с)
Иными словами - если ХОТЯ БЫ раз ПЧ споткнулся на каком-то слове - имеет смысл на ВСЕ случаи этого слова в этом тексте обратить внимание!
Так - большое спасибо за информацию! http://fludu.h1.ru/Smiles/thank_you.gif

Я внятен?!

39

Alex2L написал(а):

ПЧ-11... ПЧ-8

Не знаю такую аббревиатуру. Имеется в виду FR?

40

http://fludu.h1.ru/Smiles/yes3.gif
Дословный перевод. http://fludu.h1.ru/Smiles/pardon.gif Прекрасный Чтец

41

Alex2L написал(а):

А можно эта... Уильяме, Уильямс и пр. что в скрипте - просто при случае посмотреть, сколь уверенно ПЧ-11 распознал это место.

Абсолютно не сетую, потому что это моя "находка". Не всегда есть знак "неуверенно распознанного символа". Поэтому и вошёл в скрипт.

Дело в том, что форма слова "Уильяме" тоже существует, поэтому в тех случаях, когда ФР не подсвечивает бирюзовым цветом, увидеть это место без чтения невозможно.
Если помнишь, что я писала в своей теме на Л., то я всегда просматриваю эти самые "неуверенно распознанные символы". Единственный вариант, когда действительно могу пропустить что-то серьёзное - большое количество "бирюзы" на странице (обычно бывает в случаях, когда таким образом подсвечиваются тире в диалогах).

42

GMAP написал(а):

Ваш вариант - версия 2.7, а на указанном сайте 2.9.

Вы не поняли. Изначально есть заготовка, в которую можете внести всё, что считаете нужным. "Заготовка" - одна для всех.
Есть разные варианты - один из них уже встроен в ФБЕ по умолчанию, на него я дала Вам ссылку. А есть "personal edition".

GMAP написал(а):

Не надо меня все время тыкать носом в некие приватные скрипты

Без проблем. Буду молча хихикать, наблюдая изобретение уже существующего. http://fludu.h1.ru/Smiles/smoke.gif

43

Абсолютно не сетую

http://fludu.h1.ru/Smiles/good.gif
Только эта... Я имел в виду как ПЧ-8 распознавал в своё время Уильямс?!
Точно также? Или... http://fludu.h1.ru/Smiles/wink3.gif
Т.е. без учета всего прочего (нужного, полезного и т.д.), интересует мнение (субъективное) многоопытного верстальщика о разнице в качестве ТОЛЬКО распознавания между ПЧ-8 и ПЧ-11? http://fludu.h1.ru/Smiles/blush2.gif

Я внятен?! http://fludu.h1.ru/Smiles/smile3.gif

44

golma1 написал(а):

Вы не поняли.

Напротив, я все понял, достаточно было сравнить разные варианты между собой. К таким вещам подхожу сугубо прагматически - не устраивает? подрихтуем! не знаем как? научимся! На досуге попробую привести эту сборную солянку из разных вариантов хотя бы в относительный порядок, сейчас там черт ногу сломит, что есть, чего нет, что дублируется и т.д.

45

Alex2L написал(а):

как ПЧ-8 распознавал в своё время Уильямс?!

Это давняя и весьма печальная история. На форуме ABBYY уже неоднократно обсуждалось. Дело не в качестве распознавания разных версий, а в пресловутом ИИ, которого на самом деле нет. Я как-то упомянул на Либрусеке о том, как этот ИИ отключить, дык меня тут же начали охаивать, дескать, приходится больше править. А на кой мне этот ИИ, сказано FR - распознать, а не домысливать! Вот пущай и делает без самоплясу. С FR имею дело еще с 3-й версии, получал бесплатные лицензии на ихних конкурсах, даже бетатестировал, поэтому кое-что знаю, плюс привычка анализировать выпадающие из ряда вон ошибки OCR.

46

даже бетатестировал, поэтому кое-что знаю

Отлично, дружище! http://fludu.h1.ru/Smiles/clapping.gif
Так поведай, не стесняйся! Тем более, обсуждалось по-видиму, не только на форуме ABBYY. Лопатить всё - времени нет.
Т.к. все версии ПЧ не пробовал, но в состязании по качеству распознавания 8-ой ПЧ явно, как по мне, так выглядит предпочтительнее 11-го.
Если на это влияет только ИИ, тоже интересно как его отключить, опять же не лопатя Либрусековский форум.

47

Вот такие были хинты от девелоперов:
--------------
Английский
Меню Tools -> Language Editor -> Выбираем язык -> New -> Соглашаемся создать копию (Create a new language based on existing one) -> Раздел Dictionary, кнопка None.

Русский
Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел Словарь, кнопка Нет.

Этого и сейчас можно достичь. Для этого нужно создать язык с нужным алфавитом, отключить словарную проверку и внимательно просмотреть его свойства на страничке Advanced (Дополнительно). Важно: правильно указать пунктуаторы и выключить (либо оставить включённой, но делая это осознанно) галочку "в языке есть аббревиатуры, числа и т.п."
--------------
Мне еще думается, что нужно внимательно подойти к списку распознаваемых символов, он там где-то зарыт, в редакторе языков. Если книга - сугубая беллетристика, то незачем всякими экзотическими знаками напрягать скудный разум FR. Касаемо качества FR8 полностью согласен, имхается, что это последняя приличная версия. Напрягает исключительно неудаление колонтитулов, но их можно прибить в растре, до OCR. У меня все версии под рукой, несмотря на утверждения что "портабельных FR НЕ БЫВАЕТ!". Еще как бывают, от 7-й до 11-й, вглубь веков не стал рыть.

48

Alex2L написал(а):

о разнице в качестве ТОЛЬКО распознавания между ПЧ-8 и ПЧ-11?

Ну, ты и захотел! Это ж когда было!
Не могу тебе ответить. Я тогда такой статистикой не интересовалась.

В каждой версии были свои баги, которые надо было побороть. Начиная с 10-й серии стало много лучше, 11-я - ещё лучше. Но собственные баги (новые) имеет, а как же!
Да ты сам всё знаешь, не прибедняйся. ;)

Насчёт "8-я лучше" категорически не согласна. Ташта это без меня.  :flag:

Отредактировано golma1 (2013-04-05 19:32:22)

49

http://fludu.h1.ru/Smiles/thank_you.gif Спасибо, хинты попробую.
ПЧ-8 у самого портабельная версия. Абсолютно никаких нареканий.
Насчет прибивания колонтитулов в растре - хотелось бы это дело в "одно касание"...  http://fludu.h1.ru/Smiles/mosking.gif
Таки есть над чем подумать.  http://fludu.h1.ru/Smiles/smile313.gif

50

Начиная с 10-й серии стало много лучше, 11-я - ещё лучше.

- не уверен! Честно! Не уверен.
Но! До холиваров предлагаю, уважаемые коллеги, не доводить. Пусть каждый останется при своём мнении!
"На вещи нужно смотреть ширше. А к людям относиться мягше!" (с)
А там посмотрим, зачем зазря в воздухе шашками махать?!

51

Говорили мне знающие люди, что много лет назад у ABBYY утекли основные "мозги", причин утечки не знаю. Судя по псевдопрогрессу, в это охотно верится. Когда тамошние зазывалы в очередной раз истошно верещат о ...дцати процентах улучшения OCR, всегда возникает вопрос - а относительно чего? Насколько я заметил, движок FR находится в состоянии неустойчивого равновесия. Сто раз одни и те же символы распознает правильно, а на сто первый выдаст лажу. Было дело, проверял FR на вшивость с помощью генератора русских псевдослов (забавная штука, применяется в VerseQ), твердо установил - подгоняет по словарю, а не распознает. А сколько "мере" в книгах, не говоря про "лидеров" на букву "пэ". Выше приводил пример с Ююрией, которая Глория. Стоило чуть подправить ластиком хвостик у "Г" и после повтора четко стала Глория, хотя качество скана очень хорошее, 600 dpi, мусора нет. Ну и классический пример из личной практики: Твой поезд ушел - Твой поезд запел. Подсылал им сканы с подобной ошибкой, связанной с "у", но не проверял сделали или нет.

Отредактировано GMAP (2013-04-05 20:14:47)

52

Бум думать, бум. Потом действовать. С учетом всего вышеизложенного и не только мной. http://fludu.h1.ru/Smiles/sarcasticaa9.gif
Последовательно.
Пора вернуться к улучшению Spotter-a. Spotter-3 версии 2.0  http://fludu.h1.ru/Smiles/wink3.gif
Раздам всем по серьгам!

53

Читать, смотреть, много думать, искренне каяться и больше так не делать! :flag:

54

Особенно доставляет наличие Аймобилки в списке.  http://fludu.h1.ru/Smiles/mosking.gif

55

Вернемся к нашим баранам.

Споттер-3.

стр. 127 Похоже разрыв абзаца страницей!
Указанный текст находится посреди страницы

Файлы

56

http://fludu.h1.ru/Smiles/sm405.gif

стр. 127 Похоже разрыв абзаца страницей!
Указанный текст находится посреди страницы

http://fludu.h1.ru/Smiles/sad.gif
Малообъяснимое решение Spotter-а. http://fludu.h1.ru/Smiles/dntknw.gif
В оправдание можно сказать - место-то он не проворонил, но зарапортовался малёхо. http://fludu.h1.ru/Smiles/pardon.gif
http://fludu.h1.ru/Smiles/secret.gif Работаю над новым алгоритмом.

57

Alex2L
Какие требования у Scholar к fb2 файлам? Имеется в виду заголовок, разбивка на части, лишние теги и т.д. Подсунул сырой файл после FR8/doc2fb, сначала не хотел делать ничего, после вставки genre и имени автора обработка прошла, frombook.js создался, но были выданы два окна с ошибками сценария IE, после этого появилось окно Scholar, но пустое, списка слов нет. Инфа сохранена, могу выложить, только скажите что именно.

58

Привет!

Какие требования у Scholar к fb2 файлам?

- анализируются ТОЛЬКО то, что между тегами <p> и
</p>.
Ошибки сценария вызывают появление в тексте символов типа кавычек, апострофов и т.п. Т.е. не входящих в набор [A-zA-яё0-9] и знаков препинания .,;!? и может ещё что, что по-идеи нужно представлять через амперсанд-последовательности, типа: &lt; &gt; &quot; и т.д. Это проблема HTA.
Менять всё на эти дела морочливо, посему - сырое лучше не совать, во избежании...
Но можно и рихтануть руцями соответствующую строку frombook.js, номер которой виден в окне ошибки сценария IE. Выкусив лишнее в поле "text:"
Присылать не нужно.
И эта.. Мы тут вроде как на ты...

Я внятен?!

59

Здравствуйте!
Алекс. У меня в книжке звездочки *** в колонтитуле не нашлись как потерянный текст. Стр. 22, 111, 114, 150, 182, 186, 231, 276, 365, 410, 428, 462
Если надо http://ge.tt/9gpaIVd/v/0

60

http://fludu.h1.ru/Smiles/sm405.gif

У меня в книжке звездочки *** в колонтитуле не нашлись как потерянный текст

- да? Ну и ...! http://fludu.h1.ru/Smiles/mosking.gif
Структуру, ИМХО, лучше всё равно еще раз пробегать глазами, секции, титлы, субтитлы, сноски и т.д.

Если надо...

Честно? Только честно?! В таком виде НЕ НАДО!!! http://fludu.h1.ru/Smiles/nea.gif
Бери пример с Голмы - можно скачать вчерашний её архив и увидеть разницу! http://fludu.h1.ru/Smiles/good.gif
Но на всякий случай поясняю:
Архив желательно обзывать хотя бы по автору книги. Внутри архива файлы именовать тоже вменяемо. 1.* - не годится!!!
Вернее годится, но мне так совсем не нравится! Коли есть ко мне (моей программе) вопросы - желательно предьявлять в виде удобном для анализа и восприятия.
Ок-и?! http://fludu.h1.ru/Smiles/wink3.gif
НТА-файл - не нужен в принципе. PDF-ка нужна в виде сканов с "текстовым слоем" (для поиска при необходимости).
Ну скажи, пож-та, как мне искать

Стр. 22, 111, 114, 150, 182, 186, 231, 276, 365, 410, 428, 462

?! Там же страниц не видать!!! Или вычислять их по НТА-файлу?! Для этого заботливо его и упаковала?! http://fludu.h1.ru/Smiles/sarcasticaa9.gif Так тех "звёздочек" всё одно не видно!
Ладно, не обижайся! http://fludu.h1.ru/Smiles/pardon.gif С кем не бывает!
Охотно верю, что хотела пользу принести, хотела "как лучше" http://fludu.h1.ru/Smiles/mosking.gif

Я внятен?!


Вы здесь » Графика » Остальные программы » Скрипты и регэкспы часть II