Графика

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Графика » Остальные программы » Скрипты и регэкспы часть II


Скрипты и регэкспы часть II

Сообщений 61 страница 90 из 451

1

Топик по скриптам, регэкспам и прочим полезным вещам в практике книгоделов.

Полезности
Перенумератор ссылок в FB2 файлах (читать READ ME!)
PopChar 5.5.2 для вставки любых символов в текст (портабельная)
CompareIt! 4.2.2221 для сравнения двух файлов (портабельная)
ACDSee 5 самый маленький и быстрый вьюер/редактор для основных типов графики (портабельный)
Scholar 1.0 + ORFO 2010 portable
Scholar 1.0.2 portable (если нужно, то ORFO 2010 берется из ссылки выше)

Отредактировано GMAP (2013-05-08 18:55:20)

61

Откуда же я знала, что это важно. У меня нет ни к программе, ни к тебе никаких вопросов, страницы всегда проглядываю каждую, просто действительно пыталась быть полезной. Если бы знала, не только бы дала полное название, но и даже  каждую буковку раскрасила бы в цвета радуги, чтобы выразить восхищение программой и уважение к ее создателю. Я думала, что ты открываешь pdf в FR и там смотришь, поэтому и дала номера страниц, это не номера страниц в книге, а номера страниц в FR. Предвидя обычно вытекающие из фразы "я думала" сомнения в способности думать, все таки хотела сделать pdf с номерами страниц, но почему-то при сохранении вылетал Файнридер. Рискнула подумать, зачем нужны номера страниц книги, если даю номера страниц в документе FR.

62

Alex2L
Ты говорил, что ОРФО можно использовать частично для Scholar, если не трудно, дай список необходимых длл-ок и реестра для такой операции. Хочу попробовать урезанный вариант сделать.

63

http://fludu.h1.ru/Smiles/sm405.gif

каждую буковку раскрасила

- это лишнее!
Зато теперь знаешь! http://fludu.h1.ru/Smiles/smile3.gif  Но ещё немного не всё!

открываешь pdf в FR

http://fludu.h1.ru/Smiles/swoon.gif С целью перераспознать?!
Сама попробуй открыть и посмотреть! http://fludu.h1.ru/Smiles/mosking.gif
Я смотрю PDF-ки Foxit Reader-ом, хотя это не принципиально. Увидел распознанный документ, без колонтинулов, с примкнувшими к ним номерами страниц.

номера страниц в документе FR

- так его-то, документа энтого,  нет. http://fludu.h1.ru/Smiles/dntknw.gif
Но он мне и не нужен! http://fludu.h1.ru/Smiles/acute.gif
Ещё раз! Plese, посмотри как это оформляет Голма!

Сэпасибо за внимание!

64

ОРФО-dll & other
Dll-ки, возможно и не все нужны. Просто без некоторых не работало, так и включил весь набор. В архиве reg-файл с необходимым минимумом(?) ключей.
Удачи!

65

Фигасе ты строгий, Алекс!   :unsure:
Эвер, не обращай внимания, он и к себе такой требовательный.  http://fludu.h1.ru/Smiles/friends.gif

Люди, мы все здесь добровольно, давайте как-нибудь помяХШе друг с другом, ага?  http://fludu.h1.ru/Smiles/38c4d84a6b5f9ae9b96ab4c895371141.gif

*******************

Алекс, совсем, ну совсем другой вопрос.
Есть такой скрипт в ФБЕ - "поиск форматирования". У него много вариантов, всеми я не пользуюсь, конечно, а вот некоторые юзаю рЫгулярно. Всё бы хорошо, но фокус при нахождении искомого находится в нижней строке.
Если это не очень сложно, можно перенести его на середину страницы?
Если нужно, могу назвать те скрипты, которыми пользуюсь чаще всего. Или там "оптом" всё делается?  :flirt:

66

Alex2L
Нет, чего-то не хватает. Я пробовал заменять на дллки и полный реестр из своей сборки, все равно не находит апишку.

67

GMAP
http://fludu.h1.ru/Smiles/dntknw.gif А все-все ключи из reg-файла накатывал? Я на этапе экспериментов убедился в том, что ОБЯЗАТЕЛЬНО должны быть uninstall-ключи. Иначе никак. Типа, если прогу не надо удалять с компа, стало быть она не установлена!  http://fludu.h1.ru/Smiles/sarcasticaa9.gif Кажется, это trial_orfo.dll проверяет. Попробуй, если есть такая возможность, в виртуальной ОС пошаманить. Именно этот набор работает на рабочем компе. Единственное но, что не включил в архив файлы типа "Текстовый Украинский Словарь пользователя.dic" - т.к. имели нулевую длину. Может собака порылась именно в этом?! По-идеи они у тебя должны быть, длина полагаю не важна. Либо пути реальные расходятся с указанными в reg-файле. http://fludu.h1.ru/Smiles/pardon.gif Других идей нет.

Голма
Happy New Year!
По-мяхше?! Ок! Только вот "двойные стандарты", так скать, глаза мозолят...
Пока хотелку трудно реализовать. Либо вообще невозможно заставить FBE позиционировать курсор в центре экрана. На Либре есть ветка про умельца, который что-то пытается, новый FBE ваяет. Вот когда сваяет, можно, полагаю, напрячь товарища. Единственное, что можно попробовать, применить какие-нить Active-X, для имитации нажатия клавиш. На досуге попробую. Не факт, что получится, чтобы "фокус" на найденном слове не поплыл куда-нить... http://fludu.h1.ru/Smiles/sad.gif

Я внятен?!

68

Alex2L
Я же сказал - полный комплект реестра из рабочей сборки. Да, вначале была ругань на триальную дллку, но после прекратилась, остался только вопль о недостающей апишке. Ладно, это была попытка, не увенчавшаяся успехом, можно забить и забыть до следующего приступа активности. Вот тогда буду постепенно рубить хвост в виде удаления файлов, может и доудаляюсь методом научного тыка :-)

69

Alex2L написал(а):

Я внятен?!

Абсолютно.
Спасибо, забудь.

70

GMAP

Ну да... На будущее. В случае, если резко захочется с ОРФО поиграться.
Насчет ругани. Delphi, но понятно и так:

  try
    cnt:=GetSpellLanguages(Languages,loNative);
    for i := 0 to cnt - 1 do
    begin
      Lang:=TLanguage(Languages.Objects[i]);
      if Lang=FMainLang then
        FMainSpeller:=TCSAPISpeller.Create(Lang,FOptions)
      else
        FOtherSpellers.Add(TCSAPISpeller.Create(Lang,FOptions));
    end;
    FInitialized:=true;
    SetOptions(FOptions);
    FDefaultUserDict:=FMainSpeller.DefaultUserDict;
  except
    Application.MessageBox('Cannot find Microsoft Common Speller API','Error',0);
    FMainSpeller:=nil;
    FOtherSpellers.Clear;
    FInitialized:=false;
    FUse:=false;
  end;

- на этапе инициализации не видит словарей. Вызывает функцию GetSpellLanguages:

function GetSpellLanguages(Languages: TStrings; Option: TLangOption): Integer;

...

  Registry := TRegistry.Create;
  try
    Registry.Access := KEY_READ;
    Registry.RootKey:= HKEY_LOCAL_MACHINE;
    if Registry.OpenKey('\SOFTWARE\Microsoft\Shared Tools\Proofing Tools\Spelling', False)
      then Registry.GetKeyNames(Languages);
  finally
    Registry.Free;
  end;

- пытается вычитывать ветку... и не находит нужных ключей http://fludu.h1.ru/Smiles/pardon.gif

71

На Либрусек выложили литресовскую версию книги, которую я недавно делал. Жутко интересно было сравнить их между собой. Да, мне есть еще над чем работать, но изрядно позабавили неустраненные корректорские косяки, особенно один "Pokhoda, cyka". Что за язык, не знаю :-)

72

GMAP написал(а):

На Либрусек выложили литресовскую версию книги, которую я недавно делал. Жутко интересно было сравнить их между собой. Да, мне есть еще над чем работать, но изрядно позабавили неустраненные корректорские косяки, особенно один "Pokhoda, cyka". Что за язык, не знаю :-)

ЛитРес косячит так, что уважающий себя верстальщик застрелился бы.  :tired:
Этот факт доставляет особенно на фоне аргумента - "у пиратов плохие тексты, с ошибками" и пр.

И там есть хорошие и известные верстальщики. Просто, думаю, у них нет столько времени, чтобы вылизывать каждую книгу. План, небось, надо выполнять.  :surprise:

73

GMAP написал(а):

"Pokhoda, cyka".

Кстати, это было бы хорошим аргументом в споре, чтó ЛитРес получает как исходник. Они уверяют, что авторский текст или издательский макет. А косяк явно ФР-шный :glasses:

74

golma1 написал(а):

Они уверяют, что авторский текст или издательский макет.

Увы, но они правы, в данном конкретном случае, сомнений нет и быть не может. Точно те же самые косяки в книге : сорокопятка, повзврослев, Терскотт (вместо Теркотт) - тик в тик, как в бумажной книге. Тут другое неприятно. Какой смысле распознавать и вычитывать косяки OCR, если чуть позже появляется литресовский вариант, который куда проще править, уж FR-овских ошибок там точно не будет. Недавний случай с HL, которые заявили корневского "Чистильщика", а в паблик попал литресовский вариант. И чего, спрашивается, я тратил время, если разница в две недели между бумагой и файлом.

75

GMAP написал(а):

Какой смысле распознавать и вычитывать косяки OCR, если чуть позже появляется литресовский вариант, который куда проще править, уж FR-овских ошибок там точно не будет.

Этот вопрос стоит не только перед Вами. Некоторые перестали делать книги, которые (исходя из опыта) ЛитРес всё равно сделает. Другие "соревнуются" с ЛитРесом.
И у тех и у других есть своя аргументация. Так что каждый решает для себя.  :dontknow:

76

golma1
Вы не пробовали нечто подобное для обработки текстов в Word после FR? Автор заявляет о своей заинтересованности в добавлении всякого рода полезностей, предложенных юзерами, вплоть до поощрения.

77

Нет, не пробовала. Я очень рада тому, что теперь можно исключить промежуточные ступени, каждая из которых добавляет ошибки при конвертировании из формата в формат.

Честно говоря, меня лично ФР11 более чем устраивает, тем более, что с помощью Алекса удалось побороть один из самых неудобных для поиска багов. Остальные борются "легко и приятно" (с).
Набор скриптов ФБЕ при методичном употреблении позволяет вычистить практически все грубые ошибки. Плюс Алекс сделала ещё Метаграмму.

Мы с Вами уже как-то общались по этому поводу. Я не любитель "набора" программ, если можно ограничиться двумя основными. Может, это и неправильно, но я результатами довольна. И окружающие, насколько я могу судить, тоже.  :flirt:

Что, разумеется, не означает, что другие методы хуже или менее качественны.  http://fludu.h1.ru/Smiles/60e5b04866d90e6324fc14d0ab03e193.gif

78

Алекс, первый раз встретила такое.
Последнее сообщение скрипта - со стр. 32. Всего в проекте ФР 300 страниц.  :dontknow:

Файлы

Надо ещё присылать отчёты, или ты уже полностью переключился на другой алгоритм?

79

http://fludu.h1.ru/Smiles/sm405.gif
Да... Сам в шоке.  http://fludu.h1.ru/Smiles/swoon.gif  Пока неясно из-за чего. http://fludu.h1.ru/Smiles/dntknw.gif
Ну что же - отличнейшая "кошка"!
Такие надо присылать!

80

Расследование инцидента показало, что в этой книге нет ни одной сноски-примечания. Программа ошибочно посчитала за сноску первый фрагмент a-la сноска на стр. 33 книги: "2 № 142". Попыталась оповестить о потерянной сноске  http://fludu.h1.ru/Smiles/dntknw.gif и не шмогла.  http://fludu.h1.ru/Smiles/pardon.gif
Новый алгоритм в этом плане несравненно устойчивее. Но пока в процессе доводки до рабочего состояния.

81

golma1 написал(а):

первый раз встретила такое

Я тоже :-) Имеется в виду CS на таких, как бы это помягше... необработанных файлах. Кстати, Вы в курсях, что FR11 принципиально не может распознавать такие файлы? FR8 может, у него есть опция отключения текстовой подложки.
Вот такая штучка, увы, исчезла, поэтому FR 11 не OCR-ит, а тупо копирует текстовый слой из Акробата. Будьте внимательны!
http://i076.radikal.ru/1304/2e/362de6017820.gif

Отредактировано GMAP (2013-04-13 16:20:10)

82

Дружище GMAP не надо писать всякую ерунду безапеляционным тоном. Ты ж разбирись сначала о чём речь. "Первый раз встретила такое" - имеется в виду работа Spotter-a, и я признаю наличие проблемы. И в следующей версии её устраню. Сами сканы обработаны нормально, во всяком случае ПЧ-11 всё достаточно уверенно распознал. В силу своих возможностей. PDF-ка представлена разумеется зело ухудшенного графического качества, для работы (если понадобиться внести правку) вполне достаточно, но не более того. Качественно ПЧ-8 распознаёт ЛУЧШЕ чем ПЧ-11, но у него много неудобств, которые сводят к сожалению на нет это преимущество.

Я внятен?! http://fludu.h1.ru/Smiles/sarcasticaa9.gif

83

Тогда ошибся, посчитав этот pdf основой для распознавания. Уж больно качество посредственное.

84

Бывает!
Насчёт PDF-а - "качество посредственное" - это мягко сказано! Зато какой у него масенький размер + внедрённый текстовый слой!  http://fludu.h1.ru/Smiles/good.gif

Голма! Ау! У Эвер похожая проблема +/- ...  http://fludu.h1.ru/Smiles/sad.gif Может эта... Написать краткую инструкции по созданию вот такого вот PDF-файла? В предверии обновлённого Spotter-а?!  http://fludu.h1.ru/Smiles/yes3.gif Пару слов, буквально. Ну как умеешь!

85

GMAP написал(а):

посчитав этот pdf основой для распознавания.

Этот pdf предназначен для сравнения при вычитке. Найти нужное место в нём намного проще и быстрее, чем рыться в сканах. Не говоря уже о размерах хранимого.

86

Alex2L написал(а):

Написать краткую инструкции по созданию вот такого вот PDF-файла?

Где-то я уже писала. Но искать дольше, чем написать ещё раз.
Поэтому (перевод пунктов меню с немецкого, возможны неточности):

1. Собрать в один документ:

http://s3.uploads.ru/Lzw6W.jpg

2. Выбрать все страницы скана:

http://s3.uploads.ru/HW86N.jpg

3. Клик на "собрать в один документ".

http://s3.uploads.ru/3xqs9.jpg

4. Сохранить полученный документ (важно, поскольку при дальнейшей обработке могут быть накладки).

5. Выбрать пункт меню
Документ -- OCR распознавание -- распознать текст с OCR
Выбрать "все страницы" или какой-то диапазон страниц:

http://s3.uploads.ru/QuFsr.jpg

6. Выставить опции:

http://s2.uploads.ru/up1ET.jpg

Запустить. Подождать. Сохранить.

Нужен Adobe Akrobat Professional (не Reader, естественно).

87

К посту 86 http://fludu.h1.ru/Smiles/clapping.gif

88

Alex2L написал(а):

Зато какой у него масенький размер + внедрённый текстовый слой!

http://rghost.ru/45262392 - 25 кил на страницу. Разрезка пополам делается ровно в один щелчок мышкой в Акробате.

89

GMAP написал(а):

Разрезка пополам делается ровно в один щелчок мышкой в Акробате.

А это ещё зачем?

90

golma1 написал(а):

А это ещё зачем?

Чтобы номера страниц в книге и файле совпадали. Хотя, не очень понятно зачем нужен pdf со сканами, когда они все есть в FR, причем, уже разрезанные.


Вы здесь » Графика » Остальные программы » Скрипты и регэкспы часть II