Руководство по импортированию словарей

English | Français | Русский

К обзору документации можно перейти здесь

Введение

Данный документ содержит руководство по использованию Wunderkammer Import Package 2 для конвертирования электронных словарей в формат для просмотра на мобильных телефонах при помощи Wunderkammer. Процесс конвертирования включает в себя три основных этапа:

  1. Проверка правильности формата исходного словаря
  2. Конфигурирование параметров конвертации словаря в wkimport
  3. Установка словаря на мобильных телефонах

По желанию, вы можете также произвести следующие изменения:

  1. Изменить тему оформления
  2. Создать специальный шрифт (для более опытных пользователей)

Обратите внимание на то, что для работы с Wunderkammer Import Package на вашем компьютере должна быть установлена Java. Если Java на вашем компьютере еще не установлена, вы можете здесь бесплатно скачать версию для вашей операционной системы.

Типичные проблемы, которые могут возникнуть при импортировании словарей, обсуждаются в разделе Возможные неполадки и их устранение. Если вы столкнетесь с проблемой, которая там не упомянута, напишите о ней (по-английски) Джеймсу, по адресу james собака pfed точка info

Формат исходного словаря

Wunderkammer Import Package может читать и конвертировать словари в формате Shoebox/Toolbox, в котором поля маркируются обратной косой чертой \, а также в формате XML, используемом в программе Kirrkirr. В принципе, мобильная версия может быть создана на базе любого электронного словаря. Тем не менее, для достижения оптимального результата при импортировании словарей вам следует учесть некоторые особенности организации Wunderkammer.

Wunderkammer не предоставляет полноценной поддержки представления нескольких значений в рамках одной словарной статьи. Так, хотя, в принципе, порядок полей в словарной статье и позволяет сгруппировать поля по значениям этой статьи (при условии, что wkimport сконфигурирован таким образом, что порядок полей в результирующем словаре воспроизводит порядок полей в импортируемом словаре, о чем см. ниже в разделе Закладка Соответствия), подобные группы полей в рамках словарной статьи не могут быть использованы в Wunderkammer в качестве объектов, например как цель поиска в меню или как цель ссылки. Длинные статьи с несколькими значениями могут также быть довольно неудобными для просмотра на маленьких экранах мобильных телефонов, поскольку просмотр всей такой статьи потребует от пользователя длительной прокрутки экрана. Для конвертирования в формат Wunderkammer словарей, использующих несколько значений в рамках одной словарной статьи, лучше всего будет, наверно, переформатировать подобные словари путем разнесения значений по нескольким омонимичным словарным статьям или, насколько это допускает семантика различных значений, путем объединения нескольких значений в одно значение.

В процессе импорта Wunderkammer Import Package автоматически унифицирует статьи исходного словаря. Если в словаре имеются статьи, входные слова которых имеют идентичное написание, то в процессе импорта омография будет разрешена посредством добавления номера к каждому из подобных входных слов. Нумерация в каждой группе омографичных входных слов начинается с 1. Так, в словаре с двумя статьями, входное слово каждой из которых turla, входные слова будут переименованы в turla 1 и turla 2.

Всякая ссылка, установленная ранее к входному слову, которое в процессе импорта подвергается унификации, оказывается нарушенной. Списки унифицированных входных слов и недействительных ссылок распечатываются в закладке 'Консоль' в процессе импорта.

В процессе унификации программа не проверяет не создает ли сама унификация новых омографичных входных слов. Во избежание возникновения новых дублетов в процессе унификации, составителям словарей следует избегать представления входных слов в формате, используемом процессом унификации.

Конфигурирование словаря

Импорт словаря осуществляется программой wkimport.jar, написанной на Java. На большинстве систем, на которых уже установлена Java, программа wkimport.jar может быть запущена двойным нажатием мыши.

При первом запуске wkimport автоматически определяет язык операционной системы и при наличии соответствующей версии выводит пользовательский интерфейс на данном языке. Если версия пользовательского интерфейса на данном языке в wkimport отсутствует, интерфейс автоматически выводится на английском. Язык пользовательского интерфейса wkimport может быть изменен в меню Настройки > Язык.

Для импортирования словаря wkimport должен знать, где находится исходный словарь и как этот словарь должен быть представлен в Wunderkammer. Настоящий раздел содержит подробную информацию о параметрах, которые вам необходимо установить в трех закладках пользовательского интерфейса wkimport для осуществления импорта.

Параметры конфигурации, устанавливаемые в wkimport, могут быть сохранены и впоследствии вновь вызваны посредством комманд Сохранить конфигурацию и Загрузить конфигурацию в меню Файл. В Wunderkammer Import Package включены файлы демо-версий двух словарей в качестве образца действующих конфигураций. Демо-версия словаря языка каурна является примером словаря в формате XML. Файл конфигурации этого словаря находится в ./demodics/kaurnademo/kaurnaconfig.cfg Демо-версия словаря языка тура является примером словаря в формате Shoebox/Toolbox. Файл конфигурации этого словаря находится в ./demodics/tourademo/touraconfig.cfg

После установки всех необходимых параметров словарь может быть конвертирован в формат Wunderkammer посредством команды Создать словарь в меню Выполнить. При выполнении этой команды вы будете автоматически переведены в закладку Консоль, где будет выводиться информация о ходе процесса импорта словаря, а также сообщения о возможных ошибках. Файлы jar и jad конвертированного словаря будут помещены в папку назначения, указанную вами в закладке Импорт/Экспорт.

Закладка Импорт/Экспорт

В текстовых полях в закладке Импорт/Экспорт указывается информация об исходных и результирующих файлах словаря. Справа от текстовых полей, требующих указания пути к файлу или папке, имеются кнопки, по нажатии которых открывается диалоговое окно выбора файла. Путь к выбранному вами в этом диалоговом окне файлу (или папке) автоматически вводится в соответствующее текстовое поле.

Input/Output tab Ил. 1. Закладка Импорт/Экспорт.

Данные указываемые в текстовых полях:

Закладка Соответствия

В закладке Соответствия устанавливаются "соответствия" между полями импортируемого словаря и полями результирующего словаря, в результате чего wkimport будет, например, знать, что поле lx импортируемого словаря должно отображаться как поле лемма в результирующем словаре.

При первом запуске wkimport список Исходные поля будет пуст. Если импортируемый словарь является словарем в формате Shoebox/Toolbox, список может быть заполнен автоматически на основе импортируемого словаря при помощи кнопки Заполнить список, которая находится непосредственно под списком Исходные поля, как показано на ил. 2.

Ил. 2. Закладка Соответствия, на примере словаря в формате Shoebox/Toolbox.

Если импортируемый словарь является словарем в формате XML, пути адресации XPath для исходных полей могут быть введены только вручную путем нажатия кнопки Добавить XPath и ввода XPath в открывшемся диалоговом окне. Обратите внимание на то, что пути адресации XPaths должны отсылать к элементам XML; они не могут отсылать к атрибутам XML. См. ниже ил. 3.

Ил. 3. Закладка Соответствия, на примере словаря в формате XML.

В независимости от формата словаря, Shoebox/Toolbox или XML, те исходные поля в списке Исходные поля, которые не должны быть экспортированы в результирующий словарь, могут быть удалены из этого списка. Для этого выберите в списке поле, которое вы хотите удалить, и нажмите кнопку Удалить выделенное, которая находится непосредственно под списком.

Для установления соответствия выберите поле в списке Исходные поля в левой части закладки, выберите соответствующее ему поле в формате Wunderkammer из списка Результирующие поля в правой части закладки и нажмите кнопку Установить соответствие. Новое соответствие должно появиться в списке Соответствия в нижней части закладки. Возможно также ассоциировать одно Исходное поле с несколькими Результирующими полями или несколько Исходных полей с одним Результирующим полем. Чтобы удалить ненужное соответствие, выберите сначала это соответствие в списке и нажмите кнопку Удалить выделенное, которая находится непосредственно справа над списком Соответствия.

Каждое Результирующее поле условно привязано к определенному сорту информации, обычно отражаемой в словарях:

Обратите внимание на то, что хотя большинство полей условно и привязано к определенному сорту информации, Wunderkammer рассматривает содержимое полей семантическое поле, часть речи, определение, ri, rii и riii как обычный, никак неформатированный текст. Соответственно, данные поля могут быть использованы для представления любого типа чисто текстовых данных. Конкретный формат, в котором текстовые данные в каждом из этих полей, а также в поле ссылка, предстанут перед пользователем словаря, задается в файле темы оформления. О том, как модифицировать тему оформления см. ниже в разделе Изменить тему оформления. Все эти поля могут быть использованы более одного раза в рамках одной словарной статьи.

Содержимое всех прочих полей интерпретируется в Wunderkammer строго определенным образом. Соответственно, при конфигурировании словаря необходимо учитывать принятые в Wunderkammer ограничения на информацию, которую эти поля могут содержать. Поле лемма должно содержать входное слово словарной статьи. Поля звук и изображение должны содержать имя звукового файла и имя файла изображения для использования в словарной статье, соответственно. Поле ссылка должно содержать значение поля лемма той словарной статьи, к которой оно отсылает. В рамках одной словарной статьи поля лемма и звук могут быть использованы только один раз. В то же время, в одной словарной статье возможно одновременное использование нескольких полей изображение и ссылка.

Окошко метки Отображать в статьях под кнопкой Установить соответствие используется для определения того, должно ли данное соответствие быть отображено в статьях результирующего словаря или нет. Некоторые поля могут использоваться в исходном словаре лишь в целях создания индексов и сами не должны отображаться в статьях результирующего словаря. Так, в импортируемом словаре может иметься поле для составления обратного индекса, значение которого идентично значению, приведенному в поле толкования, или является вариантом последнего. Например, толкование 'болотная трава' может быть преобразовано в поле обратного индекса в 'трава, болотная', а толкование 'дуб' сохранено без изменения как 'дуб'. При включенной опции Отображать в статьях (ее включенное состояние отмечается галочкой) и установленном соответствии, результирующее поле будет отображаться в статьях результирующего словаря. В списке Соответствия те поля, которые будут отображены в статьях результирующего словаря, отмечаются как true. Все прочие поля, которые отображены не будут, отмечаются как false. Так, в вышеприведенных ил. 2 и ил. 3 поле ri отмечено как false, поскольку данное поле в этих словарях используется лишь для создания обратного индекса и не должно отображаться в словарных статьях.

Окошко метки Порядок полей как в импортируемом словаре, непосредственно над списком Соответствия, используется для определения того, должен ли порядок полей в результирующем словаре быть идентичным порядку полей в импортируемом словаре или он должен следовать порядку соответствий между полями импортируемого и результирующего словарей, установленному в списке Соответствия. Когда это окошко метки не помечено галочкой (т.е., выключено), поля в статьях результирующего словаря будут приведены в порядок идентичный порядку, установленному в списке Соответствия (за исключением полей лемма, которые не являются частью "тела" словарных статей). Порядок полей в списке Соответствия может быть изменен при помощи кнопок со стрелками вверх и вниз, находящихся слева от окошка метки Порядок полей как в импортируемом словаре. При включенной опции Порядок полей как в импортируемом словаре, порядок полей в результирующем словаре будет идентичным порядку полей в импортируемом словаре. Если порядок полей в импортируемом словаре различен в различных статьях, то этот различный порядок будет без изменений воспроизведен в результирующем словаре. Опция Порядок полей как в импортируемом словаре недоступна для словарей в формате XML.

В закладке Меню определяется то, какие меню должен содержать результирующей словарь. Система меню в Wunderkammer имеет древовидную структуру. Первым всегда загружается корневое меню. Это меню может содержать любое количество подменю, уровень вложенности которых неограничен. В каждом подменю пользователю представляется список данных, содержащихся в том поле, с которым это подменю ассоциировано. Так, подменю, ассоциированное с полем лемма, содержит список всех входных слов статей словаря. Подменю, вложенное в другое подменю уровнем выше, показывает поля лишь тех словарных статей, которые ограничены элементом, выбранным в подменю более высокого уровня. Например, если в словаре используется меню, в котором словарь разбит по семантическим полям и в которое вложено меню входных слов словарных статей, то когда пользователь выбирает определенное семантическое поле в меню семантических полей, во вложенном меню входных слов словарных статей будут представлены только те входные слова, которые входят в выбранное семантическое поле. Когда пользователь доходит до самого низкого уровня системы меню, он попадает в словарную статью, соответствующую последнему выбранному элементу меню.

Ил. 3. Закладка Меню.

Для добавления нового подменю к дереву меню выберите меню, в которое это новое подменю должно быть вложено и нажмите кнопку Добавить потомка. Название, под которым данное меню предстанет перед пользователем в Wunderkammer, задается в текстовом поле Название меню. То поле словарной статьи, с которым данное меню ассоциировано, выбирается в поле выбора Поле:. Порядок сортировки, используемый в данном меню, задается в текстовом поле Порядок сортировки:. Порядок сортировки должен следовать формату, принятому в Java RuleBasedCollator. Для подтверждения введенных изменений в параметрах меню нажмите кнопку Обновить узел. Для удаления ненужного меню используйте кнопку Удалить выделенное.

Кнопка Использовать специальный шрифт позволяет отображать дерево меню, названия меню и порядки сортировки в любом шрифте, установленном на вашем компьютере. Специальные шрифты могут оказаться необходимыми для языков, в системе письма которых используются символы, которые отсутствуют в локализациях, предустановленных производителем на мобильном телефоне пользователя (подробнее см. в разделе Специальные шрифты).

Установка словаря

Для просмотра словаря в формате Wunderkammer файлы jar и jad, созданные программой wkimport, должны быть скопированы на мобильный телефон. В зависимости от возможностей мобильного телефона, на который файлы должны быть скопированы, и компьютера, с которого файлы должны быть скопированы, эти файлы могут быть скопированы через Bluetooth, соединение USB или при помощи съемной карты памяти.

Если телефон имеет доступ к интернету, словарь можно также скачать на телефон из интернета. Так, демо-MIDlet словаря языка каурна можно скачать через установленный на вашем телефоне интернет-браузера по адресу http://www.pfed.info/wunderkammer.jad. Следует предупредить однако, что тарифы на пересылку данных по мобильным сетям могут быть очень высокими, тогда как копирование файлов непосредственно с компьютера на телефон, при помощи вышеописанных методов, является абсолютно бесплатным.

После копирования файлов на мобильный телефон их установка (если таковая окажется необходимой) и запуск не должны вызвать особых затруднений. Из-за огромного разнообразия в существующих моделях мобильных телефонов пошаговые инструкции здесь не даются. Информацию о том, как установить программное обеспечение на конкретной модели мобильного телефона, можно, скорее всего, найти в руководстве пользователя телефона или в интернете.

Поскольку Wunderkammer является приложением на Java ME, оно не может быть открыто в среде Java SE, стандартно используемой на компьютерах. Словарь в формате Wunderkammer может быть запущен на компьютере только при помощи специального эмулятора. Среди существующих эмуляторов среды Java ME наиболее надежным является, наверное, (бесплатный) эмулятор, включенный в Sun Java Wireless Toolkit.

Изменение темы оформления

Внешний вид и установки локализации Wunderkammer могут быть изменены путем модификации файла темы оформления ("resource file" с расширением .res) и использования этого модифицированного файла при импортировании словаря в Wunderkammer. Стандартные файлы темы оформления находятся в папке ./standardfiles/themes. Эти файлы могут быть модифицированы при помощи приложения ResourceEditor, включенного в библиотеку файлов LWUIT. По установке этой библиотеки на вашем компьютере, ResourceEditor будет находиться в LWUIT/util/ResourceEditor.jar. К ResourceEditor также прилагается документация.

Для изменения внешнего вида Wunderkammer, необходимо модифицировать тему оформления, изображения и анимации, используемые файлом темы оформления. Для изменения установок локализации или дополнительного текста, добавляемого к полям в словарных статьях, необходимо модифицировать установки локализации.

Специальные шрифты

Специальные шрифты могут оказаться необходимыми для языков, в системе письма которых используются символы, которые отсутствуют в локализациях, предустановленных производителем на мобильном телефоне пользователя. Всякий специальный шрифт должен быть включен в файл оформления темы Wunderkammer. Отображение латиницы, включая большинство ее расширенных вариантов, используемых в европейских языках, а также отображение кириллицы обычно не должно вызывать проблем на большинстве современных мобильных телефонов. Однако, если производителем на телефоне не предустановлена соответствующая локализация, пользователь не сможет вводить информацию с использованием символов этой отсутствующей локализации. Например, поскольку мобильный телефон, купленный вне России и других стран бывшего СССР, обычно не содержит русской локализации, пользователь не сможет вводить в поле поиска слова в кириллице для поиска информации в русско-иноязычном словаре, хотя информация в кириллице и будет правильно отображаться на экране. Для того чтобы пользователь мог вводить символы, используемые в специальном шрифте, результирующий словарь также должен содержать соответствующий метод ввода, специально добавленный в код программы. Подробные инструкции по созданию специальных шрифтов, включению их в файл темы оформления и созданию специальных методов ввода символов, написанные Дмитрием Идиатовым, вы можете найти в PFED блоге. См. записи 1, 2, 3 и 4.

Возможные неполадки и их устранение

wkimport сталкивается с проблемами при чтении импортируемого словаря. Типичным симптомом подобной неполадки является сообщение об ошибке вида java.lang.IndexOutOfBoundsException: Index: 0, Size: 0.

Импортируемый словарь должен быть в кодировке UTF-8 no BOM (UTF-8 без Byte-Order Mark). Поскольку обычные текстовые редакторы, как например Notepad или Wordpad для Windows, автоматически сохраняют текстовый файл в кодировке UTF-8 с Byte-Order Mark, для обеспечения правильной кодировки необходимо открыть словарь в текстовом редакторе с расширенными возможностями и сохранить его в правильной кодировке. Данной функцией обладают, например, такие бесплатные текстовые редакторы, как TextWrangler (для Mac OS X) и Notepad++ (для Windows). Пользователи Linux, в принципе, уже и так должны иметь текстовый редактор с данной функцией.

В меню семантических полей (или любом другом меню, в котором словарные статьи разбиваются по группам) в результирующем словаре одно и то же семантическое поле встречается несколько раз, например Домашние животные и Домашние животные .

Удостоверьтесь, что словарные статьи, которые должны быть сгруппированы в одно семантическое поле, действительно содержат идентичный текст в полях, содержащих указание на их семантическое поле. wkimport чувствителен к регистру букв (заглавные или строчные), а также к пробелам в конце и начале строки во всех исходных полях (как в вышеприведенном примере). Последние могут быть удалены посредством включения функции Удалить лишние пробелы в исходных полях в закладке Импорт/Экспорт.

Guide to importing dictionaries (версия 2.1, 15 августа 2010 г.) (переведено с английского Дмитрием Идиатовым). Проект Wunderkammer.