WWW.KNIGA.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Книги, пособия, учебники, издания, публикации

 

Pages:   || 2 |

«ОТЧЕТ О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ по теме: Разработка и анализ модели построения электронных библиотек на основе международных стандартов РФФИ № 10-07-00302-а ...»

-- [ Страница 1 ] --

Сибирское отделение Российской академии наук

Институт вычислительных технологий СО РАН

ОТЧЕТ О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ

по теме:

Разработка и анализ модели построения электронных библиотек на

основе международных стандартов

РФФИ № 10-07-00302-а

(промежуточный)

Руководитель проекта, зав. лаб. ИВТ СО РАН, д.т.н.

_ О.Л.Жижимов «10» декабря 2010 г.

Новосибирск 2010

СПИСОК ИСПОЛНИТЕЛЕЙ

Жижимов О.Л. Д.т.н., заведующий лабораторией ИВТ СО РАН, руководитель Проекта Федотов А.М. Д.ф.-м.н., чл.-корр. РАН, г.н.с.

Барахнин В.Б. К.ф.-м.н., с.н.с.

Мазов Н.А. К.т.н., ведущий программист Гуськов А.Е. К.т.н., м.н.с.

Молородов Ю.И. К.ф.-м.н., с.н.с.

Леонова Ю.В. К.т.н., н.с.

Рубцов Д.Н. аспирант Ткачев Д.А. аспирант

ОГЛАВЛЕНИЕ

СПИСОК ИСПОЛНИТЕЛЕЙ

ОГЛАВЛЕНИЕ

ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ

ВВЕДЕНИЕ

1. Современное состояние исследований

2. Концептуальная модель электронной библиотеки

Цифровые репозитарии и электронные библиотеки

Хранение информации

Каталогизация и метаданные

Глобальная интероперабельность

Система поиска информации

Контроль доступа

Безопасность

Электронные ресурсы музеев

Географическая привязка цифровых объектов

Как должна выглядеть географическая привязка цифрового объекта.................. Что должна означать географическая привязка цифрового объекта

О программных и информационных продуктах

3. Системы управления базами данных и электронные библиотеки

4. Выявление дубликатов

Функции похожести строк и алгоритмы их вычисления

Существующие решения

Выбор алгоритма и его реализация

5. Классификация больших массивов документов

Алгоритм извлечения ключевых термов

Алгоритм кластеризации текстов

6. Географическая привязка

7. Комплекс ZooPARK

ЗАКЛЮЧЕНИЕ





СПИСОК ПУБЛИКАЦИЙ ПО ПРОЕКТУ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

СПИСОК ИЛЛЮСТРАЦИЙ

ОПРЕДЕЛЕНИЯ, ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ

ЭБ – электронная (цифровая) библиотека LDAP (Lightweight Directory Access Protocol) — облегченный протокол доступа к каталогам.

ИВТ СО РАН – Институт вычислительных технологий СО РАН СО РАН – Сибирское отделение Российской академии наук РАН – Российская академия наук СУБД – система управления базами данных Z39.50 – обозначение стандарта (протокола) доступа к базам данных по сети ANSI Z39. (ISO-23950).

РГБ – Российская государственная библиотека РНБ – Российская национальная библиотека ГПНТБ России – государственная публичная научно-техническая библиотека России ГПНТБ СО РАН – государственная публичная научно-техническая библиотека СО РАН

ВВЕДЕНИЕ

Основание для разработки - основанием для проведения научно-исследовательской работы является грант РФФИ № 10-07-00302-а.

Фундаментальная проблема, на решение которой направлен настоящий проект:

разработка и исследование моделей построения электронных библиотек на основе международных стандартов, анализ их свойств и технологий реализации. Основной целью проекта является разработка модели распределенной электронной библиотеки, включающей компоненты организации хранения информации, организации доступа к информации и организации управления различными подсистемами распределенной электронной библиотеки. В процессе реализации проекта предполагается создание прототипа электронной библиотеки, реализующей предложенную модель и ориентированный на использование в научно-исследовательских организациях РАН в качестве типового.

Результаты проекта могут быть использованы при проектировании и построении различных электронных библиотек и распределенных информационных систем и могут представлять значительный интерес для разработчиков и пользователей этих систем, в том числе в РАН.

Конкретная фундаментальная задача в рамках проблемы, на решение которой направлен проект, состоит в разработке модели электронной библиотеки, включающей компоненты организации хранения информации, организации доступа к информации и организации управления различными подсистемами распределенной электронной библиотеки. В процессе реализации проекта будет также создан прототип электронной библиотеки, реализующий предложенную модель и ориентированный на использование в научно-исследовательских организациях РАН в качестве типового.

Настоящий Отчет является промежуточным отчетом по первому этапу проекта, работы по которому планируется осуществлять по трем этапам.

Задачи первого этапа можно сформулировать следующим образом:

Разработка концептуальной модели электронной библиотеки и возможных технологических решений.

Выработка корпоративного стандарта и схем данных, которые будут использованы в проекте.

Исследование возможностей существующих СУБД для нужд ЭБ и разработка правил их адаптации для задач проекта.

Реализация метода выявления дубликатов, основанного на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк Исследование возможности создания экономичных (основанных на распараллеливании вычислительных процессов) алгоритмов классификации больших массивов документов.





Разработка пользовательских и административных интерфейсов работы с информационными ресурсами с географической (координатной) привязкой.

Адаптация программного комплекса ZooPARK для работы в качестве базового сервера распределенной ЭБ.

В качестве результатов работ в 2010 году следует рассматривать:

1. Концептуальной модель электронной библиотеки, включающая o Список требований к электронной библиотеки удовлетворяющей этим требованиям o Определение регламента и стандартов взаимодействия компонент ЭБ o Предварительное описание схем данных 2. Создание списка поддерживаемых в Проекте СУБД и создание правил по их адаптации для нужд Проекта.

3. Отчет по реализации метода выявления дубликатов, основанного на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк, описание соответствующих алгоритмов.

4. Отчет по исследованию возможности создания экономичных (основанных на распараллеливании вычислительных процессов) алгоритмов классификации больших массивов документов.

5. Прототип пользовательских и административных WEB-интерфейсов работы с информационными ресурсами с географической (координатной) привязкой, интегрированных с сервисами Google.

6. Прототип программного комплекса ZooPARK, адаптированного для работы в качестве базового сервера распределенной ЭБ.

При подготовке настоящего Отчета использовались материалы и результаты исследований, проведенных на настоящем этапе Проекта и результаты ранее выполненных авторским коллективом работ.

1. СОВРЕМЕННОЕ СОСТОЯНИЕ ИССЛЕДОВАНИЙ

За последние десять лет развитию концепций, моделей и реализаций электронных библиотек (ЭБ) уделялось большое внимание во всем мире. При этом чаще всего под электронной библиотекой понимается нечто похожее на традиционную библиотеку с расширенными в область цифровых носителей информации функциями. Такое толкование ЭБ имеет свои плюсы и минусы. К плюсам следует отнести наследуемые опыт стандартизации каталогизации информационных ресурсов и организацию всего комплекса работ по обработки информационных ресурсов и обеспечению их сохранности и доступности. К минусам можно отнести унаследованные от нецифровых технологий правила работы с данными и описаниями данных (метаданными). Последнее приводит к появлению и активному внедрению в практику ЭБ несвойственных им стандартов бумажных технологий, основанных на картонных библиографических карточках, хранящихся в деревянных ящиках. Примером такого подхода к ЭБ является внедрение в практику стандартов описания типа RUSMARC, ориентированного на библиографические карточки и мало приспособленные для цифровых ресурсов и машинной обработки правила библиографического описания.

Следует отметить, что проблемы перехода от традиционных библиотек к электронным (цифровым) неоднократно озвучивались и озвучиваются ведущими специалистами. При этом отмечается актуальность следующих моментов модели и стандарты представления информации и метаинформации в ЭБ;

автоматическая классификация информации;

доступ к распределенным и разнородным коллекциям (интероперабельность, масштабируемость, обнаружение релевантной информации, интеграция метаинформации);

интеллектуальной собственности;

анализ и обработка естественного языка, изображений, видео- и аудиоданных;

многоязыковый доступ к данным и обслуживание данных на нескольких языках;

мобильные технологии и агенты в контексте электронных библиотек;

методы и средства поиска, каталогизация, индексирование, поддержка целостности и непротиворечивости коллекций, безопасность ЭБ и защита информации В области ЭБ нельзя не отметить мировую тенденцию интеграции гетерогенных информационных систем и ресурсов, направленной на формирование единого виртуального информационного пространства, которое, в конечном счете, и выступает как распределенная ЭБ с характерными особенностями (иерархичность подсистем, разнородность ресурсов и программно-аппаратных сред, распределенность элементов инфраструктуры в среде единого сетевого пространства).

Многообразие реализаций конкретных ЭБ позволяет сегодня выделить определенные технологические закономерности. В первую очередь следует отметить широко используемую концепцию открытых систем, которая состоит в переходе к переносимым, интероперабельным и масштабируемым системам за счет применения международных и корпоративных стандартов. В многочисленных работах был показан глобальный, стратегический характер данной идеологии, ее экономическая обоснованность. Дело в том, что в существующих многочисленных разработках и реализациях ЭБ проблема интероперабельности решений всегда возникает как следствие обеспечения достаточной их масштабируемости. Возможная гетерогенность программно-информационной среды лишь усугубляет потребность в интероперабельности.

Для организации доступа к распределенным информационным ресурсам и ЭБ сегодня используются технологии HTTP/XML/SOAP, Z39.50, FTP. Для решения задач, связанных с управлением как ЭБ (сетевыми информационными системами), так и доступом к их ресурсам существуют попытки внедрения технологий, также основанных на открытых международных стандартах, таких как LDAP, Z39.50, SNMP. При этом наблюдается тенденция наделения системного программного обеспечения, в том числе операционных систем, функциями сетевого управления на основе глобальных и локальных политик, централизованно предоставляемых по LDAP (Active Directory в Windows, Administration Domains в Solaris 10 и т.п.). Одновременно наблюдается тенденция расширения поддержки LDAP-технологий сетевыми приложениями (Sendmail, apache, squid, серверы баз данных Oracle, MySQL и др.). На этом фоне интегрирование этих технологий в технологии ЭБ выглядит вполне естественным. При этом открываются возможности управления ЭБ и доступом к ресурсам на основе отработанных системных технологий.

Немаловажную роль в организации управления данными в ЭБ играет выбор правил каталогизации ресурсов и схем метаданных. С одной стороны, для подробного и исчерпывающего описания требуются традиционные правила, которые ориентированы на традиционные технологии каталогизации традиционных информационных ресурсов (книги, журналы, ноты, географические карты и т.п.), а с другой – для автоматизации процессов и исключения возможности неоднозначной каталогизации ресурса требуется максимальное упрощение правил каталогизации и минимизации обязательных элементов метаданных. Это требование приводит в последнее время к тенденции отходу от схем метаданных, основанных на MARC-схемах (USMARC, UNIMARC, RUSMARC и т.п.), к новым схемам данных, которые свободны не только от недостатков MARC-схем, но и от недостатков схемы Dublin Core – наиболее простой схемы метаданных, используемой для каталогизации WEB-ресурсов. Тем не менее, сегодняшние ЭБ безусловно должны обеспечивать поддержку всех распространенных схем метаданных, включая традиционные. Желательным качеством ЭБ была бы возможность прозрачной взаимной конвертации различных схем данных.

Если рассматривать типы информационных ресурсов ЭБ, то кроме традиционных ресурсов (книги, журналы, статьи и т.п.) следует особенно выделить специфические ресурсы, связанные с географической привязкой. К подобным ресурсам могут относиться не только географические карты (традиционные и цифровые), не только научные материалы, связанные с конкретной территорией (геологические, археологические, биологические и т.п.). Информацию о географической привязке ресурса могут содержать ресурсы традиционные. К сожалению, практика каталогизации традиционных ресурсов в России эту возможность почти не предусматривает. Ни один программный продукт, используемый в России для поддержки ЭБ, этой возможностью не наделен, несмотря на то, что картографические сервисы сегодня активно продвигают известные фирмы (Google, Яндекс, Рамблер и др.).

2. КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ ЭЛЕКТРОННОЙ БИБЛИОТЕКИ

Фундаментальная научная проблема, на решение которой направлен проект состоит в создании нового поколения средств управления доступом к информационным ресурсам различного типа, анализ их свойств и технологий реализации в целях повышения эффективности использования информационных ресурсов российского академического сообщества.

Цифровые репозитарии и электронные библиотеки Отличительная черта сегодняшнего этапа развития информационного общества это представление информации и знаний не только в традиционной печатной, но и в электронной, цифровой форме, что позволяет принципиально по-иному создавать, хранить, организовывать доступ и использовать информацию в любой форме. Наряду с этим современные информационно-телекоммуникационные технологии привели к тому, что большое число современных информационных ресурсов сразу создается в электронном виде, т. е. формируется новый класс информационных систем, предназначенных для управления электронными информационными ресурсами – электронные библиотеки.

Несмотря на то, что ЭБ – явление достаточно новое, тем не менее, сегодня их следует рассматривать как множество слабосвязанных сущностей, объединяемых, на первый взгляд, только общим названием [1-7]. При этом, под общим названием «Электронная библиотека» сегодня фигурируют следующие объекты:

Архивы цифрового контента – хранилища переведенной в цифровую форму информации, снабженные минимальными интерфейсами доступа к этой информации, при этом не всегда даже сетевыми интерфейсами. Электронной библиотекой может называться DVD-диск вместе с прилагаемым программным обеспечением для доступа к цифровому контенту, организованного в виде файловой системы на этом диска.

Набор программного обеспечения, реализующего основные функции управления цифровым контентом и организации интерфейсов доступа к этому контенту.

Системы сетевых сервисов, предоставляющих доступ к цифровому контенту, объединенных единой системой управления этим доступом [8-9].

Некоторые организации, которые берут на себя ответственность не только за исполнение функций управления цифровым контентом и предоставления к нему доступа всем заинтересованным лицам, но и ответственность за соблюдение в процессе исполнения этих функций соответствия последних текущему законодательству в части обеспечения авторского права, приватности персональной информации, фильтрации паразитного трафика, сетевой безопасности клиента и т.д.

Здесь особенно следует подчеркнуть тот факт, что последнее определение электронной библиотеки полностью соответствует определению традиционной библиотеки как организации в системе, например, министерства культуры. Именно это определение электронной библиотеки, наиболее импонирует руководству наших ведущих традиционных библиотек (РГБ, РНБ, ГПНТБ России, ГПНТБ СО РАН и др.), поскольку обеспечивает преемственность методов работы в эпоху перехода к цифровому способу обработки и хранения информации. Однако при этом, упускается из виду тот факт, что работа с цифровым контентом, для обеспечения наибольшей эффективности от его использования, требует совершенно новых подходов к процессу обработки информации, новых кадров, обладающих новыми знаниями и умениями, и наличия новых правил и стандартов, регламентирующих технологические процессы. При этом, последнее должно, несомненно, регламентироваться не региональными, не федеральными, а международными правилами и стандартами, для обеспечения глобальной интероперабельности не только интерфейсов доступа, но и схем и форматов представления цифрового контента.

Мы рассматриваем электронную библиотеку, как информационную систему, включающую все вышеперечисленные аспекты организации обработки, хранения и доступа к цифровому контенту.

Ниже обозначены некоторые моменты, которые с нашей точки зрения характеризуют различия между традиционными библиотеками, предоставляющими доступ к цифровому контенту, и полнофункциональными электронными библиотеками (информационными системами), которые не связаны старыми представлениями о хранении и управлении информационными ресурсами.

Хранение информации.

Основной канал пополнения фондов электронных библиотек – перевод в цифровую форму (сканирование, оцифровка и др. способы перевода в цифровую форму) традиционной печатной продукции. Получаемые в результате этого процесса цифровые объекты, не содержат никакой новой информации по сравнению со своими традиционными оригиналами. Функциональность созданной на их основе электронной библиотеки будет недостаточна, поскольку при работе с цифровыми объектами общество уже выработало определенный набор стереотипов, отсутствие которых вызывает дискомфорт. Так, например, одним из таких элементов является требование наличия взаимных ссылок между цифровыми объектами, проявляющихся, например, в виде гиперсвязей в пользовательских графических интерфейсах просмотра информации. Реализация взаимных ссылок в цифровых документах не представляет большой сложности, однако при этом электронный документ приобретает новое качество. Во-первых, электронный объект с реализованными связями уже не совсем соответствует своему печатному оригиналу. Это уже другой объект!

И этот факт должны учитывать все юридические нормы. Во-вторых, внедренные в объект связи должны быть гарантировано актуальными. Никого, например, не интересуют гиперссылки, ссылающиеся на несуществующие документы. Так появляется отличное от традиционных библиотек требование обеспечения ссылочной целостности данных. Это очень жесткое требование, которое тяжело обеспечить даже в хорошо формализованных системах управления базами данных. Результат – новый цифровой объект как самосогласованное хранилище цифрового контента, или база данных цифровых объектов.

С другой стороны, в электронной библиотеке объекты хранения могут содержать информацию, которая не имеет к объектам хранения традиционных библиотек вообще никакого отношения. Речь может идти:

об электронных копиях элементов хранения традиционных архивов;

об изображениях элементов хранения традиционных музеев;

о видео-, аудио- информации, полученной разными способами, например, видеозапись доклада, сделанного на конференции;

Отметим, что существование перечисленных объектов регламентируется нормами и правилами, которые не применяются в традиционных библиотеках. Последний тезис будет проиллюстрирован в разделе о каталогизации.

Каталогизация и метаданные В традиционных библиотеках каталогизация реализует основную парадигму упорядочивания информации и обеспечения ее поиска по заранее определенным критериям.

При каталогизации порождается новый вторичный информационный ресурс как массив стандартизованных описаний основных информационных объектов – элементов учета и хранения в традиционной библиотеке. Создание вторичного информационного ресурса регламентируется некоторыми правилами каталогизации, которые фиксируются в специальных нормативных документах. Первоначально конечным результатом каталогизации первичного объекта было создание каталожной карточки, в которой прописывались основные свойства первичного объекта в соответствии с общими правилами. Появление технологий машинного учета и баз данных привело к переводу вторичных информационных массивов традиционных библиотек в так называемые электронные каталоги, которые упростили доступ к вторичным ресурсам, но сохранили родовой отпечаток ущербности как следствие существующих правил каталогизации. Всякие попытки скрещивания технологий электронных и бумажных каталогов, выражаемых в создании необъяснимых в терминах логики здравого смысла монстров (см. RUSMARC и т.п.), не могут принести новых технологических элементов, использование которых могло бы оказаться полезным и продуктивным при каталогизации объектов не традиционных, а цифровых.

Здесь следует еще раз обратить внимание на то, что, с одной стороны, в электронных библиотеках имеют право существовать цифровые объекты, не имеющие аналогов в традиционных библиотеках, и, как следствие, не попадающие под действующие правила каталогизации. С другой стороны, развитие пользовательских интерфейсов для доступа к информации требует возможности расширения списка атрибутивной информации, подлежащей вводу при каталогизации первичных объектов. Например, уже сегодня прослеживается потребность привязки контента к географическим координатам, которая полностью игнорируется действующими правилами и сложившейся практикой каталогизации. И наконец, в-третьих, существует необходимость описания не только информационного контента первичного объекта (заметим, что в основном именно информационный контент первичного объекта описывается сегодня в традиционных библиотеках), но и общего контекста существования первичного объекта с фиксацией всех событий в процессе его существования. Отдельно можно подчеркнуть, что при попытке описания контекста перестают работать все действующие библиотечные правила каталогизации.

В качестве иллюстрации можно привести попытку создать разумное описание цифрового объекта, который является изображением глиняной таблички, найденной в точке с координатами (x1, y1) в момент времени t1, помещенной в хранилище с координатами (x 2, y2) в момент времени t2, сфотографированной в момент времени t3 на выездной выставке в точке с координатами (x3, y3). При этом на глиняной табличке описано событие, имеющее место быть в момент времени t0 в точке (x0, y0). Обязательным требованием к структурированному описанию первичного объекта должно быть требование возможности поиска по всем временным и пространственным характеристикам как контекста, так и контента [8,9].

Следует заметить, что невозможность создания нужного вторичного ресурса в рамках существующих правил ставит под сомнение необходимость последних в их сегодняшней форме. Кстати, другой возможной формы этих правил традиционные библиотеки не знают и в силу многих объективных причин знать не могут, чем заставляют усомниться в своей полезности при создании библиотек электронных.

Нельзя не отметить еще один момент. Переход к хранению и учету цифровых объектов делает неэффективной существующую парадигму каталогизации и создания массивов вторичных ресурсов. Действительно, необходимость во вторичных ресурсах объяснялась многие века разнородностью носителей первичной информации, необходимостью систематизации первичных ресурсов и организации поиска информации, хотя бы методом перебора каталожных карточек в алфавитном или систематическом каталогах. Переход к электронным каталогам существенно расширил возможности поиска в массивах вторичной информации. Однако, сегодняшние технологии позволяют, во-первых, внедрять метаданные в первичные объекты, и, во-вторых, организовывать поиск по первичному ресурсу. При этом метаданные образуют с первичным объектом единое целое, а функциональность сервисов доступа к массивам информации не страдает. Таким образом, метаданные, описывающие контент, должны создаваться вместе с цифровым объектом и внедряться в него. Метаданные, описывающие контекст должны внедряться в первичный объект в течение всего времени его существования. При этом:

Отпадает необходимость поддержки системы вторичных информационных ресурсов Отпадает необходимость в каталогизации первичного ресурса в сегодняшней ее Упрощается система управления информацией Глобальная интероперабельность Наиболее плодотворная идея обеспечения доступа к цифровому контенту включает в себя обязательное наличие интерфейсов доступа к этому контенту из Интернет.

Глобальность сети требует обеспечения полного соответствия этих интерфейсов и предоставляемой информации определенным международным стандартам. При этом стандартизации должны подлежать:

протоколы и интерфейсы доступа к данным;

схемы и форматы представления данных;

правила кодирования информации;

Игнорирование этих требований рано или поздно может привести к построению в рамках Интернет очередной вавилонской башни.

Система поиска информации Как уже отмечалось, в традиционной библиотеке возможности поиска ограничивались поиском по алфавитному или систематическому каталогам для вторичных информационных ресурсов с прямой ссылкой (указания шифра хранения) на соответствующий первичный ресурс. Использование электронных каталогов расширило поисковые возможности, но сохранило основным типом поиска поиск по предопределенным поисковым атрибутам. Это атрибутивный поиск, именно этот тип поиска сегодня является основным в традиционных библиотеках, в том числе и в библиотеках цифровых объектов. При этом поиск производится только по массивам вторичной информации, оставляя открытым вопрос соответствия последней первичным информационным ресурсам. Заметим, что внедрение атрибутивной информации в первичный цифровой объект, как упоминалось выше, могло бы вместе с отказом от привычной процедуры каталогизации существенно упростить технологии атрибутивного поиска.

Другой возможный тип поиска – поиск по заданным шаблонам имеет смысл только в массивах первичных цифровых ресурсов.

Наконец, поиск с привлечением онтологий является поиском более интеллектуальным, для его реализации требуется дополнительная информации – информация о предметной области, включающая определения терминов, сущностей и связей. Следует отметить, что представление этой дополнительной информации должно соответствовать глобальным договоренностям – международным стандартом, иначе, поиск с привлечением онтологий всегда будет ограничен текущей системой, а интоперабельность не будет реализована. К сожалению, этот тип поиска обсуждается при построении специальных информационных систем, но практически полностью игнорируется в практике построения электронных библиотек.

Контроль доступа Для интероперабельных цифровых библиотек требуется реализация системы контроля доступа к информационным ресурсам, основанной на международных стандартах. Эта система контроля должна легко сшиваться с глобальными и региональными системами идентификации пользователей для определения их полномочий и ведения финансовых расчетов. Наверное, излишне утверждать, что подобные системы сегодня в электронных библиотеках не существуют.

Безопасность Наконец, в электронных библиотеках должна обеспечиваться информационная безопасность для хранимой информации, для инфраструктуры и для всех ее пользователей.

Можно указать следующие обязательные сервисы электронной библиотеки по обеспечению информационной безопасности [11]:

Идентификация и аутентификация как основа концепции единого входа;

Обнаружение отказов и оперативное восстановление.

Функционирование этих сервисов должно соответствовать международным стандартам и действующим рекомендациям. Наиболее важными из них являются рекомендации серии Х рабочей группы № 17 международного телекоммуникационного союза (ITU-T).

Таким образом, несмотря на уже достаточно длинную историю развития электронных библиотек в части хранилищ цифровых объектов и большой опыт создания таких хранилищ, сегодня существует существенная дистанция между парадигмой идеальной цифровой (электронной) библиотеки и реальной практикой создания и эксплуатации таких библиотек.

Электронные ресурсы музеев Современный период развития общества характеризуется бурной его деятельностью по переводу накопленных знаний на цифровые носители, созданию электронных архивов, коллекций, хранилищ и предоставлению к ним доступа из глобальной сети Интернет. Эта тенденция в деятельности характерна не только для традиционных хранилищ информации, таких как библиотеки и архивы, но и для музеев. При этом музейные фонды не могут быть напрямую переведены в цифровую форму, но в цифровую форму могут быть переведены описания этих фондов с предоставлением полной информации о каждой единице хранения, а также с предоставлением связанной информации - различных изображений, презентаций, аудио и видео данных.

Цели, которые преследуют музеи при предоставлении доступа к описаниям своих фондов, могут быть совершено различны. Однако пользователи, использующие эти описания, наверняка согласятся с некоторыми требованиями, которым так или иначе должны удовлетворять интерфейсы доступа к информационным ресурсам музеев. В самом простом виде эти требования таковы:

структурированы и соответствовать некоторой универсальной схеме данных с возможностью частных ее расширений.

Извлекаемые описания и предоставляемые данные должны соответствовать некоторым стандартным форматам.

Интерфейсы доступа к описаниям музейных фондов должны поддерживать поиск информации по различным элементам описаний.

пользовательские графические интерфейсы.

Поиск информации должен соответствовать универсальным спецификациям для возможности интеграции с другими поисковыми системами.

Для выполнения этих требований необходимы некоторые договоренности между музеями, т.е. выработка стандартов на предоставление доступа к информации.

Следует отметить, что мировое музейное сообщество уже давно озабочено вопросами стандартизации в этой области. Существует множество программ и проектов [9], в которых разрабатывались подобные стандарты, а также проектов, в которых создавались эти стандарты поддерживающие информационные системы в том числе и распределенные.

Только обзор этих проектов может стать содержанием увесистого тома. В настоящей работе будет изложен один из способов стандартизации доступа к музейной информации. При этом внутренняя организация собственно музейной информации остается за рамками предлагаемого подхода.

информационным ресурсам на основе протокола Z39.50 (ISO-23950) [12], который не противоречит созданию привычных пользовательских WEB интерфейсов на основе соответствующих шлюзов. Использование технологий Z39.50 позволяет удовлетворить всем изложенным выше требованиям. Единственное, что следует при этом обсуждать – это профиль Z39.50, в соответствии с которым следует организовывать доступ к информационным ресурсам музеев.

Вообще-то для традиционных музеев мировым сообществом разработан профиль Z39.50 под названием CIMI (Computer Interchange of Museum Information) [13-16].

Элементы этого профиля имеют глобальные идентификаторы и являются частью международного стандарта ISO-23950, на их основе определена модель поиска и извлечения данных с музейной информацией.Полное описание профиля CIMI достаточно объемно и здесь приводиться не будет. Ниже будут отмечены только некоторые аспекты, которые на наш взгляд характерны для этого профиля.

Во-первых, все серверы CIMI обязаны поддерживать запросы типа 1 (RPN) с набором поисковых атрибутов CIMI-1, который содержит как атрибуты общего плана (Title, Author,

Abstract

и т.п.), так и специфические атрибуты для музейных коллекций (repositoryPlace, dateOfOrigin, placeOfOrigin, dateCollected и т.п.). Кроме этого набор атрибутов CIMI содержит в себе поисковые атрибуты Дублинского Ядра. Стандартизация модели поиска и поисковых атрибутов обеспечивает возможность реализации многобазового и распределенного поиска.

Во-вторых, схема данных и абстрактная структура записи CIMI основана на иерархической модели с использованием схем Digital Collections и Dublin Core. Элементы последней явно присутствуют в CIMI на первом уровне вложения. Собственно структура записи CIMI вложена в элемент actualDO записи Digital Collection. Эта схема данных позволяет представить в стандартном виде описательную информацию о музейных ресурсах. Связь с изображениями и полными текстами осуществляется через URL в элементе mrObject/rendition/resource.

Наконец, в-третьих, основным форматом представления данных в CIMI является GRS-1, который при необходимости однозначно преобразуется в любой другой формат, в том числе и XML, для просмотра в WEB браузерах.

Несколько слов о программном обеспечении.

Здесь нельзя не упомянуть о системах управления музейной информацией. С появлением персональных компьютеров, в последние десятилетия более активно продолжается автоматизация деятельности музеев. В виду того, что учет, хранение, оцифровка и описание музейных экспонатов – это специфическая и довольно узкая предметная область, музейные системы не получили такого широкого распространения, как, например, бухгалтерские, библиотечные, офисные и т.п. В ситуации отсутствия типовой стандартной системы многие музеи собственными силами, самостоятельно разрабатывали учетно-хранительские системы, адаптируя их к собственной специфике музейного документооборота. Примером такого подхода могут служить локальные системы Государственного Эрмитажа, Государственного исторического музея, система Государственного Дарвиновского музея и ряд других. В то же время в 90-е годы на отечественном рынке музейных учетно-хранительских систем появились две тиражируемые системы: автоматизированная система (АС) "Музей" (разработка Главного Информационно-вычислительного Центра (ГИВЦ) Министерства культуры РФ) и Комплексная Автоматизированная Музейная Информационная Система (КАМИС) (программный продукт ОАО "Альт-Софт", г. Санкт-Петербург). Более подробная информация об АС «Музей», об ее различных модификациях можно получить на сайте (http://www.givc.ru), о системе «КАМИС» на сайте (http://kamis.ru).

Конечно, такие системы как «КАМИС» и «Музей» обеспечивают хранение и обработку практически всех музейных данных. Однако, стоимость их высока, а для их сопровождения потребуется специальный высококвалифицированный персонал. Кроме этого, системы не ориентированы на интеграцию в музейное информационное сообщество и не обременены практически никакими требованиями по стандартизации.

На сегодняшний день в России авторам известен только один серверный программный продукт, поддерживающий профиль CIMI, - сервер ZooPARK [17]. Универсальность, модульность и расширяемость сервера ZooPARK позволяет организовать доступ к данным правктически для любой распространенной СУБД, реализовать динамическое преобразование метаданных между внутренними и внешними схемами, а также через встроенный шлюз предоставить пользователю привычные WEB-интерфейсы для поиска и просмотра информации. При этом ZooPARK обеспечивает интеграцию разнородных информационных ресурсов, получаемых из различных источников, преобразовывая пользовательские запросы и извлекаемые данные в соответствии со стандартными профилями, например, в соответствии с профилем CIMI.

Для академических и учебных заведений может быть полезен опыт использования для ввода и хранения описаний музейных экспонатов, а также изображений и мультимедийных данных, свободно распространяемого программного обеспечения DSpace [18], EPrints [19] или GreenStone [20], расширенных дополнительными элементами метаданных, соответствующих схеме CIMI, и соответствующими интерфейсами ввода информации. Все эти три системы DSpace, EPrints и GreenStone являются системами примерно одного и того же класса, предоставляющими полный спектр функциональных возможностей для создания электронных репозитариев.

Следует отметить, что требование стандартизации доступа к информационным ресурсам обусловлено не прихотью разработчиков информационных систем, а требованием интеграции локальных информационных ресурсов в глобальные информационные системы.

Кроме того, создание единого музейного информационного ресурса требует, наряду со стандартизацией, также и изменения индивидуальной психологии, присущей многим музейным работникам, которая характерна тем, что сотрудники музеев не всегда стремятся делиться своими наработками, описаниями с широким кругом коллег под предлогом ложно понимаемого авторского права и по ряду других причин. При этом, работа в автоматизированной системе предполагает психологию общей (совместной) работы. Информация в базу поступает порой различными путями и иногда невозможно разделить, кто какую информацию ввел, даже при наличии стандартов. Создание общего ресурса требует увеличения ответственности каждого за вводимую информацию, поскольку качество общего информационного ресурса зависит от усилий всех.

Географическая привязка цифровых объектов Развитие графических пользовательских интерфейсов, основанных на взаимодействии пользователя с географическими картами с развитым инструментарием по навигации, масштабированию и поиску информации с использованием ее географической привязки, позиционирует сервис работы с упомянутой информацией как неотъемлемую часть любой современной информационной системы. Примером могут служить не только популярнейшие справочные системы информирования мобильных пользователей с использованием спутниковой навигации, не только сервисы информационных монстров типа Google или Yandex, предоставляющие как возможность просмотра детализированной информации о земной поверхности, так и создание пользовательских мультимедиа архивов с координатной привязкой документов, но и всевозможные так называемые геоинформационные системы (ГИС), полностью основанные на работе с информацией, имеющей географическую привязку. Наверное, можно утверждать, что географическая привязка информации и способы работы с такой информацией – достаточно актуальная задача для разработчиков современных информационных систем. Можно также утверждать, что эта задача актуальна и для так называемых электронных библиотек (ЭБ), поскольку в нашем понимании последние являются ничем иным, как хорошо регламентированными информационными системами, ориентированными на работу с электронными документами.

Актуальность этой задачи для ГИС-систем определяется потенциальной возможностью включения в область их действия огромных массивов информации, изначально к ним не относящимся. Это в полной мере касается и информации по Байкальскому региону.

использования геоинтерфейсов (основанные на масштабируемых изображениях земной поверхности или цифровых картах графические интерфейсы для работы с информацией, имеющей географическую привязку) при работе с электронными библиотеками. При этом возникают следующие вопросы:

• Как должна выглядеть пресловутая географическая привязка для обеспечения минимальной функциональности геосервисов?

• Что должна означать географическая привязка цифрового объекта, где в электронной библиотеке должна содержаться информация о географической привязке цифровых объектов?

• Какие программные продукты управления цифровым контентом электронных библиотек в России, претендующие на первые роли, сегодня могут обеспечить минимальный геосервис?

• Какие изменения должны быть внесены в существующие распространенные программные продукты для обеспечения минимального уровня геосервисов?

Ниже сформулированы ответы на поставленные вопросы.

Как должна выглядеть географическая привязка цифрового объекта Географическая привязка цифрового объекта должна определять связь цифрового объекта с некоторой областью на земной поверхности. Сразу следует заметить, что эта область может представлять собой:

точку, определяемую парой координат;

замкнутый контур, определяемый последовательностью пар координат;

некоторый нормализованный термин, ассоциируемый с этой областью.

Очевидно, что последнее представление географической привязки не является однозначным, поскольку:

географические названия зависят от времени и языка;

любая область (контур) может содержать в себе множество названий Следует признать, что однозначная географическая привязка может быть реализована только в терминах географических координат.

Несомненно, реализация географического поиска возможна лишь в том случае, если в информационных массивах содержатся элементы данных, по которым этот поиск и будет производиться. В качестве таких элементов данных (метаданных) должны выступать элементы, содержащие информацию о географических координатах или о географических названиях. Такие элементы могут содержаться в метаданных цифрового объекта и заполняться независимо от структуры этого объекта. Метаданные создаются в процессе явной или неявной каталогизации и, как правило, соответствуют той или иной метаданных [9]. Ниже (Табл.1) приведены некоторые из них.

Описания предметов культурного наследия CIMI [13], CIDOC CRM [25] Цифровые карты, космические снимки, данные CSDGM [28], ISO-19139, ISO-19115, И если в схемах метаданных для цифровых карт, космических снимков и т. п.

(CSDGM, ISO-19139, ISO-19115, GEO и др.) элементы, описывающие географическую привязку цифрового объекта, с необходимостью присутствуют, то в других схемах наличие подобных элементов не очевидно, а заполнение их – не обязательно.

Ниже рассмотрены некоторые из вышеперечисленных схем данных, которые могут содержать элементы с географической привязкой. При этом не рассматриваются элементы, содержащие географическую привязку методом географического названия области. Дело в том, что для корректной работы с такими элементами (например, использование их для поиска) необходима их дополнительная обработка – перевод из терминов географических названий в термины географических координат. Эта процедура не всегда корректна.

USMARC, MARC21 – американский стандарт на библиографические описания различных объектов, ориентированный на структуру записи ISO-2709. В Табл. представлен фрагмент описаний полей с примерами представления географических координат в формате MARC21.

Наличие огромных информационных массивов, описанных в соответствии с правилами MARC21, с незаполненными полями 034 и 255 обедняет возможности географического поиска информационных ресурсов. Поэтому сегодня выполняется ряд проектов по восстановлению в записях значения поля 034 в записях MARC21 на основе информации, содержащей географические названия, например, из поля 043 (географический код). Подобный проект сегодня выполняется совместно библиотекой конгресса США и OCLC (см. http://www.loc.gov/cds/notices/2010-04-19.pdf от 19 апреля 2010 года).

034 $d - западная Coded Cartographic Mathematical hdddmmss:

$e - восточная присутствуют вместе. Координаты $f - северная формы записи также допустимы.

$g f-012.583377$g-020. 255 $с – сведения о Cartographic Mathematical Data ##$aScale 1:41,849,600$c(W RUSmarc – российский вариант схемы описания библиографических данных UNIMARC, ориентированный на структуру ISO-2709, учитывающий национальные правила каталогизации. Географические координаты могут присутствовать в полях 123 и 206. В Табл. 3 представлены описание и примеры заполнения соответствующих полей.

123 $d - западная Координаты для планетарных и земных 206 $d – сведения о Обязательное для картографических Неcтруктурированно Следует заметить, что поле 123 содержит те же данные о масштабе и координатах, которые записываются в поле 206, но в кодированной форме. Следует также обратить внимание, что представление координат в поле 123 в RUSMARC совместимо с представлением MARC21 (поле 034). Однако обратной совместимости нет! Возможности представления координат в MARC21 существенно шире и не ограничены жестким форматом. Более того, точность представления координат в RUSMARC до одной угловой секунды сегодня является явно недостаточной.

Более совершенной в части географической информации является схема GILS – Goverment Internet Locator Service [26].

spatialDomain boundingCoordinates westBoundingCoordinate112. /westBoundingCoordinate eastBoundingCoordinate /eastBoundingCoordinate northBoundingCoordinate=-13. /northBoundingCoordinate southBoundingCoordinate-35. /northBoundingCoordinate /boundingCoordinates placeKeywordThesaurus placeKeyword/placeKeyword /spatialDomain DC – Dublin Core – наиболее известная схема данных для каталогизации информационных ресурсов общего назначения. Информация о географической привязке объекта может содержаться в элементе COVERAGE. Допускается применение элементов типа «точка» и типа «прямоугольник». Ниже приведен пример XML-представление этого элемента схемы DC.

DCMI Point coverage type="spatial" north -31.95301 /north /coverage coverage type="spatial" scheme="DCMI Box" box name=" Western Australia" northLimit =-13.5 /northLimit eastLimit 129 /eastlimit southlimit -35.5 /southlimit westlimit 112.5 /westlmit /coverage Схема CIMI – Computer Interchange of Museum Information. Информация о пространственных координатах описываемого объекта в схеме CIMI может присутствовать в следующих элементах objectInfo digitalObject spatialReferencingSystem xCoordinateInSpatialReferencingSystem yCoordinateInSpatialReferencingSystem Кроме этого схема CIMI включает на верхнем уровне все элементы Dublin Core, что позволяет использовать элемент COVERAGE для географической привязки контента.

GEO [27] – профиль Z39.50 [12] соответствуют стандарту представления пространственных метаданных FGDC Content Standards (CSDGM) [28]. В Табл. 4 приведено соотношение полей, содержащих граничные географические координаты для профиля Z39.50 GEO, стандарта FGDC Content Standards и MARC21 [29-30].

Форма представления координат для профиля GEO соответствует форме MARC21.

Также следует заметить, что стандарты ISO-19115, ISO-19139 содержат аналогичное описание географической привязки контента информационного объекта.

idinfo/spdom/bounding/westbc West Bounding Coordinate 1.5.1.1 034 d idinfo/spdom/bounding/eastbc East Bounding Coordinate 1.5.1.2 034 e idinfo/spdom/bounding/northbc North Bounding Coordinate 1.5.1.3 034 f idinfo/spdom/bounding/southbc South Bounding Coordinate 1.5.1.4 034 g Таким образом, географический аспект может присутствовать в метаданных, он выражается в виде географических названий или географических координат. При этом чаще всего географические координаты указывают или на точку, или на ограничивающий область четырехугольник. Представление в метаданных более сложных областей, например, области, заданной произвольной замкнутой кривой на поверхности, возможно лишь в специализированных схемах данных (FGDC, ISO-19115, и др.), которые изначально создавались для географической информации. Тем не менее, информации в виде точки и граничного четырехугольника вполне достаточно для организации поиска с использованием пользовательских графических интерфейсов, основанных на географической карте. Поэтому следует сделать вывод, что практически все используемые схемы метаданных (библиотеки, архивы, музеи, и др.) допускают интеграцию с географическими поисковыми системами.

Что должна означать географическая привязка цифрового объекта Географическая привязка цифрового объекта должна означать, что все элементы его описания, имеющие прямое или косвенное отношение к географии, должны иметь возможность содержать географическую привязку. Это может относиться к описанию как информационного контента объекта, так и к описанию контекста существования объекта.

В качестве примера последнего можно привести следующее. Несомненно, явную географическую направленность имеет элемент «Место публикации» (MARC21 260$a) в традиционном библиографическом описании. Этот элемент не описывает информационный контент, но он описывает контекст (что, где, когда и пр.). К сожалению, в существующих библиографических схемах данных нет возможности указать явную географическую привязку в виде географических координат, как для этого элемента, так и для других элементов контекста.

Для описаний различных типов объектов элементами, содержащими описание контекста, могут быть элементы, указывающие на категорию местоположения в географическом смысле, например:

Заметим, что ни для одной из перечисленных категорий контекста ни в одной из упоминавшейся выше схемах данных не предусмотрено использование географических координат. В лучшем случае допускается использование нормированных географических названий, а в идеальном случае эти нормированные названия содержат указания на соответствующий географический тезаурус.

Следствием этой неполноты схем метаданных является тот факт, что сегодня, оставаясь в рамках действующих стандартов на метаданные и используя существующие информационные массивы, невозможно сформулировать разумный поисковый запрос (и, тем более, получить разумный ответ) о представлении информации, например, о всех артефактах, найденных на территории, ограниченной координатами (x1, y1, x2, y2), или о всех литературных шедеврах, созданных на той же самой территории.

Приведенный пример показывает, что существующие схемы метаданных требуют существенной переработки для представления информации о контексте в части его географического аспекта. Отсутствие возможности строгой фиксации этого аспекта существенно обедняет поисковые возможности географических информационных систем.

Справедливости ради следует отметить, что географическая координатная привязка контекста (класс E47) присутствует в определениях онтологии в сфере документов по культурному наследию (CIDOC CRM). Это не удивительно, т. к. в описаниях объектов культурного наследия описание контекста имеет не меньшее значение, чем описание контента. К сожалению, в CIDOC CRM геометрия всех объектов сводится к точке.

О программных и информационных продуктах Анализ распространенных программных продуктов для управления цифровым контентом электронных библиотек в России (и не только) показал, что практически ни один из этих продуктов не предоставляет сервисов для управления географической привязкой.

Из распространенных программных комплексов единственным свободно распространяемым программным продуктом, который позволяет работать с географическим аспектом информационного контента, является программный комплекс GeoNetwork [31].

Несмотря на то, что основное его предназначение – обеспечение управления специализированным цифровым контентом на основе метаданных FGDC, ISO-19115 и ISOон допускает частичное использование дополнительных XML-схем данных и управление различными типами цифровых объектов (снимки, текстовые документы и т.д.).

3. СИСТЕМЫ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ И

ЭЛЕКТРОННЫЕ БИБЛИОТЕКИ

Изложенный в предыдущих разделах материал позволяет сформулировать ряд требований к системам управления базами данных (СУБД), которые могут быть использованы в качестве систем управления контентом в ЭБ. При этом речь идет об управлении как первичным контентом (собственно цифровые объекты), так и вторичными информационными ресурсами – метаданными.

Для метаданных:

возможность хранения и обработки геометрических примитивов (точка, линия, обработка поисковых запросов, содержащих геометрические примитивы возможность организации атрибутивного поиска по всем элементам метаданных Для первичных данных:

поддержка связи между первичными и вторичными ресурсами поддержка поиска по содержимому цифрового объекта Общие:

поддержка самодостаточного языка запросов поддержка ссылочной целостности данных многоуровневый контроль доступа к данным поддержка аутентификации пользователей в соответствии со стандартными технологиями, в частности, с LDAP возможность работы с XML-представлением записей Общие желательные:

лицензия свободно-распространяемого программного обеспечения Наиболее подходящим готовым продуктом для управления метаданными является СУБД PostgreSQL.

Для управления первичными ресурсами выбор СУБД не столь принципиален и может быть уточнен в ходе разработки собственно модели и прототипа ЭБ.

4. ВЫЯВЛЕНИЕ ДУБЛИКАТОВ

При запросах к нескольким разнородным источникам зачастую возникает проблема повторяющихся записей, когда два различных источника содержат документы, описывающие один и тот же объект (сущность) реального мира. В информационных системах, работающих с библиографическими описаниями публикаций научной тематики, вероятность возникновения такой ситуации существенно повышается.

Так как библиографические информационные системы, как правило, разрабатываются и поддерживаются независимо, и в каждом конкретном случае разработчики руководствуются своими собственными подходами, то записи, относящиеся к одним и тем же документам, могут быть представлены по-разному. В частности, такие записи могут иметь различную степень полноты или не соответствовать друг другу по причине опечаток создателей записей. В результате этого может возникнуть неоднородность как на уровне модели и схемы данных, так и на уровне самих элементов данных [32].

Для решения задачи интеграции разнородных источников возникает необходимость сопоставления, согласования и объединения различных представлений данных, а также исключения дублирующейся информации.

Процесс выявления и исключения дублирующейся информации может производиться как над двумя источниками одновременно, так и над уже интегрированным набором данных. Можно выделить следующие этапы:

Приведение документов (записей), полученных из разнородных источников, к единой схеме данных;

выявление (т.е. сопоставление) похожих записей, относящихся к одному и тому же объекту реального окружения;

объединение похожих записей в одну, содержащую все соответствующие атрибуты без избыточности;

удаление избыточных записей, содержащих менее полную информацию.

В данной работе мы рассматриваем алгоритм решения задачи исключения дублирующих записей, получаемых при запросах к разнородным библиографическим базам данных научной тематики. При этом в понятие «библиографическая база данных» мы вкладываем более широкий смысл, чем «база данных, ведущаяся профессиональными библиографами», подразумевая, что речь может идти и о тех или иных библиографических списках, составленных без строгого соблюдения библиотечных стандартов.

В разрабатываемой системе «Научные сотрудники - математики СО РАН», приходится иметь дело с несколькими источниками, содержащими библиографическую информацию о публикациях сотрудников имеющими различную структуру схемы данных. Публикации интегрируются из трх баз данных MySQL:

База данных публикаций журнала «Вычислительные технологии»;

База данных публикаций сотрудников Института вычислительных технологий СО База данных публикаций системы «Web-ресурсы математического содержания».

Главными атрибутами объекта «научная публикация» являются название, список авторов и другие выходные данные публикации, а также некоторая дополнительная информация (веб-ссылка на полный текст или, по крайней мере, аннотацию к статье и др.).

Можно выделить основные проблемы, возникающие на уровне элемента данных:

орфографические ошибки, транспозиции символов, измененный порядок слов и т.д.;

несогласованность в написании фамилии автора;

случай полного совпадения фамилии, имени и отчества двух авторов;

другие проблемы, связанные с предметной областью (прим. - первая и вторая части одной и той же статьи, опубликованные раздельно).

Заметим, что дополнительная информация о публикациях для некоторых записей из вышеперечисленных источников может, вообще говоря, и отсутствовать. В частности, некоторые записи могут не содержать ссылок как на аннотацию, так и на полный текст статьи. Это сразу же ограничивает нас в применении алгоритмов сравнения документов, работающих с полными текстами. В нашем случае мы можем использовать для установления соответствия между записями только главные атрибуты, являющимися по своей сути строками, а также некоторые выходные данные публикации. Учитывая вышесказанное, первостепенной задачей требующей решения для обнаружения дубликатов публикаций становится выбор функции похожести или метрики для установления нечткого соответствия двух строк.

Функции похожести строк и алгоритмы их вычисления Расстояние между двумя объектами может быть вычислено с помощью различных мер близости, которые называют также метриками. Чем меньше это расстояние, тем более похожими считаются объекты сравнения.

Понятие метрики широко используется в различных областях, к примеру, в распознавании образов (букв, речи, изображений, лиц и т.д.).

Одними из наиболее часто встречающихся метрик для подсчта расстояния в n-мерном пространстве являются меры Хемминга («манхэттенское расстояние») и Евклида Для сравнения строк обычно используют метрики, оценивающие минимальное количество действий (операция редактирования), необходимых для преобразования одной строки в другую. К элементарным операциям редактирования относятся операции замены, вставки и удаления символа, последние две из которых иногда объединяют в одну.

Существует множество различных подходов к выбору функции похожести строк.

Одной из классических мер является расстояние Левенштейна (также дистанция Левенштейна, функция Левенштейна, алгоритм Левенштейна). Согласно работам [33,34] функция Левенштейна – это мера разницы двух последовательностей символов (строк) относительно минимального числа элементарных операций редактирования, необходимых для перевода одной строки в другую в случае, когда операции имеют одинаковый вес.

Существует также модификация расстояния Левенштейна – расстояние Левенштейна – Дамерау, где в множество элементарных операций включены транспозиции символов. При этом требуется, чтобы к транспонированным символам не применялись другие операции редактирования.

Если придать единичный вес удалению и вставке и удвоенный вес замене, мы получим «расстояние редактирования». Разрешив только операцию замены с единичным весом, мы приходим к расстоянию Хемминга, которое определяется, как количество позиций, в которых строки содержат различные символы. Оно пригодно для определения расстояния только в тех случаях, когда сравниваемые строки имеют одинаковую длину. В случае, когда разрешены только операции удаления и вставки с весом, равным единице, мы можем вычислить меру, которую называют наибольшей общей подпоследовательностью двух строк (LCS – Longest Common Subsequence).

Расстояние Джаро – Винклера [35] определяется по формуле:

Здесь m – число совпадающих символов, s1 и s 2 – длины сравниваемых строк, а t – число перестановок. Два символа считаются совпадающими, когда расстояние между ними не превышает Каждый символ первой строки сравнивается со всеми совпадающими с ним символами второй строки. Число перестановок определяется, как число совпадающих, но идущих в неверном порядке символов, поделнное на два. Существует также модифицированный метод Джаро – Винклера, использующий веса отличные от 1/3.

Распознавание Рэтклиффа – Обершелпа [36] подсчитывает похожесть двух строк, как число совпадающих символов, поделнное на общее число символов в обеих строках.

Совпадающие символы определяются в виде наибольшей общей последовательности, а также совпадающих символов в остальной части по каждую сторону от наибольшей общей подпоследовательности.

Среди других подходов можно выделить алгоритмы проверки похожести звучания слов с помощью фонетического кодирования (Soundex, Metaphone, NYSIIS и др.) [6].

Обычно, такие алгоритмы языкозависимы, и плохо работают в случае, когда строки различаются в первом символе или содержат пробелы.

Ряд подходов также основан на сопоставлении лексем (схожесть Джаккарда и др.). В них работа ведтся с векторной моделью документов, а текст представляется в виде набора слов. В некоторых случаях вместо слов в качестве лексем выступают n-граммы (общие подстроки фиксированной длины n). Основным недостатком этих методов, как правило, является не слишком высокая эффективность работы при сравнении коротких строк или при наличии орфографических ошибок в словах. [38] Расстояние Левенштейна может быть вычислено с помощью метода динамического программирования Вагнера – Фишера [39]. Идея метода состоит в том, чтобы последовательно оценивать расстояния между удлиняющимися на каждом шаге префиксами строк до получения окончательного результата. Промежуточные результаты вычисляются итеративно и хранятся в массиве размерности (m+1) (n+1), что приводит к затратам времени и памяти (mn), где m и n – длины сравниваемых строк. Для нахождения значения расстояния требуется вычислить mn элементов матрицы динамического программирования.

Согласно Смиту и Ватерману [40] можно дополнить понятие «расстояния редактирования», введя учт пропуска последовательностей символов. Полученное расстояние обычно называется обобщнным расстоянием редактирования с аффинным штрафом за пропуски, и может быть вычислено с помощью метода динамического программирования использующего три матрицы. Однако сложность алгоритма в этом случае возрастает до Левенштейна – Дамерау.

На основе метода динамического программирования было разработано множество алгоритмов, в частности алгоритмы Хиршберга, Ханта и Мак-Илроя, Ханта и Шиманского, Машека и Патерсона, Укконена и Майерса и других. Более подробное описание и исследование этих алгоритмов можно найти в работах [41,34].

Также для подсчта длины наибольшей общей подпоследовательности существует ряд алгоритмов, основанных на использовании бит-векторов (AD, CIPR и другие) [42]. Они позволяют получить результат за время O(mn/), где – размер используемого алфавита.

Существующие решения На данный момент существует достаточно большое число публикаций, посвящнных проблеме дублирующихся записей. Как правило, выбор решения в каждом конкретном случае сильно зависит от особенностей предметной области и постановки задачи.

В подавляющей части встретившихся нам работ для сравнения строк используется стандартная метрика Левенштейна, а также не производится никакой предварительной обработки данных.

В работе Н. Л. Цыганова [43] рассматривается методика нечеткого сопоставления записей баз данных персонала. На первом этапе производится предварительная кластеризация данных, после чего применяются алгоритмы нечеткого сопоставления строк (значений) для всех полей записи, по которым осуществляется поиск. Для полей имен используется метод вычисления обобщенного расстояния редактирования с аффинным штрафом за пропуски, а для остальных полей - вычисление схожести, основанной на совпадении лексем. В заключении, строится вектор схожести отдельных полей для вычисления результирующей схожести записей.

В работе А.Ю.Гулы, А.П.Игнатенко, А.В.Чадюка [44] рассматривается методика идентификации физических и юридических лиц в хранилищах данных. Плюсом работы является предложенный алгоритм нормализации данных, включающий в себя унификацию как структуры данных (загрузка данных из разных источников в таблицу единого формата), так и самих данных (перевод строк в верхний регистр, удаление непечатных и повторяющихся символов, удаление пробелов в начале и конце строки). Для сравнения записей в случае юридических лиц предлагается использовать алгоритм сопоставления биграмм, а в случае физических лиц – модифицированное расстояние Левенштейна.

Помимо частных решений на данный момент существует ряд программных пакетов для очистки данных, в которых реализованы средства выявления и удаления дубликатов (DataCleanser DataBlade, ETI Data Cleanse, Integrity, Centrus Merge/Purge и другие). Ими поддерживаются различные подходы к согласованию атрибутов. Некоторые из них также позволяют интегрировать правила согласования, определнные пользователем.

Выбор алгоритма и его реализация Рассмотрим более подробно процесс выявления и исключения дублирующихся публикаций для web-ресурса «Научные сотрудники - математики СО РАН». На первом этапе происходит интеграция данных из трх источников, которые были перечислены выше.

Информация извлекается с помощью метаданных. Ввиду того, что источники имеют различную структуру схемы данных, в местах, где это необходимо, производится слияние или расщепление соответствующих атрибутов. После этого приведнная к единообразному виду информация заносится во временную таблицу, над которой происходит весь дальнейший процесс оперирования данными. Временная таблица содержит следующие поля:

Title – Название статьи (публикации) URL – Ссылка (на аннотацию к публикации) Description – Дополнительная информация о публикации (источник публикации) Priority – Приоритет Название научной статьи по своей сути уникально, что позволяет добиться достаточно небольшого риска ошибочного определения дубликата. Однако использование только данного атрибута оказалось недостаточным для успешного выявления дубликатов. Как пример можно привести учебные пособия («Математический анализ» и другие), названия которых часто совпадают, при том, что в остальных атрибутах могут наблюдаться различия.

Поэтому, для эффективного определения дубликатов мы использовали совокупное сравнение по нескольким атрибутам, основные из которых: список авторов и название статьи.

Исходя из априорной информации о большом количестве абсолютно идентичных записей, на предварительном этапе записи проверяются на полное совпадение по каждому из атрибутов и, при достижении положительного результата, автоматически классифицируются как дубликаты. В противном случае алгоритм переходит к проведению нечткого сравнения.

Перед непосредственным сравнением двух строк на этапе предобработки данных происходит преобразование букв с акцентами, а также перевод обеих строк в нижний регистр. Это позволяет улучшить качество получаемого результата.

Пороговый показатель сходства для каждого из основных атрибутов подбирался путм тестирования как на реальных базах данных, так и на специально сгенерированной базе данных, содержащей всевозможные ошибки, и составляет 60% для атрибута 'Authors‘ и 80% для атрибута Title‘. Было установлено, что для используемых баз данных эти показатели дублирующихся записей. Во многом, этот результат достигается именно за счт установленных показателей, возможен пропуск некоторых дублирующихся записей, а также возникновение «лишних» пар дубликатов.

Для вычисления длины наибольшей общей подпоследовательность двух строк для сопоставления записей была выбрана одна из модификаций метода динамического программирования, предложенная Хиршбергом. Выбор данного метода был обусловлен достаточной эффективностью и относительной простотой реализации.

Затраты алгоритма относительно памяти и времени вычисления составляют соответственно (m n) и (mn), где m и n - длины сравниваемых строк. Алгоритм реализован с помощью метода динамического программирования, основанного на рекурсии, на каждом шаге определяются длины наибольших общих подпоследовательностей у вс более и более длинных префиксов строк.

Обозначим их как l(i,j), то есть:

l(i,j) = lcs(x(1,i), y(1, j)).

Здесь функция lcs(x,y) подсчитывает наибольшую общую подпоследовательность строк x и y соответственно. Так как длина наибольшей общей подпоследовательности любой строки и пустой равна нулю, значения границ массива задаются как l(i,0) = l(0,j) = 0.

В позиции (i,j), то есть когда рассматриваются префиксы x(1,i) и y(1,j), если x i = y j, мы получаем новое значение функции lcs, присоединяя этот символ к текущему значению lcs префиксов x(1,i-1) и y(1,j-1), откуда l(i,j) = l(i-1,j-1) + 1. Иначе текущее значение lcs бертся в виде максимума из предыдущих соседних значений: l(i,j) = max{l(i-1, j), l(i, j -1)}.

Заметим, что для вычисления строки i требуется только строка i-1. Для удобства введем вектор ll(j) = l(m,j). Используется массив h длины 2(n+1), в котором нулевая и первая строки выступают в качестве строк i-1 и i массива l, соответственно.

Граничные условия по j от 0 до n задаются, как h(1,j) = 0.

Перед вычислением каждой новой строки i первая строка сдвигается вверх на место нулевой строки. Для этого используется цикл по i от 1 до m и по j от 0 до n, в котором h(0,j) присваивается значение h(1,j).

По j от 1 до n в позиции (i,j) при x i = y j полагаем h(1,j) = h(0,1) + 1. В противном случае полагаем h(1,j) = max{h(1,j-1), h(0,j)}.

На последнем этапе по всем j от 0 до n происходит копирование результата h(1,j) в выходной вектор ll(j).

В таблицах Таблица 5 и Таблица 6 отражены результаты сравнения для десяти пар дубликатов по параметрам Authors‘ и Title‘ соответственно. Помимо разработанного алгоритма (LCS), в результаты теста также включены расчты для двух стандартных функций PHP – Levenshtein и Similar_text.

Таблица 5 Результаты сравнения записей по параметру Authors‘.

Таблица 6 Результаты сравнения записей по параметру Title‘.

Из полученных процентных значений видно, что большинство ошибок приходится на атрибут Authors‘, при практически стопроцентном соответствии заголовков статьи. Такая ситуация обусловлена различным представлением списка авторов в различных базах данных и, как следствие, возможными ошибками при интеграции. Кроме того, в некоторых случаях этот список может оказаться неполным.

Для разработанного алгоритма полученные результаты практически совпадают с результатами для функции Similar_text. Однако в столбцах 6 и 7 более высокий результат был получен за счт лучшей обработки нашим алгоритмом ситуаций, когда расположение авторов в списке оказывается различным (случай перестановки слов). Таким образом, разработанный алгоритм продемонстрировал наилучшую эффективность работы.

Записи, для которых показатели сходства по каждому из основных атрибутов превышают пороговое значение, рассматриваются как потенциальные дубликаты, после чего происходит сопоставление по дополнительным атрибутам, таким как год публикации.

При отсутствии информации о дополнительных атрибутах (пропущенные значения) записи трактуются как различные.

В случаях, когда приходиться иметь дело с разными частями одной и той же статьи или книги, вышеперечисленных методов может оказаться недостаточно для получения ответа на вопрос, являются ли две сравниваемые записи дубликатами или нет. В качестве примера приведм две следующие записи:

1. В. А. Ильин, В. А. Садовничий, Бл. Х. Сендов «Математический анализ. Часть 1», 2. В. А. Ильин, В. А. Садовничий, Бл. Х. Сендов «Математический анализ. Часть 2», В данном примере, при полном совпадении параметров 'Authors' и 'Year', различие заключается только в параметре 'Title', при этом степень сходства очевидно превышает выбранный пороговый показатель, вследствие чего при отсутствии дополнительной проверки записи могут быть ошибочно определены как дубликаты. Для обработки таких уникальных случаев, используется алгоритм поиска всевозможных вхождений вида (1), [1], Часть 1, Часть первая и других, что позволяет избежать описанной выше ошибки.

Описанная стратегия обеспечивает выявление подавляющего числа дублирующихся записей в рамках решаемой задачи. По завершению процесса выявления дубликатов, из результата запроса исключаются дублирующиеся записи, содержащие менее полную информацию. Этот процесс происходит в соответствии с выставленными приоритетами (атрибут Priority‘). В нашем случае удалось единственным образом упорядочить источники по полноте, таким образом при выводе предпочтение отдается источникам, содержащим более полную информацию.

Предложенный алгоритм был применен при разработке web-ресурса «Научные сотрудники - математики СО РАН» [46], являющегося частью системы «Web-ресурсы математического содержания». Ресурс отражает информацию о научных сотрудниках – математиках СО РАН, а также ссылки на их научные труды и публикации.

Был проведен анализ проблем и подходов к их решению в задаче исключения дублирующихся записей при одновременном запросе к нескольким библиографическим каталогам. На основе проведенного анализа реализован алгоритм исключения дублирующихся записей.

Также было проведено тестирование алгоритма на реальных базах данных публикаций СО РАН – Базе данных публикаций журнала «Вычислительные технологии», Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы «Web-ресурсы математического содержания».

В ходе тестирования были определены оптимальные параметры, необходимые для эффективной работы алгоритма. Алгоритм был применн для web-ресурса «Научные сотрудники - математики СО РАН».

5. КЛАССИФИКАЦИЯ БОЛЬШИХ МАССИВОВ ДОКУМЕНТОВ

Постоянный рост объема научной информации, представленной в электронной форме, делает актуальным решение задачи разработки методики автоматизированного вовлечения электронных документов в научно-информационный процесс. Одним из важнейших этапов этого процесса является классификация документов, поскольку при отсутствии классификационных признаков поиск документа человеком или его обработка интеллектуальной информационной системой может опираться только на простую проверку вхождения тех или иных терминов в текст документа. К сожалению, даже наиболее структурированные документы – журнальные статьи – далеко не всегда содержат классификационные признаки, к тому же классификатор источника может не совпадать с классификатором, используемым создателями информационной системы.

Другой распространенный подход к удовлетворению информационных потребностей научных работников – поиск «по аналогии» – заключается в нахождении документов, которые в том или ином смысле аналогичны документу (или множеству документов), уже известному данному лицу (подробнее см., например, [47]).

В качестве шкал для определения меры сходства между двумя документами в обоих названных случаях можно использовать атрибуты библиографического описания данных документов (метаданные), а также элементы контента электронного документа, в частности, ключевые слова и ключевые словосочетания. В процессе автоматической категоризации документов ключевые слова являются основной характеристикой, отражающей содержание документа.

Проблема, возникающая в процессе индексирования документов, состоит в выборе структуры списка ключевых слов: должен ли он состоять исключительно из одиночных слов или он может включать в себя и составные выражения? Конечно, составные ключевые слова более адекватно описывают предметную область, но при их использовании значительно усложняется морфологический анализ текста. Более того, в некоторых работах, например, в статье [48], содержащей подробный обзор современных методов классификации документов с использованием ключевых слов, утверждается, что использование одиночных ключевых слов является «наиболее приемлемым». Такой подход при наличии качественных средств морфологического анализа представляется недостаточно обоснованным, по крайней мере, для коллекций документов, относящихся к какой-либо определенной узкой тематике (данная оговорка сделана и в [48]), поскольку использование одиночных ключевых слов имеет серьезные теоретические недостатки [49]: возможность ложной координации, ложных синтагматических связей и др.

Цель данной работы заключается в демонстрации практических преимуществ кластеризации документов на основе ключевых словосочетаний по сравнению с кластеризацией на основе анализа только однословных ключевых термов, при этом для выделения ключевых словосочетаний используются общедоступные программные средства, не требующие особых вычислительных затрат.

Алгоритм извлечения ключевых термов Важной задачей обработки текстовых документов, результат решения которой используется не только для их классификации (категоризации), но и для извлечения из них информации и знаний, является координатное индексирование, т.е. извлечение из текстов документов ключевых слов и словосочетаний.

Классический подход к решению данной проблемы заключается в использовании средства анализа на основе тезауруса обрабатываемой предметной области. Но метод выделения ключевых слов и словосочетаний, основанный на анализе тезауруса предметной области, имеет существенный недостаток: таким способом нельзя производить индексирование корпусов текстов произвольных тематик. Более того, если вести речь об обработке корпусов текстов достаточно узких тематик, то в таких случаях требуются весьма подробные тезаурусы, которые имеются (по крайней мере, в широком доступе) далеко не для всех предметных областей. Подход же, основанный на извлечении ключевых выражений без априорных ограничений, носит гораздо более универсальный характер, хотя, естественно говоря, несколько проигрывает в адекватности индексирования.

Ввиду того, что в русском языке имена существительные и прилагательные при склонении изменяют свою форму, разработка эффективного алгоритма автоматизации извлечения ключевых слов является нетривиальной задачей, так как необходимо учитывать и те случаи, когда слова, образующие термин (т.е. ключевое слово), находятся не только в именительном, но и в косвенных падежах.

Для решения этой задачи мы опирались на морфологический анализ текстов и выделении ключевых словосочетаний по морфологическим шаблонам с использованием программного продукта компании Яндекс (http://company.yandex.ru/technology/mystem/), который является бесплатным для некоммерческих целей. При фильтрации и разборе производился отсев стоп-слов. Ключевые словосочетания отбирались по морфологическим шаблонам с учетом словоформ языка.

Для определения ключевых словосочетаний использовались классические морфологические шаблоны, которые достаточно качественно определяют искомые ключевые выражения:

(Прилагательное) (Существительное) (Существительное) (Существительное в творительном падеже) (Существительное) (Существительное в родительном падеже) После завершения подсчета вхождений ключевых слов и словосочетаний в документе необходимо произвести отделение наиболее значимых слов, отражающих контекстное содержание корпуса. Количество вхождений слов в текст в большинстве случаев поддается закону распределения частот Ципфа: если все слова упорядочить по убыванию частоты их использования, то частота n-го слова в этом списке окажется примерно обратно пропорциональной его порядковому номеру (рангу). Для отделения одиночных ключевых слов использовался именно закон Ципфа.

словосочетаний. Для ограничения числа составных ключевых фраз, наиболее точно описывающих содержание электронного документа, использовалась следующая закономерность, замеченная эмпирическим путем, которая проверялась на достаточно большом количестве корпусов текстов средней и большой величины:

где max(Frequency) – максимальная частота встречаемости 1-го (т.е. наиболее часто встречаемого) терма и всех его словоформ терма в корпусе текстов); Frequency(i) – частота встречаемости i-го, проверяемого, терма; word_num – желаемое (ориентировочно) количество отобранных термов.

Разумеется, данное условие (как и закон Ципфа) весьма плохо работает на документах небольшого размера (типа аннотаций), поскольку в них частоты всех однословных и многословных ключевых терминов приблизительно равны и стремятся к единичному вхождению в рамках контекста документа.

Для демонстрации качества отбора ключевых слов и ключевых словосочетаний на основе морфологических шаблонов приведем результаты их отбора из текст романа Л.Н.Толстого Война и мир (Таблица 7), а также текста научной статьи философской направленности (З.О.Османов, К вопросу о различении эпистемологических категорий) (Таблица 8), размер которой является совершенно обычным (средним) в пределах рамок, используемых для публикации научных материалов.

В таблицах, представленных ниже, приводятся результаты выделения ключевых терминов из документов различной тематики и величины. В таблице рядом с каждым термом приведено количество его вхождений (в различных формах) в текст документ. Для составных ключевых термов: фраза в скобках – форма, в которой данное выражение встречалось последний раз («крайнее вхождение»), которое приводится для облегчения (в необходимых случаях) понимания семантики термов, фраза до скобок – первообразная форма фразы, т.е. форма, по которой производился подсчет вхождений.

Таблица 7 Выделенные термы из романа Л.Н. Толстого Война и мир Однословные термы Двухсловные термы Таблица 8 Выделенные термы из статьи З.О.Османова К вопросу о различении Однословные Двухсловные термы термы знание - 131 эпистемологический категория – 5 (эпистемологических категорий) суждение - 85 познавательный процесс - 5 (познавательный процесс) истина - 71 обладающее свойством - 5 (обладающее свойством) мнение - 38 эпистемологический статус – 4 (эпистемологический статус) сведение - 37 тематический словарь - 4(тематический словарь) заблуждение - 37 следующим образом - 4(следующим образом) объект - 29 эмоциональный оценивание - 3(эмоциональное оценивание) субъект - 28 познавательный деятельность - 3(познавательной деятельности) Нетрудно видеть, что приведенные в таблицах термы вполне адекватно отражают тематику документов, при этом, если говорить о философской статье, процент стандартных «общенаучных» лексических конструкций (к каковым из числа полученных двухсловных термов можно отнести выражения «обладающее свойством», «следующим образом» и «изучаемых объектов») достаточно мал. Это позволяет сделать вывод о том, что данная методика выбора однословных и двухсловных ключевых термов показала достаточно хорошее качество работы.

Алгоритм кластеризации текстов Кластеризация наборов электронных документов выполнялась с использованием так называемого жадного алгоритма [50], который признан методом, дающим достаточно хорошие результаты при кластеризации корпуса научных статей близкой тематики (см.

например, [51]), хотя и обладающим сравнительно большой вычислительной сложностью.

Для лучшего понимания результатов кластеризации и объяснения большой вычислительной сложности работы коротко опишем метод его работы. Процесс можно описать шагами, циклически повторяемыми до тех пор, пока не будет свободных документов, которые не включены ни в один из результирующих кластеров.

Строится матрица схожести парных сочетаний каждого документа с каждым, т.е.

матрица NxN, где N равняется количеству документов в кластеризуемой выборке. На пересечении задаются меры сходства документов в шкале [0; 1], причем соответствует полному различию документов, а 1 - полному их сходству.

Разумеется, матрица заполняется только до главной диагонали.

Ищется строка матрицы, сумма компонент которой будет максимальной. Эта строка содержит в себе все коэффициенты подобия i-го документа ко всем остальным документам. Этот документ объявляется центром 1-го кластера. Затем в кластер добавляются все документы, коэффициенты подобия к которым больше либо равно некоторого наперед заданного порогового значения, являющегося параметром данного метода и позволяющего управлять процессом кластеризации.

Исключаются все документы, попавшие в кластер, т.е. из матрицы вычеркиваются все строки и столбцы, соответствующие документам, добавленным в кластер. Далее пункты 1 и 2 повторяются до тех пор, пока не останется документов, не включенных в какой-либо кластер.

Очевидно, что таких операций будет не более чем N (на самом деле значительно меньше). При подобном подходе можно пройти весь массив документов, сформировав некоторое количество кластеров, которое будет варьироваться в зависимости от информационной потребности (это реализуется посредством изменения порогового значения).

Были проведены две серии экспериментов: кластеризация достаточно большого множества документов правовой направленности (около 1300 документов) и набор научных документов математической направленности, содержащих классификационные признаки классификатора MSC2000.

Целью первой серии экспериментов была проверка работы механизма кластеризации в целом (от этапа автоматического выделения ключевых термов, до итогового получения разбиения на кластеры множества документов) на примере достаточно большого массива документов. Во второй серии экспериментов априорное знание классификационных признаков позволило произвести вычисление мер качества и сравнить работу методики при работе алгоритма с использованием однословных и двухсловных ключевых выражений, варьируя при этом параметрический коэффициент жадного алгоритма кластеризации.

Так как вычисление ошибки кластеризации в классическом виде в первом эксперименте не выполнялось (поскольку не производилось экспертного разбиения выборки документов), то для демонстрации корректности работы методики, основанной на анализе ключевых однословных и составных термов, были случайным образом выбраны кластера и выписаны названия случайно выбранных документов, включенных в них. В данном эксперименте на меру сходства между двумя документами оказывали влияние как однословные, так и составные ключевые термы.

Сравнение результатов кластеризации документов, принадлежащих корпусам близких по тематике текстов, показало целесообразность применения общедоступных средств морфологического анализа текстов для извлечения составных ключевых термов, поскольку использование последних для подсчета меры сходства между документами дает заметно лучшие результаты по сравнению с получаемыми при использовании лишь одиночных ключевых слов, позволяя во многих случаях избежать ошибок ложной координации, при этом рост вычислительных затрат на обработку одного текста незначителен. Разумеется, полученные результаты несколько уступают тем, которые возможны при использовании для выделения ключевых слов и словосочетаний тезауруса предметной области, однако, поскольку речь идет об обработке корпусов текстов, близких по тематике, в таких случаях потребовались бы весьма подробные тезаурусы, которые имеются (по крайней мере, в широком доступе) далеко не для всех предметных областей.

Рассматриваемый же здесь подход носит гораздо более универсальный характер.

6. ГЕОГРАФИЧЕСКАЯ ПРИВЯЗКА

Рассмотрим возможность реализация модели электронной библиотеки, которая бы позволяла использовать минимальную функциональность геосервисов. В качестве необходимых минимальных геосервисов следует рассматривать следующие:

возможность поиска информации в ЭБ по географическим координатам с использованием графических интерфейсов для выбора геометрических примитивов:

o граничного прямоугольника o граничного полигона, ограниченного замкнутой ломанной линией с конечным возможность визуализации найденной информации на географических картах;

возможность каталогизации электронных ресурсов при помощи графических интерфейсов работы с картами.

При этом географическая информация, т.е. информация о геометрических географических объектах, должна присутствовать в метаописаниях соответствующих цифровых объектах, зарегистрированных в ЭБ. Эта информация должна относится как к контенту, так и контексту в соответствии с изложенным в предыдущих разделах.

На первом этапе в качестве системы ЭБ управления контентом можно выбрать любую свободно распространяемую систему, например, DSpace [18]. Информационная система DSpace обладает широкими возможностями по управлению цифровым контентом, но не содержит интерфейсов для работы с географическими координатами. Учитывая, что DSpace широко используется для создания электронных библиотек, мы не могли пройти мимо соблазна модифицировать эту систему для придания ей дополнительной функциональности.

На Рис. 1 показаны пользовательские интерфейсы для ввода и редактирования географической информации в модернизированной системе DSpace. При этом достигнутая функциональность системы позволяет реализовать географическую привязку как для контента, так и для контекста.

Поиск информации по различным критериям осуществляется через интерфейсы ZooPARK (см. следующий раздел), который напрямую связан с метаданными DSpace, хранящимися в СУБД PostgreSQL. Существенно, что одновременно поиск может происходить по разным информационным источникам. При этом поисковые запросы формулируются в терминах Z39.50 или CIP [52] (для географической информации). Это обеспечивает единый язык запросов для разных информационных систем, не привязанный к схемам и структурам данных конкретных целевых систем.



Pages:   || 2 |
 
Похожие работы:

«г.Бишкек от 12 июля 2012 года N 104 ЗАКОН КЫРГЫЗСКОЙ РЕСПУБЛИКИ О Национальном центре Кыргызской Республики по предупреждению пыток и других жестоких, бесчеловечных или унижающих достоинство видов обращения и наказания Глава 1. Общие положения Глава 2. Организация и функционирование Национального центра Глава 3. Гарантии независимости Национального центра Глава 4. Превентивные посещения мест лишения и ограничения свободы Глава 5. Взаимодействие Национального центра с государственными органами и...»

«КНИГА РЕЦЕПТОВ СКОРОВАРКА-МУЛЬТИВАРКА BR AND ЛЮБИМЫЕ БЛЮДА БЫСТРО И ВКУСНО Содержание ПЕРВЫЕ БЛЮДА Курица с рисом 13 Картофельная запеканка Суп картофельный с макаронами 2 Картофель с овощами 14 с грибами 24 Грибной суп 2 Котлеты на пару 14 Гречка с грибами 25 Суп с фрикадельками 2 Овощное рагу с мясом 14 Ризотто с овощами 25 Гороховый суп с копченостями 3 Голубцы 15 Опята с тыквой 25 Борщ 3 Ленивые голубцы 15 КАШИ Щи 3 Плов сладкий Молочная рисовая каша Щи с грибами 4 Плов с говядиной Молочная...»

«Четыре строки Сборник буриме Послесловие Д. М а н и н а Составление, примечания и рисунки М. Казанской © Р. Асланбейли, А. Бурштейн (Д. Д. П., Васёк Покусай) М. Вербицкий, А. Вольфовский (Посторонним в.) А. Габриэль (Танжер), Н. Гашимзаде (м-ка) Д. Гусев (Ценсор), В. Каневский (Кинтаро) И. Кригер (Грирке), Д.Кулиш (Автоматическое, Квебек) Г. Лансберг, М. И. Мухин ( ПППвППП), Д. Манин А. Осипов (*оп?ов, Револьвента Иванова) Э. Пикалев (Латакот), Д. Прокофьев (Д. П.) П. Просянкин (Дед Буквоед),...»

«МИНОБРНАУКИ РОССИИ I Орский гуманитарно-технологический институт (филиал) Квалификация Срок обуч. (#г ##м) Маркетолог 6 ГОУ ВПО Оренбургский государственный университет План одобрен Ученым советом вуза от Шифр плана в ИМЦА протокол № 25.06.2008 РАБОЧИЙ УЧЕБНЫЙ ПЛАН специалиста заочной формы обучения 080111. специальности 080111 Маркетинг заочная форма обучения График учебного процесса Недель Сентябрь Октябрь Ноябрь Декабрь Январь Февраль Март Апрель Май Июнь Июль Август Диссертация магистра...»

«Федеральный закон от 12.04.2010 N 61-ФЗ (ред. от 25.11.2013) Об обращении лекарственных средств Документ предоставлен КонсультантПлюс www.consultant.ru Дата сохранения: 24.02.2014 Федеральный закон от 12.04.2010 N 61-ФЗ Документ предоставлен КонсультантПлюс (ред. от 25.11.2013) Дата сохранения: 24.02.2014 Об обращении лекарственных средств 12 апреля 2010 года N 61-ФЗ РОССИЙСКАЯ ФЕДЕРАЦИЯ ФЕДЕРАЛЬНЫЙ ЗАКОН ОБ ОБРАЩЕНИИ ЛЕКАРСТВЕННЫХ СРЕДСТВ Принят Государственной Думой 24 марта 2010 года Одобрен...»

«1 Основную профессиональную образовательную программу высшего образования (ОПОП ВО) по специальности 060105 Медико-профилактическое дело составили: доцент Медоева А.А., доцент Дзулаева И.Ю., д.м.н. Бутаев Т.М. ОПОП ВО по специальности 060105 Медико-профилактическое дело утверждена на ЦУМК Медико-профилактических дисциплин от г. протокол №_. ОПОП ВО по специальности 060105 Медико-профилактическое дело утверждена на ЦКУМС ГБОУ ВПО СОГМА Минздрава России от 06.06.2014 г. протокол № 5. ОПОП ВО по...»

«Москва АРМАДА 1997 УДК 82-34 (02.053.2) ББК 84 (2Рос=Рус) 6-445 У 74 С и м п а т и чн ы й ст аричок-приш елец с планет ы Б у к совершил вынужденную посадку в А ниной комнате: в его космической тарелке-леталке кончилось горючее. П и л о т А с не умеет читать и поэтому не знает, как называется необходимое топливо. Д о отлета базового корабля на планету Б у к остается тридцать дней, тридцать м инут и тридцать секунд. Так неужели бедняжка А с Б ук а никогда уже не вернется домой? В ы х о д только...»

«Комсомольская-на-Амуре городская Дума Решение 14.12.2011 № 80 О местном бюджете на 2012 год Рассмотрев представленный проект решения Комсомольской-на-Амуре городской Думы О местном бюджете на 2012 год, в соответствии со статьей 153 Бюджетного кодекса Российской Федерации, статьей 35 Федерального закона Об общих принципах организации местного самоуправления в Российской Федерации от 06 октября 2003 года № 131-ФЗ и статьей 12 Устава муниципального образования города Комсомольска-на-Амуре,...»

«МИХАИЛ КРИВОШЕЕВ АЛЕКСАНДР МАРЬИН МАРСЕЛЬ САИТОВ КАМЕНЬ, НОЖНИЦЫ, БУМАГА. Ф ИкеНульБерБер УДК 82–93 ББК 84(2Рос=Рус) 6–44 К82 Кривошеев М., Марьин А., Саитов М. Камень, ножницы, бумага. : стихи.– Уфа: Вагант, 2011. – 80 с. У настоящего поэта должно быть чувство стиха, чувство формы, чувство языка и чувство меры. Именно поэтому в этот сборник вложили: Александр Марьин – чувство стиха, Михаил Кривошеев – чувство формы, Марсель Саитов – чувство языка, ДБ – чувство меры. Рекомендуется для чтения...»

«Оглавление По жалобе о нарушении статьи 2 Конвенции По жалобам о нарушениях статьи 3 Конвенции По жалобам о нарушениях статьи 6 Конвенции По жалобам о нарушениях статьи 7 Конвенции По жалобам о нарушениях статьи 8 Конвенции По жалобе о нарушении статьи 9 Конвенции По жалобам о нарушениях статьи 10 Конвенции В порядке применения статьи 21 Конвенции В порядке применения статьи 35 Конвенции В порядке применения статьи 41 Конвенции В порядке применения статьи 46 Конвенции В порядке применения...»

«1 № 7(14) май-июнь п ес н ю год зн ы Ка К сл а д К у ю 2012 отчи м ое й, лю блю я Ка вКа з! м. ю. л е рмо нто в №7(14) Май-июнь,2012 Газета распространяется в городах: Краснодар, Майкоп, Черкесск, Нальчик, Магас, Грозный, Махачкала, Баку, Ереван КЛАССИК ДАРГИНСКОЙ ЛИТЕРАТУРЫ ОМАРЛА БАТЫРАЙ (1831 - 1910) Запрещают песни петь, Как же мне молчать, мой друг, Когда столько подлецов С ПРАЗДНИКОМ Без стыда шумят вокруг! ПОБЕДЫ, ДОРОГИЕ ЧИТАТЕЛИ! Хроника ПРИЧАЩЕНИЕ ПОБЕДОЙ РЕШЕНИЕ *** Президиума...»

«ЛЕСОХОЗЯЙСТВЕННЫЙ РЕГЛАМЕНТ БЕЛОВСКОГО ЛЕСНИЧЕСТВА КЕМЕРОВСКОЙ ОБЛАСТИ Департамент лесного комплекса Кемеровской области ЛЕСОХОЗЯЙСТВЕННЫЙ РЕГЛАМЕНТ БЕЛОВСКОГО ЛЕСНИЧЕСТВА КЕМЕРОВСКОЙ ОБЛАСТИ Кемерово 2013 1 ЛЕСОХОЗЯЙСТВЕННЫЙ РЕГЛАМЕНТ БЕЛОВСКОГО ЛЕСНИЧЕСТВА КЕМЕРОВСКОЙ ОБЛАСТИ 2 ЛЕСОХОЗЯЙСТВЕННЫЙ РЕГЛАМЕНТ БЕЛОВСКОГО ЛЕСНИЧЕСТВА КЕМЕРОВСКОЙ ОБЛАСТИ Приложение № 1 к приказу департамента лесного комплекса Кемеровской области от 30.01.2011 № 01-06/ ОГЛАВЛЕНИЕ № Содержание Стр. п/п Введение Глава...»

«Dungeons&Dragons 3.5 edition Кормир: Разрыв Плетения (Cormyr: The Tearing of the Weave) 1 От переводчика При переводе я старался опираться на все доступные материалы на русском языке и здравый смысл. При переводе имен собственных – доступные транскрипции в комплитах и правила английского языка. Перевод некоторых спорных слов: – заклинание, чары или (в общем смысле) магия spell – накладывать, колдовать или читать cast – колдующий или заклинатель caster, spellcaster wizard - волшебник – колдун...»

«Ирина Логвина, Людмила Рождественская Формирование навыков функционального чтения Книга для учителя (II – III ступень обучения) Курс для учителей русского языка как родного 2012 Koostajad: Irina Logvina, Ljudmila Rodestvenskaja/ Ирина Логвина, Людмила Рождественская Projekti toetatakse Euroopa Sotsiaalfondi meetme „Kooli poolelijtmise vhendamine, haridusele juurdepsu suurendamine ning ppe kvaliteedi parandamine“ alameetme „Phikooli ja gmnaasiumi riiklikele ppekavadele vastav ldharidus“ raames....»

«Книга Александр Тарнорудер. Продавец красок (сборник) скачана с jokibook.ru заходите, у нас всегда много свежих книг! Продавец красок (сборник) Александр Тарнорудер 2 Книга Александр Тарнорудер. Продавец красок (сборник) скачана с jokibook.ru заходите, у нас всегда много свежих книг! 3 Книга Александр Тарнорудер. Продавец красок (сборник) скачана с jokibook.ru заходите, у нас всегда много свежих книг! Александр Тарнорудер Продавец красок (Сборник) Книга Александр Тарнорудер. Продавец красок...»

«Сертифицировано: Штаб-квартира SmartWood 65 Millet St. Suite 201 Отчет Richmond, VT 05477 USA Tel: 802-434-5491 о сертификационной оценке Fax: 802-434-3116 www.smartwood.org лесоуправления Контактное лицо: Jon Jickling jjickling@smartwood.org по: Гродненской группе сертифицируемых лесхозов в Гродненской области, Беларусь Сертификационная оценка выполнена: партнером SmartWood компанией NEPCon Тел.: + ОГЛАВЛЕНИЕ Факс: + Контактное лицо: Дата завершения отчета: 10 июля 2006г. Email: Дата...»

«ПРАВИТЕЛЬСТВО БЕЛГОРОДСКОЙ ОБЛАСТИ УТВЕРЖДАЮ: Губернатор Белгородской области Е.С. Савченко _2011 г Регламент Ветеринарные и санитарные требования к выращиванию и транспортировке свиней, а также к убойным предприятиям на территории Белгородской области Разработан: департаментом агропромышленного комплекса Белгородской области Введен в действие: _ Всего листов: 26 г. Белгород – 2011 год ЛИСТ СОГЛАСОВАНИЯ Начальник управления ветеринарии при правительстве Белгородской области О.В. Бабенко...»

«Зарегистрировано в Минюсте РФ 9 февраля 2007 г. N 8923 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ПРИКАЗ от 9 января 2007 г. N 2 ОБ УТВЕРЖДЕНИИ ПОЛОЖЕНИЯ О СОВЕТЕ ПО ЗАЩИТЕ ДОКТОРСКИХ И КАНДИДАТСКИХ ДИССЕРТАЦИЙ В соответствии с Положением о порядке присуждения ученых степеней, утвержденным Постановлением Правительства Российской Федерации от 30 января 2002 г. N 74 (Собрание законодательства Российской Федерации, 2002, N 6, ст. 580; 2003, N 33, ст. 3278; 2006, N 18, ст. 1997),...»

«Чингиз Абдуллаев Правило профессионалов Чингиз Акифович Абдуллаев Разведчик заданий не выбирает. На этот раз сыщик суперкласса Дронго отправляется в Багдад. Ему нужно найти и ликвидировать предателя - бывшего агента КГБ Волка. Не самая простая задача - Волк умеет `обнажать клыки` и не ведает жалости. Профессионалы - онизнают правила таких поединков. Но даже профессионал не может предугадать всего Глава 1 Вы должны убить Волка. – Он сказал это тем невозмутимо-ласковым тоном, каким обычно...»

«2 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы. Род Salix L. — один из крупнейших родов флоры России и самый крупный в бореальной арборифлоре. Он распространен на большей части суши и включает 300–350 таксонов различного ранга в мировом масштабе. Наибольшее видовое разнообразие характерно для северных областей Евразии, Китая и Северной Америки. Подрод Chamaetia (Dumort.) Nasarov насчитывает 43 вида во флоре Азиатской России и 57 видов в мировой флоре, с основным распространением в северных...»






 
© 2014 www.kniga.seluk.ru - «Бесплатная электронная библиотека - Книги, пособия, учебники, издания, публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.