WWW.KNIGA.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА - Книги, пособия, учебники, издания, публикации

 

Pages:   || 2 | 3 | 4 | 5 |   ...   | 8 |

«Рубрикатор как инструмент информационной навигации Санкт-П етербург УДК 025.44.47 Б БК 73 Г47 Гиляревский, Р. С. Рубрикатор как инструмент информацион­ ной навигации / ...»

-- [ Страница 1 ] --

Р. С. Гиляревский, А. В. Шапкин, В. Н. Белоозеров

Рубрикатор

как инструмент

информационной навигации

Санкт-П етербург

УДК 025.44.47

Б БК 73

Г47

Гиляревский, Р. С. Рубрикатор как инструмент информацион­

ной навигации / Р. С. Гиляревский, А. В. Шапкин, В. Н. Белоозеров. - СПб. : Профессия, 2008. - 352 с.

В книге излагается опыт автоматизации применения рубрикато­

ров, которые лежат в основе классификации документальных ресур­ сов и в информационной технологии становятся важным инстру­ ментом навигации по реферативным и полнотекстовым базам дан­ ных.

Издание предназначено для специалистов научно-технических библиотек, информационных центров, студентов, преподавателей и аспирантов вузов культуры и печати.

ISBN 978-5-93913-168-1 © Р. С. Гиляревский, А. В. Шапкин, В. Н. Белоозеров, © Профессия, Гиляревский Р. С., Шапкин А. В., Белоозеров В. Н.

Рубрикатор как инструмент инф орм ационной навигации Ответственный редактор Т. В. Захарчук Издательство «Профессия», Санкт-Петербург, 191002, а/я 600.

Тел./факс: (812) 740-12-60, URL: www.professija.ru Издание осуществлено при участии ООО «Камелот»

Подписано в печать 29.07.2008. Формат 60 х 88 '/ 1. Печать офсетная.

Печ. л. 22. Тираж 2000 экз. Заказ № Отпечатано с готовых диапозитивов в ОАО «Техническая книга».

190005, Санкт-Петербург, Измайловский пр., Перечень использованных сокращений Автоматизированный банк научных данных

АБНД В И Н И ТИ

Автоматизированная система ведения информ аци­ АСВИЯ онных языков Автоматизированная система комплектования и ре­ АСКР гистрации входного потока В И Н И ТИ автоматизированная система научно-технической АСНТИ информации Автоматизированный центр обработки первоисточ­ АЦОП ников В И Н И ТИ Библиотечно-библиографическая классификация ББК база данных БДБиблиотека по естественным наукам РАН БЕН Высшая аттестационная комиссия ВАКВсероссийский институт научной и технической В И Н И ТИ информации РАН классификатор проектов по радиационной эколо­ ГЕОРЭ гии, радиогеоэкологии, радиоактивному загрязне­ нию (разработка ИГЕМ РАН) государственные инф ормационные ресурсы ГИР Государственная публичная научно-техническая ГПН ТБ библиотека России Государственный рубрикатор научно-технической ГРНТИ информации России Д есятичный код для обмена информацией ДКОИ Единая система классификации и кодирования ЕСКК технико-экономической и социальной информации Российской Федерации Институт геологии рудных месторождений, петро­ ИГЕМ графии, минералогии и геохимии РАН Интегрированная компьютерная система производ­ ИКСПИП ства информационных продуктов инф орм ационны й продукт ИП инф орм ационно-поисковы й язы к ИПЯ иске - И нтернет-система классификационны х схем К лассификация Института научной информации КИНИ г.
Ф иладельфия, Пенсильвания) Рубрикатор как инструмент информационной навигации КрТ РФ - критические технологии Российской Федерации кси - код сериального издания (в АСКР ВИ Н И ТИ ) мксо - Международная стандартная классификация обра­ мпк - Международная патентная классификация Международная стандартная система классиф ика­ МСКО ции образования НИР - научно-исследовательская работа ней - нормативно-справочная информация НСНР - Номенклатура специальностей научных работников нти - научно-техническая информация нтл - научно-техническая литература нтп - нормативно-техническое предписание оквэд - Общ ероссийский классификатор видов эконом иче­ ОКР- опытно-конструкторская работа окевнк - Общесоюзный классификатор специальностей выс­ ОЭСР- Организация экономического содействия и разви­ ПНФИ - приоритетные направления фундаментальных ис­ ПОД­ поисковый образ документа РАН - Российская академия наук РБШ Р В И Н И Т И Рубрикатор В И Н И ТИ РГБ - Российская государственная библиотека РИНКЦЭ - Российский информ ационны й научно-консульта­ РИП - регистр информационных продуктов (в системе РНБ - Российская национальная библиотека РОЗ - рубрикатор области знания системный дистрибутивный формат (в системе

СДФА С С И С ТЕН Т В И Н И ТИ )

СИБИД - Система стандартов по информации, библиотечно­ Перечень использованных сокращений си д- системный идентификатор документа на моногра­ скс - система классификационны х схем СОАТО - система обозначения административно-территори­ СУБД - система управления базой данных УДК- Универсальная десятичная классификация УНМ - учетный номер экземпляра входного потока федеральная целевая программа ФЦП Центр развития информационных систем

Ц РИ С В И Н И ТИ

ActiveX Data Objects (объекты данных технологий ADO — Chemical

Abstract

Service (Реферативная служба по C ASхимии) Document Type Declaration (декларация типа докумен­ DTD та) HyperText Markup Language (язык разметки гипер­ HTML текста) International Standard Book Number (Международный ISB N стандартный книжный номер) International Standardization Organization (М еждуна­ ISO родная организация по стандартизации) International Standard Serial Number (М еждународный IS S N стандартный сериальный номер) Journal o f Economic Literature JEL Library and Information Science Abstracts (РЖ по биб­ LISA лиотековедению и информатике) Mathematics Subject Classification (Предметная клас­ M SC сиф икация по математике) Nomenclature fo r the analysis and comparison o f scientific N ABS — programs and budgets (Номенклатура анализа и срав­ нения научных программ и бюджетов) Open Database Connectivity (открытый интерфейс ODBCдоступа к базам данных,) Ontology Web Language (сетевой язы к онтологии) OWL Resource Description Framework (структура описания RDFресурсов) RD F Schema (схемы структуры описания ресурсов) RD FSРубрикатор как инструмент информационной навигации SQ L - Structured Query Language (язык структурированных URI — Uniform. Resource Identifier (универсальный иденти­ XM L - extensible Markup Language (расширяемый язык раз­ XM L Schema (схемы расширяемого языка разметки) XMLSX SL - extensible Style sheet Language (расширяемый язык XSLT - XSL-Transformations (преобразования расширяемого Человечеством накоплен значительный опыт в построении схем классификации объектов в конкретных областях — в науке, культу­ ре, образовании, производстве и народном хозяйстве в целом. Клас­ сификации служат для того, чтобы определить место рассматривае­ мого явления (предмета) в ряду других смежных и далеких явлений.

Однако не существует единой классификации, которая с общих по­ зиций охватывала бы все явления природы и проявления человече­ ской деятельности. Трудно представить себе, как можно свести во­ едино разнородные объекты и совместить в одной схеме различные цели систематизации. Кроме того, нельзя рассчитывать на то, что накопленные данные кто-то будет переиндексировать по-новому, какую бы хорошую новую классификацию ни предложить. В этих условиях сопоставление независимых классификационных схем может открыть возможность предоставления услуг по переводу понятий с одно­ го информационно-поискового языка на другой при обращении к разно­ родным ресурсам. В решении такой задачи велика роль ведущих миро­ вых центров, предоставляющих свои ресурсы и поддерживающих ин­ формационные порталы в Интернете.

Построение системы классификационны х схем, включающей классификации различных информационных ресурсов и взаимные связи этих классификаций, — один из возможных подходов к реш е­ нию глобальной проблемы информационной навигации, которая становится все более актуальной в связи с постоянным увеличением объема ресурсов, предоставляемых в глобальной Сети.

В данной книге представлен опыт В И Н И ТИ по созданию систе­ мы классификационны х схем, которая, родившись из насущных по­ требностей ведения рубрикаций выпусков Реферативного журнала, со временем включила другие классификации, по тем или иным причинам попадающие в поле зрения специалистов при обработке потока разнородной научно-технической литературы. Соответствен­ но, последовательно усложнялась модель данных и наращ ивалась функциональность. Сейчас эта система позволяет поддерживать в актуальном состоянии множество классификаторов довольно сложной структуры и проводить работы по их сопоставлению.

В основу книги легли исследования и разработки трех отделов В И Н И ТИ : программных систем, научно-методического, теоретиче­ ских и прикладных проблем информатики, - а также многих отрас­ левых отделов Института. Книга рассчитана на специалистов внутри и за пределами сферы научной и технической информации и при­ звана отразить перспективу развития информационных технологий в направлении взаимодействия классификационных систем для более эффективного использования информационных ресурсов.

В этом плане она представляет интерес для широкого круга научных работников и специалистов, а также для студентов и аспирантов, специализирующихся на разработке автоматизированных инф орм а­ ционных систем.

Рубрикатор и сферы его применения Термин «рубрикатор» не является новым. На большинстве евро­ пейских языков этим термином всегда называли переписчика руко­ писей, который в скрипториях средневековья и Возрождения разме­ чал красной краской первые буквы смысловых фрагментов текста, получивших название рубрик. Это название сохранилось и до наших дней, хотя в теперешних произведениях печати рубрики отмечаются абзацными отступами или заголовками.

В журналистике рубриками принято также называть постоянные разделы в журналах (типа, «Нам пишут», «Обзоры и рецензии», «Персоналии» и т. д.), причем наличие этих рубрик стало даже слу­ жить признаком журнала. В библиотеко- и библиографоведении рубриками обычно называют наиболее мелкие подразделения ие­ рархических классификаций или основанных на них систематиче­ ских каталогов. Рубрика является основным структурным подразде­ лением предметного каталога или алфавитно-предметного указате­ ля, а перечень заголовков таких рубрик - основным методическим пособием предметизации, т. е. отнесения документов к той или иной предметной (тематической) рубрике. Термин «рубрикатор» иногда употребляют и для названия таких перечней. Однако он получил но­ вую ж изнь в связи с развитием научно-информационной деятельно­ сти. В 1950-е гг. в информатике рубрикаторами стали называть пе­ речни рубрик реферативных журналов (РЖ ) и других периодических информационных изданий. В данном случае рубрика выполняет бо­ лее специальную функцию, выступая как содержательный фрагмент РЖ или периодического библиографического указателя, и состоит из индекса и заголовка раздела, а также библиографических записей (с аннотациями или рефератами) тех произведений печати, которые по своему содержанию относятся к данной рубрике.

П о мере роста числа РЖ и увеличения их ежемесячных объемов их рубрикация стала усложняться. Появилась необходимость в созРубрикатор как инструмент информационной навигации дании такого перечня рубрик, который отвечал бы определенным требованиям и мог бы служить средством систематизации библио­ графических записей вместе с рефератами.

Н а первых порах казалось, что эта задача может быть реш ена пу­ тем приспособления существующих классификаций: отечественной Библиотечно-библиографической классификации (ББК ) или меж­ дународной Универсальной десятичной классификации (УДК). Од­ нако довольно быстро выяснилось, что эти классификации мало пригодны для того, чтобы служить рубрикатором РЖ. При любой глубине индексирования оказалось, что одни рубрики остаются пус­ тыми, а другие переполняются рефератами статей. Тогда рефератив­ ные службы пошли по линии создания собственных рубрикаторов.

По своему существу эти рубрикаторы отражали некий синтез двух взаимосвязанных потоков: документного информационного потока (для РЖ это преимущественно журнальные статьи) и потока информационных запросов. Первый из этих потоков оказывает пре­ имущественное влияние на структуру рубрикатора, второй - на ф ор­ мулировку заголовков рубрик. Хотя эти два потока взаимосвязаны, но в каждый момент времени они не совпадают. По всей вероятно­ сти, изменение структуры документного потока несколько отстает от изменения структуры потока запросов. Таким образом, рубрика­ тор создается под влиянием отчасти противоречивых факторов.

В основу структуры информационного издания можно положить как алфавитно-предметную, так и иерархическую классификацию.

В зависимости от этого и перечень рубрик такого издания будет предметным или систематическим. Однако на практике подавляю­ щее большинство наиболее крупных и авторитетных инф орм ацион­ ных изданий использует для этой цели иерархическую классиф ика­ цию. Исклю чение составляют отдельные службы СШ А, например, Index Medicus, где по англо-американской библиотечно-библио­ графической традиции расположение рубрик предметное. Как п ра­ вило, алфавитно-предметное расположение используется для вспо­ могательных указателей к информационным изданиям.

В таком случае снова возникает вопрос, почему же для создания рубрикаторов реферативных журналов и других информационных изданий не используются библиотечно-библиографические класси­ фикации? Можно указать, по крайней мере, на три существенных обстоятельства, которые ведут к серьезным различиям в схемах и е­ рархических классификаций, используемых для библиотечных ката­ логов и для построения рубрикаторов.

Библиотечно-библиографические классификации, рассчитанные, в первую очередь, на систематические каталоги и картотеки библио­ тек, отражают структуру универсального потока произведений печа­ ти: книг, брошюр, периодических и продолжающихся изданий, изда­ ний научного, учебного, производственного характера и т. д.

Рубрикаторы современных РЖ ориентированы преимуществен­ но на журнальные статьи и другие публикации из научной перио­ дики. Содержательная структура потока журнальных публикаций имеет собственную специфику. Эта специфика накладывается на особенности информационных запросов научных работников и спе­ циалистов, использующих текущие инф ормационные издания глав­ ным образом для ознакомления с достижениями науки и техники.

И то, и другое предполагает большую тематическую дробность со­ держания публикаций и запросов и большую их гибкость. В РЖ под­ час приходится предусматривать рубрики для таких вопросов, кото­ рые в библиотечном каталоге могут стать необходимыми лиш ь в от­ даленном будущем.

Теория библиотечно-библиографической классификации совер­ шенно правильно ориентирует систематические каталоги научных библиотек на дисциплинарную структуру, т. е. на выделение основ­ ных классов в соответствии с современной научной классиф икаци­ ей. В рубрикаторе, наряду с дисциплинарны ми характеристиками, необходимо, в силу указанных выше причин, учитывать информ а­ ционные запросы по комплексным междисциплинарным пробле­ мам, а также по отраслям народного хозяйства. Это нарушает стро­ гую логику иерархической классификации, но придает рубрикатору особую гибкость.

Систематический каталог научно-технической библиотеки пред­ назначен, в первую очередь, для ретроспективного поиска. Он акку­ мулирует в своих рубриках библиографические записи за ряд лет.

Этим определяется стабильность библиотечно-библиографических классификаций, их устойчивость, сложность и медленность проце­ дуры их изменения. Соверш енно иное положение в рубрикаторе и н ­ формационного издания. Здесь ежегодные, а нередко и более час­ тые, изменения являются обычной практикой. П омимо этих сущест­ венных различий рубрикатора и библиотечно-библиографической классификации, можно назвать и другие — производные от них. Для рубрикатора формулировка заголовков рубрик играет большую роль, а характер индексов —значительно меньшую. Заголовки рубрик руб­ рикатора публикуются в каждом номере информационного издания, Рубрикатор как инструмент информационной навигации а их индексы имеют второстепенное значение, они обычно указыва­ ются лиш ь для служебных целей. В библиотечной классификации, напротив, система индексации часто оказывается определяющим фактором структуры, влияющим и на содержание. Примером может служить Десятичная классификация Дьюи, УДК и многие другие д е­ сятичные системы. Рубрикатор легко обозрим — он весь целиком публикуется один раз в год. Современная схема библиотечной клас­ сиф икации обычно многотомна и труднообозрима даже по классам.

Рубрикатор имеет сравнительно небольшую глубину, его служебный аппарат (система ссылок, общие схемы расположения и вспомога­ тельные деления, способы взаимного сочетания рубрик) либо отсут­ ствует совсем, либо крайне прост по сравнению со служебным аппа­ ратом библиотечной классификации.

В чем же причина того, что такого рода иерархическая класси­ ф икация, отличающаяся гораздо большей простотой, нежели при­ вычные схемы библиотечных классификаций, рассматривается как особого рода информ ационно-поисковы й язы к, а словарь этого язы ­ ка — рубрикатор — как важное средство систематизации и информ а­ ционного поиска?

В силу особых обстоятельств нашего времени рубрикаторы при­ обретают исклю чительно серьезное значение в научно-информа­ ционной деятельности. Поскольку реферативные службы стали са­ мыми крупными библиографическими предприятиями, то по их рубрикаторам классифицируются самые мощные потоки научных документов — статей и других материалов (в В И Н И ТИ, например, — свыше 1 млн публикаций в год, в России - не менее 1,5 млн несов­ падающих публикаций в год, во всем мире - не менее 5 млн). Если ориентировочное число публикуемых ежегодно научных документов принять близким к 20 млн, то четверть из них систематизируется по различным рубрикаторам. Это на порядок больше, чем приходится на долю других классификационны х средств, применяемых ежегод­ но для описания входных потоков несовпадающих публикаций все­ ми библиотеками мира.

Индексирование является одним из самых дорогих процессов об­ работки информации. Между тем индексирование документов по рубрикатору — одно из обязательных условий деятельности информа­ ционных органов, в частности, реферативных служб. То обстоятель­ ство, что миллионы библиографических записей ежегодно системати­ зируются только по рубрикаторам, вынуждает использовать это сред­ ство для многих целей, включая те, для которых первоначально эта классификация и не предназначалась. Необходимо также иметь в ви­ ду, что во многих информационных центрах обслуживание потреби­ телей начинается еще до глубокого индексирования и реферирования документов. Поэтому такие виды обслуживания, как избирательное распространение информации, выпуск библиографических бюллете­ ней сигнальной информации и даже справочно-библиографическое обслуживание в режиме «запрос—ответ» (т. е. ретроспективный по­ иск), и притом часто в автоматизированных системах, приходится осуществлять с использованием одного только рубрикатора.

Понятно, что для того, чтобы рубрикатор мог справиться с таки­ ми вовсе ему не свойственными функциями, его необходимо осна­ щать различными вспомогательными средствами, разрабатывать специально для него процедуры составления, изменения и ведения.

В результате образуется особый инф орм ационно-поисковы й язык.

Рубрикатор - иерархическую классификацию, отличную от биб­ лиотечно-библиографических классификаций, но до известной сте­ пени сочетаемую с ними, можно считать особым словарем этого языка. П онятия, отраженные в рубриках рубрикатора, — это классы и подклассы иерархической классификации, т. е. все необходимые понятия любой сложности, являю щ иеся результатом логических действий, произведенных до момента индексирования документов и тем более до момента поиска информации. В терминах информати­ ки рубрикатор является словарем язы ка предкоординированного, процесс создания единиц которого осуществляется перед процессом Специальное исследование свойств и структуры рубрикаторов необходимо не потому, что их становится все больше, а потому что они приобретают все большее значение. Если рубрикатор действи­ тельно является особым средством систематизации и инф ормацион­ ного поиска, то он должен удовлетворять вполне определенным и четко сформулированным требованиям. Однако такие требования пока не стали общ епризнанными. Поэтому не только нет единооб­ разия в построении рубрикаторов, предназначенных для одной це­ ли, но часто даже и обозначаются они по-разному. Например, «Еди­ ная схема классификации литературы для книгоизданий в СССР», будучи по существу рубрикатором, так не назывался, а «Отраслевой рубрикатор главной картотеки центрального отраслевого справоч­ но-инф орм ационного фонда М инистерства заготовок СССР», по нашему мнению, являлся библиографической классификацией, а не рубрикатором.

Рубрикатор как инструмент информационной навигации И з сказанного понятно, что нужно продолжать всестороннее ис­ следование рубрикатора и его изучение предполагает о б о сн о в а н и е определение рубрикатора. В качестве наиболее общего может слу­ жить следующее определение: «Рубрикатор — это особым образом ор­ ганизованный словарь рубрик иерархической классификации, специально предназначенный для расположения текущих публикаций в периодиче­ ских информационных изданиях или в системах информационного обслу­ живания». Таким образом, рубрикатору присущи следующие необ­ ходимые и достаточные признаки:

1) он служит средством систематизации текущих инф орм ацион­ ных материалов;

2) он ориентирован на периодические информационные изда­ ния или регулярно осуществляемые виды информационного обслу­ живания, например, избирательное распространение информации;

3) он имеет особо организованный перечень (или словарь) руб­ рик.

Первые два признака отражают специальное назначение рубри­ катора, выделяющее его из других иерархических классификаций.

Третий признак необходим потому, что всегда может возникнуть си­ туация, при которой для упомянутой цели будет использована какая-либо библиотечно-библиографическая классификация. Одна­ ко необходимо уточнить, что мы считаем «особой организацией пе­ речня рубрик», необходимой для того, чтобы такой словарь считался рубрикатором. М инимальной степенью такой организации должно, по-видимому, быть выражение иерархии, т. е. явным образом отме­ ченные (обозначенные индексами, выделенные ш рифтами, втяжка­ ми и т. п.) родовидовые отнош ения, уровни иерархии подчинения и соподчинения.

П о мере усложнения и увеличения объема рубрикаторов элемен­ тами такой особой организации могут стать таблицы перевода в дру­ гие классификации, указания на публикуемость рубрик, а также и обычные вспомогательные средства классификации: алфавитнопредметный указатель, системы ссылок, нотация и др. Иногда и с­ пользуются также средства совместного применения рубрик для обозначения сложных понятий и комплексных областей знания (синтаксис), а также вспомогательные таблицы типовых подклассов (определители).

Как вытекает из приведенного выше определения рубрикатора, основной и преимущественной областью его применения является систематизация текущих библиографических материалов в периодиЧасть Л. Теория чёских информационных изданиях. И менно поток поступающих публикаций и необходимость распределения их описаний в перио­ дическом информационном издании определяют специфику рубри­ катора как классификации. К этим специфическим чертам или осо­ бенностям рубрикатора относятся:

— сравнительно небольшая глубина иерархии;

— большая ориентированность на межотраслевые, междисцип­ линарны е, комплексные проблемы;

— простота и линейность структуры;

— достаточная гибкость, подвижность, частая и безболезненная изменяемость структуры и формулировок рубрик.

Каждая из этих особенностей рубрикатора связана с областью его применения. Про глубину иерархии в рубрикаторе мы говорим, что она сравнительно меньше, чем в классификациях, предназна­ ченных для библиотечного систематического каталога. Это связано не только с количественной стороной дела. Конечно, даже самый крупный рубрикатор (РЖ В И Н И Т И ) рассчитан на ежемесячное рас­ пределение 100 тыс. библиографических записей с рефератами, то­ гда как систематический каталог научной библиотеки средней вели­ чины обычно насчитывает несколько миллионов карточек. Но дело не только в этом. М еньшая глубина связана и с содержательной, ка­ чественной стороной дела.

Поскольку все инф ормационные классификации являются ис­ кусственными, т. е., в отличие от естественных (например, К. Л и н-' нея), опираются не на безусловные существенные признаки явле­ ний, а на признаки условные, то и их иерархичность условна. Это означает, что в различных информационных классификациях одни и те же рубрики могут попадать на разные уровни иерархии. При этом то, что в библиотечных классификациях составляет более низ­ кий уровень иерархии, в рубрикаторе чаще всего располагается на более высоком уровне.

В качестве примера можно сравнить основные деления Б Б К Российской государственной библиотеки (РГБ) и Рубрикатора РЖ В И Н И ТИ. В Б Б К на верхнем уровне помещены комплексы «В Фи­ зико-математические науки», «Д Науки о Земле», « Ч Культура. Н ау­ ка. Просвещение», а в Рубрикаторе входящие в эти комплексы дисци­ плины (математика, механика, физика, астрономия, геодезия, гео­ логия, география, информатика и др.) подняты на верхний уровень и вытянуты в одну линию. Конечно, технические и методические со­ ображения также ведут к большей линейности и простоте рубрика­ Рубрикатор как инструмент информационной навигации тора, но мы склонны объяснять эту тенденцию и более серьезными причинами.

И нформационны е издания, и в первую очередь РЖ и бюллетени сигнальной информации, являются детищами информационных служб, которые ближе к производству, конструкторским разработ­ кам, научным исследованиям, чем библиотеки, раньше и непосред­ ственнее откликаются на появление новых проблем и направлений.

В силу своих профессиональных задач информационные службы не могут ограничиваться ориентировкой лиш ь на дисциплинарный ха­ рактер научной классификации, а вынуждены учитывать отраслевой характер организации народного хозяйства, проблемную комплекс­ ность конструкторских разработок и научных исследований.

И менно поэтому рубрикаторы в большей степени, чем биб­ лиотечно-библиографические классификации, рассчитаны на отра­ жение межотраслевых, междисциплинарных, комплексных про­ блем. Они менее иерархичны по своему существу, а не только по своей структуре. Эту черту нельзя считать ни достоинством, ни не­ достатком рубрикатора — она присуща ему по его назначению.

Структура информационного издания, предназначенного для регу­ лярного ознакомления читателей с большим количеством материа­ лов, должна быть простой и легко обозримой.

То же самое можно сказать и о лучшей способности рубрикатора к различным изменениям. Известно, что из всех информ ацион­ но-поисковых языков иерархические классификации являются наи­ более стабильными. Это определяется и их сущностью, и их назна­ чением. С одной стороны, древовидная структура сильной (или строгой) иерархии с большими трудностями допускает частичные изменения. К ак правило, она подвергается коренному пересмотру один раз в десять—пятнадцать лет. С другой стороны, сотни тысяч библиотек, пользующихся этой классификацией в своих каталогах, должны располагать достаточным временем для рекаталогизации фондов. Поэтому процедура изменения библиотечно-библиогра­ фических классификаций учитывает необходимость пяти- или де­ сятилетнего подготовительного периода для окончательного и з­ менения того или иного раздела. Совершенно иное положение у рубрикатора. Частичные, постепенные изменения и структуры, и формулировок рубрик здесь сравнительно легки и з-за неглубокой и не слишком строгой иерархии и из-за того, что по новой схеме систематизируются публикации только новых выпусков инф орм а­ ционных изданий.

Любая система информационного обслуживания располагает руб­ рикатором для выпуска информационных изданий. Распределение по рубрикатору документов, несущих информацию, технологически яв­ ляется одной из необходимых ранних операций. Естественно стрем­ ление руководителей этих систем использовать рубрикатор и дальше для информационного обслуживания, причем не только в ручных, но и в автоматизированных системах. Расширение функций в этом на­ правлении определенным образом влияет на рубрикатор.

Не менее важно учитывать применение рубрикаторов в и нф ор­ мационных международных и национальных системах.

Поскольку во многих странах национальные системы НТИ пре­ вратились в государственные, встал вопрос о совместимости рубри­ каторов отдельных информационных изданий данной страны. П ер­ вый шаг в этом направлении был сделан в С С С Р — издан «Рубрика­ тор основных информационных изданий СССР». Такой рубрикатор вовсе не являлся общим для всех изданий, что практически невоз­ можно. В зависимости от типов документов, составляющих поток систематизируемой информации, рубрикаторы должны отличаться друг от друга.

Так и происходит на практике. Рубрикатор В И Н И ТИ ориенти­ рован на мировой поток журнальных публикаций, Рубрикатор ВНТИЦ ентра рассчитан на отечественные непубликуемые научнотехнические отчеты и диссертации, Международная патентная клас­ сиф икация (М П К ) используется как своеобразный рубрикатор для патентной литературы, — все они охватывают одни и те же отрасли науки и народного хозяйства, но построены соверш енно по-раз­ ному. Это понятно, так как систематизируемые документные потоки различаются по структуре. Но назначением рубрикатора инф орм а­ ционных изданий является систематизация самих этих изданий.

«Рубрикатор основных информационных изданий СССР» являлся, таким образом, как бы рубрикатором рубрикаторов или рубрикато­ ром второй степени. Создание такого рубрикатора первоначально было вызвано вполне конкретными задачами управления информ а­ ционной системой страны. Необходимо было координировать вы ­ пуск таких изданий, иметь их систематизированный перечень для организации подписки и т. п.

Однако постепенно выяснилось, что подобный рубрикатор боль­ ше всего нужен как справочнбё по^сЖ систематизи­ система высшёг&УЩШя, служащая;цёЛ Ш ч® ёркЬю чения» потоков, Рубрикатор как инструмент информационной навигации их распределения между различными органами Н ТИ, их рубрикато­ рами,и тезаурусами. В связи с обсуждением области применения рубрикатора нельзя не упомянуть и о составленной в свое время экс­ пертами Ю Н ЕСКО так называемой «Ш ирокой системе упорядоче­ ния» — международной классификации высшего уровня, пригодной для осуществления программы Ю Н И СИ СТ.

Надо сказать, что результаты этих международных усилий не по­ лучили заметного применения, поскольку не отвечали требованиям, предъявляемым к подобным схемам классификации, да и сами тре­ бования эти были довольно противоречивы. Однако в них много об­ щего с требованиями, которые мы предъявляем к рубрикатору вооб­ ще и рубрикатору второй степени в особенности.

Проблема рубрикатора различных рубрикаторов и классифика­ ций, -а также других информационных языков приобрела значение поиска средств навигации по информ ационным ресурсам общества.

Применение рубрикатора в его прямом назначении предполагает ориентировку на поток первичных документов. В рубрикаторе руб­ рикаторов управляющим фактором выступают потоки БД, РЖ, бюл­ летеней сигнальной информации, которые сами крайне неоднород­ ны по составу. Содержание и структура этих потоков, которые мож­ но назвать первичным и вторичным, соверш енно различны. Их совмещение в одном рубрикаторе требует компромисса, который ухудшает функционирование рубрикатора и в том, и в другом режи­ ме. Именно поэтому следует разрабатывать не один общий рубрика­ тор для всех баз данных и изданий и всех целей сразу, а систему руб­ рикаторов, включающую разные типы совместимых рубрикаторов и средства перехода из одного в другой. Другими словами, создание системы взаимосвязанных рубрикаторов является одним из инстру­ ментов навигации по информационным ресурсам.

Одним из наиболее общих требований к любому ИПЯ и, в частно­ сти, к иерархической классификации рубрикатора, является ее соот­ ветствие современному состоянию науки и техники. По сравнению с другими классификационными языками, язык рубрикатора в наи­ большей степени удовлетворяет этому требованию. Это объясняется непосредственным участием ученых и специалистов соответствующих отраслей знания в изменении рубрикатора, его приспособленностью к таким изменениям, а также тем, что его содержание непосредственно контролируется потоками документов и информационных запросов.

Другое требование связано с проблемой совместимости инфор­ мационно-поискового языка. Сущность этой проблемы заключается в трм, что полная переводимость с информационно-поискового языка одного типа на язык другого типа невозможна. Однако практика биб­ лиографической и научно-информационной деятельности настоятель­ но требует перехода от одного языка к другому, использования индек­ сов и рубрикационных заголовков одних систем в рамках других систем с другими языками. Именно отсюда родилась идея «переключе­ ния» с одного языка на другой и создания специальных «языковпереключателей». Сама эта идея не получила серьезной поддержки специалистов, но при построении любого информационного языка его возможности в этом отношении учитываются особенно тщательно.

Рубрикатор, будучи ш ирокой и неглубокой иерархической сис­ темой, легче всего сочетается с библиотечно-библиографическими классификациями. Это означает, что для материалов, индексиро­ ванных по ББК или УДК (в любом, даже самом полном варианте), легко составить таблицы перехода к рубрикатору, хотя в ряде случаев они будут давать альтернативные указания. Учитывая, что алфавит­ но-предметные системы вообще лучше всего приспособлены к вы­ полнению роли «языков-переключателей», с рубрикаторами легко сочетаются списки рубрик предметных каталогов, алфавитно-пред­ метных указателей (вспомогательных и самостоятельных), алфавит­ ных разделов информационно-поисковы х тезаурусов.

Таким образом, все эти средства довольно легко можно снабдить индексами того или иного рубрикатора, обеспечивающими доста­ точно формальный (автоматический) перевод индексируемых мате­ риалов на язы к иерархической классификации рубрикатора. Обрат­ ный однозначный переход от рубрикатора ко всем другим языкам, в силу особенностей его построения, не может быть осуществлен ав­ томатически, и поэтому индексы или заголовки рубрикатора не име­ ют практического значения для перевода содержания документа на другой язык. Однако, если понимать под совместимостью возмож­ ности ориентировки и упорядочения, то здесь рубрикатор оказыва­ ется наиболее эфф ективным средством,' Третьим общим требованием, которое необходимо рассмотреть в связи с рубрикатором, является его пригодность для автоматиза­ ции. Здесь возникает противоречие между подвижностью рубрика­ тора, его способностью к частым изменениям и необходимостью вести ретроспективный поиск в машиночитаемых базах данных, и н ­ дексированных по рубрикатору. Такая необходимость накладывает на рубрикатор строгие ограничения. П ри изменении рубрикатора требуется корректно производить одно из следую щ их действий:

Рубрикатор как инструмент информационной навигации — соединить две или большее число рубрик в одну;

— разделить одну рубрику на две или большее число рубрик;

— ликвидировать рубрику;

— открыть новую рубрику.

Внесение изменений в рубрикатор должно сопровождаться со­ хранением истории изменения рубрик с гарантированной защитой от повторного использования старых обозначений рубрик в новом смысле. В автоматизированной системе эти требования могут быть реализованы программным путем и учтены при ретроспективном поиске.

Однако обычно в рубрикаторе требуются частичные изменения содержания рубрик или же изменения их места в иерархии, что не поддается алгоритмическому описанию и потому трудно учитывает­ ся в автоматизированной системе. И менно это обстоятельство и м е­ лось в виду, когда утверждалось, что функция ретроспективного по­ иска в автоматизированном режиме не свойственна рубрикатору и затрудняет выполнение им его непосредственных функций по систе­ матизации записей в библиографическом издании.

Таким образом, тенденция к расширению сферы применения рубрикатора, являясь современной и прогрессивной, ведет ко многим методическим трудностям. Эти трудности связаны, главным образом, с тем, что новые функции рубрикатора выдвигают противоречивые требования к принципам его построения и методам его ведения. Пре­ одоление этих трудностей требует непрерывных компромиссов и ог­ раничений: это касается увеличения числа уровней классификации, усложнения индексации и ссылочного аппарата, свободы изменения рубрикатора и многих других конкретных вопросов.

Нам представляется целесообразным при реш ении всех этих во­ просов исходить из рассмотренных здесь положений.

Иерархические и фасетные классификации Рассмотрим место рубрикаторов в сравнении с другими класси­ фикационны ми системами и другими информационно-поисковыми языками.

Библиотечные классификации — самый ранний из известных нам типов ИПЯ. Если проследить за их развитием от классификации вавилонских библиотек вплоть до библиотечных классификаций второй половины XIX в., становится ясно, что принципы их п о­ строения почти не изменялись. Следуя за наиболее известными сис­ темами классификации наук, библиотечные классификации строи­ лись на основе иерархического «древа знаний» с выделением специ­ альных разделов и подразделов для систематизации особых видов книг. До нас дошло очень немного сведений о классификациях, применявшихся в древних библиотеках. Вероятно, в античные вре­ мена такие классификации были разработаны достаточно детально.

Об этом можно судить по обширности библиотек, высокому уровню классификации наук того времени, а также по некоторым косвен­ ным свидетельствам, содержащимся в литературных памятниках.

На классификации средневековья известное влияние оказала распространенная в то время система «семи свободных искусств».

Она состояла из двух комплексов наук, изучавшихся в тогдашней школе: «тривиума» (грамматики, диалектики и риторики) и «квадривиума» (арифметики, геометрии, музыки и астрономии). К концу XV в. в университетских библиотеках начали применять группиров­ ку книг по содержанию в соответствии с существовавшими в боль­ шинстве университетов четырьмя факультетами: философским, ме­ дицинским, юридическим и богословским. Это послужило толчком к возникновению так называемых факультетских систем классиф и­ кации, пользовавшихся популярностью на протяжении столетий вплоть до XIX в. Они оказали влияние на выдающиеся для своего времени классификации швейцарского ученого и библиографа К. Геснера (1548) и немецкого философа Г. Л ейбница (1700).

Дальнейшее развитие библиотечно-библиографических класси­ фикаций проходило под воздействием идей английского философа Ф. Бэкона (1561-1626). Созданная им в начале XVII в. классиф ика­ ция наук группировала знания в соответствии с идеалистической традицией по «способностям человеческого духа». «Память» опреде­ ляла возникновение истории, «воображение» - поэзии, «разум» философии или собственно науки. При всей условности такого де­ ления классиф икация Ф. Бэкона включала новые отрасли знания и представляла собой значительное событие для науки того времени.

В XIX в. библиотечно-библиографические классификации стали ш ироко разрабатываться в России. Большой интерес представляет схема ученого-натуралиста П. Г. Демидова, составленная им для ка­ талога личной библиотеки. В этой схеме наиболее детализированны ­ ми были разделы естественных наук и технологии. Заслуживает вни­ Рубрикатор как инструмент информационной навигации мания схема, опубликованная в 1809 г. А. Н. Олениным и предна­ значенная для императорской Санкт-П етербургской Публичной библиотеки, а также оригинальная схема К. Ф. Рейсса, предложен­ ная им для библиотеки М осковского университета в 1826 г. и осно­ ванная на дихотомическом принципе деления. Самостоятельную схему классификации, в основу которой было положено условное деление наук «по потребностям человека», создал для библиотеки Казанского университета К. К. Фойгт в 1843 г.

Одной из лучших в первой половине XIX в. заслуженно считает­ ся классификация выдающегося русского натуралиста К. Э. Бэра, которую он разработал для иностранного отделения библиотеки Академии наук в Санкт-Петербурге в 1841 г. В этой классификации была предпринята одна из первых попыток расположить науки в по­ следовательности, отражающей историю развития мира: науки о-неорганической природе, науки об органической природе, науки о че­ ловеке и обществе.

В библиотеках Западной Европы в этот период особенно широко применялись схемы классификации Ж. Ш. Брюне (1810) и А. Э. Ш лейермахера (1847). Первая из них представляла собой одну из поздних разновидностей так называемой французской системы, которая в течение почти двух столетий использовалась в библиогра­ фии и книготорговле Ф ранции. Вторая, особенно популярная в биб­ лиотеках немецких университетов, была создана на основе старой «факультетской системы». Эти классификации создавались для рас­ положения книг на полках и для систематизации их описаний в ка­ талогах и указателях. Такое их назначение обусловило необходи­ мость линейной последовательности их рубрик и строгого подчине­ ния между классами и подклассами, всегда связанными в этих классификациях родовидовыми отнош ениями. Одна из наиболее сильных сторон этих язы ков заключается в том, что классификация по родовидовым признакам всегда служила важным инструментом познания и привычным методом определения понятий.

Иерархические классификации обеспечивают высокую эф ф ек­ тивность информационного поиска по ш ироким тематическим за­ просам, сформулированным в определенном аспекте, который был предусмотрен заранее, при составлении схемы и при индексирова­ нии по ней документов. Для реализации подобного поиска наиболее оптимальным техническим средством служит просто перечень (ката­ лог). Эти особенности объясняют прочное положение иерархиче­ ских классификаций как единственного на протяжении тысячелетий средства поиска документов по их содержанию. Лиш ь во второй по­ ловине XIX в. появилась необходимость в другом типе языка, кото­ рый упрощал бы для массового читателя разыскание нужных ему рубрик и облегчал бы введение в систему новых понятий без корен­ ной ее перестройки. Таким языком стала алфавитно-предметная классификация, теорию которой в 70—80-х годах XIX в. разработал Ч. Э. Кеттер.

Крупнейшим достижением в области систематизации явилось создание в 1876 г. видным американским библиотечным деятелем М. Дьюи «десятичной классификации». Сам он видел свою основ­ ную заслугу в том, что применил в своей схеме децимальную индек­ сацию: «Дело шло о достижении абсолютной простоты путем ис­ пользования самых простых и известных символов, арабских цифр в виде десятичных дробей в качестве индексов классификации всех человеческих знаний в печатных произведениях»1. Однако теперь, по прошествии более чем столетия, значение созданного М. Дьюи нам представляется в другом. Он теоретически обосновал и практи­ чески внедрил стандартизацию типовых делений (литературной формы, вида издания и т. п.) в различных разделах схемы и частично лингвистических, этнических и географических делений, использо­ вав прием факультативного превращения в постоянные подразделе­ ния окончаний индексов разделов «Филологии» и «Истории».

Другой его важной заслугой было введение в классификационную систему алфавитно-предметного указателя, который позволил разы­ скивать книги по любому предмету независимо от его места в схеме.

Идея такого вспомогательного указателя, правда, не была новостью, такие указатели уже применялись в энциклопедиях XIII в., в изданиях эпохи Возрождения, у К. Геснера, в таблицах А. Э. Шлейермахера.

Однако только теперь подобные указатели стали неотъемлемой ча­ стью классификационных таблиц и систематических каталогов биб­ лиотек. Таким образом, впервые была предпринята попытка изба­ виться от жесткости линейной схемы иерархической классификации и расширить число входов в ее схему. Однако этот шаг был еще очень робким, и принцип проводился не очень последовательно.

1 Цит. по: Шамурин Е. И. Очерки по истории библиотечно-библио­ графических классификаций. — М., 1959. - Т. 2. - С. 500.

Рубрикатор как инструмент информационной навигации Эта непоследовательность была преодолена в «брюссельском ва­ рианте» десятичной классификации, которая получила широкое распространение после 1905—1907 гг. как «Универсальная десятич­ ная классификация». Ее создатели, выдающиеся бельгийские доку­ менталисты П. Отле и А. Лафонтен использовали преимущества де­ сятичной системы, индексация которой понятна людям, говорящим на разных языках, и развили заложенные в ней возможности более гибкого использования иерархической классификации. Идею стан­ дартизации делений схемы они довели до логического конца, создав вспомогательные таблицы типовых делений — общих и специаль­ ных (аналитических) определителей. Общие определители (языка, формы документа, места, времени, народности, точки зрения) ис­ пользуются во всех отделах схемы с одним и тем же значением. С пе­ циальные определители предназначены для использования только в нескольких отделах одной отрасли знания для их деления по одним и тем же признакам.

Важным достижением УДК явилось также введение принципа комбинации индексов, разработка приемов их присоединения, рас­ пространения, отнош ения и объединения (синтеза), кроме того, бы ­ ло предусмотрено использование индексов подразделений одного раздела в других и введение параллельных (альтернативных) делений для отражения классифицируемых объектов в разных аспектах. Та­ ким образом, на смену прежним «перечислительным» схемам с зара­ нее установленными рубриками и готовыми индексами пришла под­ вижная схема, в которой нужные рубрики могут создаваться в про­ цессе классификации путем сочетания индексов с определителями или соединения их друг с другом1.

К основным достоинствам УДК как иерархической классиф ика­ ции относятся следующие ее характерные черты:

• универсальность, заключающ аяся в охвате всех отраслей зн а­. • логическая ступенчатая индексация, позволяю щая неограни­ ченно делить подклассы без нарушения основной структуры классификации;

• международная применимость благодаря использованию только цифровых десятичных индексов, всем понятных и лег­ ко запоминаемых;

1 Более подробно структура УДК и способы ее представления в базе дан­ ных ВИН ИТИ описаны в ч. 4 настоящей книги.

• развитая система определителей и комбинационного построе­ ния индексов, обеспечивающих относительную гибкость при отражении достаточно узких и сложных понятий;

• устойчивый и четко организованный международный меха­ низм поддержания классификации на уровне новых достиже­ В качестве недостатков УДК часто называют ее естественные ог­ раничения, присущие всем иерархическим классификациям. Они не могут удовлетворительно отражать процессы интеграции и взаимо­ проникновения наук, и в них трудно находить место для направлений и понятий, возникающих на стыке наук. Далеко не все явления в при­ роде и понятия в науке можно связать родовидовыми отношениями.

Это особенно ярко проявляется в технике, медицине, в других при­ кладных, а также в комплексных дисциплинах, таких, например, как кибернетика, информатика, семиотика. Эта ограниченность УДК, в которой отдельные науки жестко разделены в соответствии с фор­ мальными логическими правилами, противоречит тенденции синте­ тического развития науки. Нельзя сказать, чтобы это были недостат­ ки, скорее это внутренние свойства иерархических классификаций, обеспечивающие их эффективность в условиях широкого тематиче­ ского поиска.

Другой недостаток УДК связан с ее главным достоинством универсальностью и гибкостью. Согласно принципам применения УДК, один и тот же документ может быть отнесен к различным классам системы (принцип множественности локализации) в зави­ симости от аспекта рассмотрения одного вопроса. Это затрудняет объективную характеристику информационного ресурса. Указанная особенность УДК привела к широкому распространению в мире ис­ ходной для УДК Десятичной классификации Дьюи (ДКД). Имея об­ щее происхождение и единую систему основных классов, современ­ ная версия Д К Д ограничивается сравнительно неглубоким их члене­ нием и не предлагает широкого комбинирования кодов классов при индексировании. Все это упрощает пользование классификацией и повышает однозначность индексирования информационных объек­ тов. В этом плане ДКД приближается к концепции рубрикатора и н ­ формационного фонда, но все равно остается достаточно сложной и не выходит из круга библиотечных классификаций знания.

Рубрикатор как инструмент информационной навигации Следующий шаг в развитии комбинационного принципа в клас­ сификации был сделан выдающимся индийским библиотековедом Ш. Р. Ранганатаном в созданной им в 1933 г. «Классификации с двоеточием», которая явилась родоначальницей фасетных класси­ фикаций. Об их функциях английский информатик Б. Виккери пи­ сал: «Потребители хотят иметь возможность отыскать документ, по­ свящ енный сложной специальной теме, не только тогда, когда именно она является непосредственным объектом поиска, но также тогда, когда поиск ведется по любому термину или группе терминов, входящих в сложное понятие. Для удовлетворения этих требований необходимо, чтобы не только понятия могли входить в неограничен­ ное количество сочетаний, но также, чтобы в структуре системы, бы­ ли отражены родовые связи понятий и связи между разделами»1.

Фасетная классификация вместо единого ряда делений в каждом основном классе имеет несколько «фасетов», соответствующих ас­ пектам классифицируемого понятия или предмета. Все существен­ ные термины данного класса распределяются по фасетам и образуют их «фокусы». При индексировании документов их содержание выра­ жается цепочкой фокусов, последовательность которых определяет­ ся специальной «фасетной формулой». Примером построения и н ­ дексов по системе Ш. Ранганатана могут служить фасеты и фокусы из области медицины, представленные в табл. 1.1. По этому фраг­ менту фасетной классификации индекс документа по диагностике инфекционных заболеваний киш ечника — 25:42:3, по лечению ту­ беркулеза легких - 45:421:4.

Преимущества этого вида классификаций в том, что они облег­ чают многоаспектное индексирование документов, позволяя соби- рать в одном месте все аспекты рассмотрения какого-либо предмета или темы, они легче поддаются изменениям при введении новых по­ нятий, допускают большую глубину индексирования при более ко­ ротких-индексах.

Их применение особенно эффективно при поиске в небольших по объему узкоспециализированных собраниях документов. Видный английский информатик Д. Фоскетт так обосновал достоинства ф а­ сетных классификаций: «От схемы не требуется более, чтобы она указывала „место” для каждого документа, включая любой термин 1 Фасетная классификация. — М., 1970. — С. 8.

Фрагмент фасетной классификации по медицине

ФАСЕТЫ

3 Кровеносная система 421 Туберкулез 4 Органы дыхания 45 Легкие или набор терминов в явном виде в классификационны е таблицы по каждой предметной области. Эти схемы могут задать набор правил или рабочих процедур, с помощью которых такие контексты можно, по мере надобности, формулировать на основе тех же самых схем»1.

В библиотеках распространены предметные каталоги, сущность которых заключается в том, что содержание документа кратко ф ор­ мулируется при помощи одного или нескольких типовых ключевых слов, получивших название предметных рубрик, а затем предметные рубрики располагаются по алфавиту, и под каждой из них как под заголовком2 собираются библиографические описания документов.

Составление предметных рубрик и распределение по ним докумен­ тов называется предметизацией. Задача предметизации обычно со­ стоит в том, чтобы указать главный объект рассмотрения в докумен­ те и, может быть, основны е его аспекты и основные отнош ения к другим предметам.

1 Теоретические проблемы информатики. - М., 1968. — С. 67.

2 Предметные рубрики также называются предметными заголовками (subject headings), и этот вариант термина лучше отражает природу термина, вы­ бранного для обозначения содержания ряда документов в каталоге. Собствен­ но предметными рубриками следует называть совокупности документов, объе­ диненные одним предметным заголовком.

Рубрикатор как инструмент информационной навигации В отличие от библиографических классификаций, предметиза­ ция распределяет документы по предметам или понятиям, не соот­ нося их с какими-либо областями знания. Это различие делает клас­ сификационны й и предметизационный принципы организации документов независимыми, дополняю щ ими друг друга, предназна­ ченными для поиска документов по разным типам запросов. Пред­ метизация дает возможность собирать в одном месте документы по таким ком плексам,'как конкретный материал, свойство, изделие, явление природы или общества, род деятельности, географическое понятие и т. п., собирая под каждым предметным заголовком весь массив знаний, безотносительно к тому, какой области науки эти знания принадлежат.

Другим отличием предметизации от классификации является то, что заранее составленный список предметных заголовков не ограни­ чивает подробности анализа содержания документа. Если документ посвящен вопросу, не отраженному в списке предметных заголов­ ков, всегда имеется возможность сформулировать новый заголовок самостоятельно. Обычно же при выборе предметной рубрики для документа руководствуются заранее составленным списком пред­ метных заголовков. Но не представляет труда внести в него вновь образованную предметную рубрику, которая займет свое надлежа­ щее место, определяемое алфавитным порядком. Этого обычно не удается делать в языках классификационного типа, где введение но­ вых классов зачастую влечет преобразование большой части класси­ ф икационны х связей.

У каждого предметного заголовка могут в принципе быть подза­ головки, делящ ие документы в рубрике на подрубрики. В некоторых случаях к предметному заголовку могут быть даны ссылки на другие рубрики, где могут находиться документы по сходному предмету. Та­ ким образом, в списке предметных заголовков одна запись может иметь довольно сложный характер. Вот пример фрагмента словаря предметных рубрик:

самовары самолеты - гражданские саморезы см. винты-саморезы самоходные баржи см. теплоходы грузовые речные Традиционная каталожная техника не позволяет раскрывать со­ держание документа предметными рубриками с достаточной полно­ той. Предметные заголовки отражают только основной предмет до­ кумента, и даже документы многопланового, обзорного характера могут быть отражены в каталоге лиш ь в ограниченном числе пред­ метных рубрик. Недостаток места, трудоемкость составления карто­ течных каталогов заставляли библиографов разрабатывать довольно сложные правила оптимального выбора используемых предметных заголовков1. Эти правила вместе со словарями рекомендуемых пред­ метных заголовков составляют информ ационно-поисковы е языки предметных рубрик (И П Я предметных рубрик, предметные И П Я ).

Языки предметных рубрик используются не только как основа для предметного каталога документов, но также и как вспомогатель­ ное средство для пользователя систематическим каталогом, осно­ ванным на тематической классификации. В тех случаях, когда поль­ зователь знает предмет своего интереса, но не знает, к какой отрасли знания он относится, он может обратиться к алфавитно-предметному указателю, в котором для каждой предметной рубрики указывают подходящий раздел (разделы) тематической классификации, в кото­ ром собраны знания по данному предмету. В этом случае мы имеем дело с языком предметных рубрик в функции поиска не документов, а тематических разделов систематического каталога, или, что то же самое, для поиска классов тематической классификации.

Информационно-поисковые языки Современная компьютерная техника снимает ограничения по объему каталогов и снижает трудоемкость их составления. Поэтому получила распространение идея приписывать документам все тер­ 1 П одробнее см.: Михайлов А. И., Черный А. И., Гиляревский Р. С. Осно­ вы информатики. — М., 1968. — С. 346—366.

Рубрикатор как инструмент информационной навигации мины, существенные для выражения содержания документа, и в электронном каталоге иметь инверсный файл записи адресов до­ кументов, использовавших каждый такой термин, получивший на­ именование «ключевое слово».

Под ключевыми словами в данном случае понимаются наиболее существенные для выражения содержания документа полнозначные слова и словосочетания, обладающие назывной (номинативной) функцией. Поиск документа при этом должен происходить, как пра­ вило, не по одному ключевому слову (не по одной предметной руб­ рике, как в случае язы ка предметных рубрик), а по формулировке поисковой потребности, содержащей ряд ключевых слов, полно описывающих тему поиска. В процессе поиска по записям инверс­ ного файла, соответствующим ключевым словам запроса, должны производиться логические операции над множествами адресов доку­ ментов в соответствии с указаниями поискового предписания.

Ключевые слова образуют новый способ описания и поиска до­ кументов — язык ключевых слов (ИП Я ключевых слов). Если в по­ исковой системе ключевые слова всей предметной области поиска сведены в словарь, где они связаны смысловыми отнош ениями так, что выражают структуру данной области знания, онтологию рас­ сматриваемых явлений, то такой словарь называют инф орм ацион­ но-поисковым тезаурусом, а термины, включенные в него, называ­ ют дескрипторами.

Дескрипторные информ ационно-поисковы е системы открыли принципиально новую возможность поиска документов и содержа­ щейся в них информации по любому сочетанию заранее не предви­ денных признаков. Однако за реализацию этой возможности необ­ ходимо платить материальными ресурсами. Такие системы прихо­ дится ориентировать на дорогостоящ ие компьютеры и программы, что предполагает более трудоемкий ввод информации и более стро­ гие ограничения на число одновременных пользователей. Вполне естественно в такой ситуации попытаться сочетать уже имеющиеся поисковые средства со вновь создаваемыми. Отсюда вытекает и же­ лание найти общие черты в этих разных системах и лежащих в их ос­ нове ИПЯ: языке предметных рубрик и дескрипторном языке, что обычно сочетается с поисками путей их совместимости.

Всегда можно найти такую удаленную позицию, такое основание деления, при которых эти языки попадут в один общий класс. В ряду искусственных язы ков они принадлежат к классу информационных, в ряду информационных - к подклассу информационно-поисковых.

В них используются в качестве индексов слова естественного языка.

При построении этих языков применяю тся внешне схожие приемы:

перечень предметных заголовков и словарная часть тезауруса упоря­ дочиваются в алфавите слов. Тем не менее, учитывая эти общие и сходные черты, нельзя забывать и о принципиальных различиях данных языков. Основной словарный состав языка предметных руб­ рик — это имена сложных классов, построенных до индексирования документов, т. е. этот язык принадлежит к типу предкоординируемых.

Дескрипторный же язы к является посткоординируемым, т. е. строит­ ся из имен простых классов, которые образуют необходимые поня­ тия при их пересечении (логическом умножении) в момент индекси­ рования и/или поиска документов, т. е. после создания координат­ ной сетки описания документов.

Для того, например, чтобы индексировать статью о производстве и экспорте вычислительных и пишущих машин в СШ А, Японии и Великобритании достаточно дескрипторов производство, экспорт, компьютер, пишущая машина и названий трех этих стран. Тогда при поиске мы сможем сразу (за один шаг) найти этот документ при лю ­ бом порядке перечисления дескрипторов (а таких комбинаций м о­ жет быть 1 х 2 х З х 4 х 5 х 6 х 7 = 5040, т. е. число перестановок из се­ ми признаков). Если же пользоваться языком предметных заголов­ ков, то в его словаре должны быть предусмотрены все осмысленные комбинации этих терминов, чтобы был возможен тот же результат.

Число осмысленных комбинаций, конечно, меньше указанного выше, но оно все равно велико, и в реальные словари предметных рубрик включается только малая часть их. Это, в свою очередь, при­ водит к необходимости дополнительного поиска именно той ком би­ нации, которая включена в словарь, а чаще влечет за собой значи­ тельные поисковые потери. Так в реальный словарь в соответствии с данной тематикой реально могут быть включены предметные заго­ ловки типа:

компьютеры— производство — Великобритания компьютеры — производство — США компьютеры — производство — Япония пишущие машины — экспорт — Великобритания пишущие машины — экспорт — США пишущие машины — экспорт — Япония.

Однако трудно предположить, что в нем будет представлен хотя бы один предметный заголовок со всеми шестью терминами. ПредРубрикатор как инструмент информационной навигации метные заголовки, наподобие желаемого нами «компьютер — пишу­ щая маш ина — производство — экспорт — Великобритания — СШ А — Япония», не только практически не реальны, но и теорети­ чески недопустимы в языках предметных рубрик.

Координатное индексирование в том и состоит, что для характе­ ристики содержания документа или запроса перечисляются такие ключевые слова или дескрипторы, пересечение (логическое умноже­ ние) которых выражает основное смысловое содержание (главную тему, предмет) этого документа или запроса, тогда как в предметиза­ ции для данной цели используются заранее сформулированные по определенным правилам заголовки и подзаголовки.

При индексировании, т. е. выражении основного смыслового со­ держания документа в терминах ИП Я, процессы информационного анализа и синтеза совершаются в два этапа. Первый этап является общим для всех языков. Содержание документа анализируется как с позиций того, какие идеи и факты заложены в него автором, так и с позиций научных и практических интересов большинства его по­ тенциальных читателей. (Если не иметь в виду узкоспециальных ин­ тересов, то обе точки зрения чаще всего совпадают.) Результаты это­ го анализа синтезируются в виде субъективного представления ин­ дексатора об основном содержании документа.

Второй этап зависит от языка индексирования. Если это предкоординированный алфавитно-предметный язык, то свое представление о содержании документа индексатор сверяет с потенциальными за­ просами читателей, отраженными в перечне предметных заголовков.

Для пост координируемого дескрипторного язы ка аналогичному ана­ лизу подвергается тезаурус (не связанный непосредственно с потен­ циальными запросами потребителей) и сам текст индексируемого документа. Синтез в данном случае выражается в выборе соответст­ вующих предметных заголовков или дескрипторов (ключевых слов).

Другими словами, при всей внешней схожести процедур индек­ сирования посредством этих разных типов И П Я, характер их ис­ пользования различен. В одном случае мы пользуемся готовыми продуктами в виде заголовков и подзаголовков, обозначающих класс документов определенного содержания. В другом случае - это лиш ь исходный материал, дескрипторы и ключевые слова, при перемно­ жении которых образуется класс, соответствующий данному содер­ жанию. Вот почему перечень предметных заголовков и словарная часть тезауруса, при всей их внешней схожести, при том, что опреде­ ленная часть слов в них может совпадать, на самом деле являются соверш енно отличными друг от друга списками, слова для которых отбираются на основе разных критериев и играют различную роль.

Разные типы ИПЯ имеют свои достоинства и ограничения, ко­ торые делают их особо пригодными для решения разных поисковых задач. Возможности дескрипторного язы ка эффективно реализуются при узко тематическом поиске по произвольной комбинации при­ знаков. Ш ирокий тематический поиск по традиционным отраслям знаний и поиск по конкретным предметам, дисциплинам и их разде­ лам в фондах документов за многие годы и в условиях одновремен­ ного обращ ения к ним большого числа читателей по-прежнему хо­ рошо обеспечиваются библиотечными каталогами, основанными на иерархических и алфавитно-предметных классификациях. Выпуск информационных изданий требует разработки специальных рубри­ каторов с небольшим числом уровней иерархии и подвижной, быст­ ро меняю щейся рубрикацией.

Понятие информационно-поискового тезауруса Теория и практика информационного поиска свидетельствуют, что наиболее перспективными и универсальными являются ИПЯ, основанные в той или иной мере на тезаурусе понятий, который от­ ражает структуру онтологии предметной области поиска.

Понятие тезауруса появилось довольно давно и изменялось с те­ чением времени. Первый тезаурус «Li Livres dou Tresor» флорентийца Брунетто Латини (1220-1294) представлял собой систематизирован­ ную энциклопедию, а «Dictionarium, seu Linguae Latinae Thesaurus»

Ж. Тьери и Р. Этьенна - алфавитный толковый словарь латинского языка.

В работе «Опыт общей теории лексикографии» (1940) Л. В. Щ ерба определил тезаурус как словарь, в котором «приводят­ ся все реш ительно слова, встретившиеся в данном язы ке хотя бы один раз»1 Л. В. Щ ерба видел разницу между обычным словарем и тезаурусом как между отраж ениями явлений язы ковой системы и явлений речи.

1 Щерба Л. В. Избранные работы по языкознанию и фонетике. — Л., 1958. - Т. 1.

2 Зак. Рубрикатор как инструмент информационной навигации Большой интерес для лексикографии и теории информации представляют идеологические словари — «списки слов-понятий с их синонимами», по определению J1. В. Щ ербы. Традиция составления идеологических словарей существует с античных времен («Онома­ стикой» Поллукса) и нашла наиболее яркое воплощение в тезаурусе Роджета (Roget Р. М.. Thesaurus o f English Words and Phrases, 1852), ко­ торый представляет собой обращ енный вариант толкового словаря и до сих пор является одним из наиболее успешных коммерческих продуктов лексикографии, что подтверждается его активным ис­ пользованием в учебном и научном процессах и даже постоянным предложением этого словаря через Интернет.

П ринцип идеологического словаря, т. е. принцип классифика­ ции понятий данной области знания и выражения каждого из этих понятий через ряд слов, условно синонимичных и образующих класс условной эквивалентности, — вот что лежит в основе тезауру­ сов, используемых для информационного поиска. Целью Роджета было предоставить на выбор альтернативные слова для выражения одного понятия, показать набор слов со сходным значением, чтобы назначить одно из них как наиболее подходящее смыслу описывае­ мого понятия. Тезаурус имеет тенденцию быть более предписываю­ щим, инструктивным. Составитель тезауруса выбирает один термин из нескольких возможных и предписывает пользователю употреб­ лять этот термин, ссылаясь на него от синонимов и других альтерна­ тивных форм.

Для дескрипторных ИПЯ информ ационно-поисковы й тезаурус (И П Т) служит средством повыш ения полноты информационного поиска, обеспечивая избыточное индексирование инф орм ационно­ го запроса путем использования лексических единиц, синоним ич­ ных, а также находящихся в родовидовых и ассоциативных отнош е­ ниях к дескриптору.

И нформационно-поисковы й тезаурус. определяется как сло­ варь-справочник, который предназначен для оказания помощи по­ требителю в более точном выражении (в терминах дескрипторного ИПЯ) содержания нужной ему информации и для обеспечения воз­ можности избыточного индексирования (также в терминах ИПЯ) документов и информационных запросов1 Соответственно, назна­ чением тезауруса как средства дескрипторного ИПЯ является:

1 Черный А. И. Общая методика построения тезаурусов / / НТИ. Сер. 2. — 1968. - № 5. - С. 9 -3 3.

а) служить руководством для перевода текстов с естественного язы ка на дескрипторный ИПЯ (путем замены ключевых слов соот­ ветствующими дескрипторами);

б) обеспечивать возможность избыточного индексирования до­ кументов и/или информационных запросов;

в) быть пособием, которое бы помогало ищущему информацию находить правильные дескрипторы для выражения его информаци­ онной потребности.

Положение изменилось с появлением полнотекстовых баз дан ­ ных и, в особенности, с развитием сети Интернет. Сейчас мы име­ ем дело с многомиллионны м массивом полнотекстовых, практиче­ ски не и ндексированны х документов на естественном язы ке. С и ­ туация с ужасающим уровнем инф орм ационного шума при работе в сети И нтернет была предсказана авторами монографии «Основы информатики» еще в 1968 г.: «Когда в какой-то И П С достигнуто оптимальное соотнош ение полноты и точности, то дальнейш ее увеличение полноты возможно только за счет уменьш ения точно­ сти, и наоборот».1 В том же году участники К рэнфилдского проек­ та С. Клевердон, Ф. Л анкастер и Дж. М иллз показали, что в ИПС по ф изике, технике и металлургии увеличение точности и нф орм а­ ционного поиска на 1% ведет к уменьш ению его полноты на 3%, при этом коэф ф ициенты полноты поиска обычно составляют от до 90%, а коэф ф ициенты точности - от 8 до 20%. Однако с ростом поискового массива растет средний объем выдачи, а, значит, при постоянном значении точности инф орм ационного поиска пропор­ ционально растет и число вы данны х на запрос нерелевантных документов — «информ ационны й шум». Таким образом, рост по­ искового массива требует увеличения точности инф орм ационного поиска. При этом необходимо также обеспечить достаточно боль­ шую полноту поиска.

Однако, как это ни парадоксально, именно инф орм ационно­ поисковый тезаурус, средство повыш ения полноты выдачи в дескрипторных И П С с ограниченным объемом, может оказаться средст­ вом повыш ения точности информационного поиска в Интернете.

Особую важность имеет функция инф ормационно-поискового те­ зауруса — быть пособием, которое бы помогало ищущему инф орм а­ цию находить правильные дескрипторы для выражения его инф ор­ 1 Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информати­ ки. — М.: Наука, 1968. — 756 с.

Рубрикатор как инструмент информационной навигации мационной потребности. В современной ситуации именно точное выражение информационной потребности наряду с точным отнесе­ нием документа к той или иной директории БД с помощью тезауруса может послужить основой повыш ения точности информационного поиска.

Упование на возможности техники привело разработчиков поис­ ковых систем к отказу от испытанных методов работы, используе­ мых ранее в системах с дескрипторными ИПЯ. Это проявляется, в частности, и в том, насколько размытым стало значение самого термина «тезаурус» в устах специалистов в области информатики (как, впрочем, и термина «информатика»). Тезаурусом подчас назы ­ вают любую классификацию, любой рубрикатор или даже список.

Это можно показать с помощью фрагментов выдачи, полученной на запрос по ключевым словам «тезаурус, построение» в поисковой ма­ шине Rambler.

«Тезаурус — это название не динозавра, а перечня слов, из которых состоит данный текст»;

«Полное описание связей между смыслами слов (а одно слово часто имеет несколько смыслов) образует тезаурус, представляющий собой большую сеть со словами и их смыслами в качестве узлов. С помощью т аких тезаурусов выполняется построение семантического представ­ ления запроса. Основная задача при этом — отсечь ненужные смыслы, постараться выделить с помощью синтаксических связей достоверные семантические конструкции»;

«...построение понятий и создание их системы (тезауруса)»;

«...тезаурус информационных задач» и т. д.

Такой подход к пониманию термина «тезаурус» характерен, пре­ жде всего, для практических разработчиков поисковых систем.

В теории информационного поиска распространена несколько иная точка зрения на сущность и роль тезауруса.

В 1998 г. Д. Бэтти сетовал, что «к несчастью, в СШ А в течение многих лет игнорировалась ценность контролируемых язы ков и н ­ дексирования. М ногие провайдеры первых сетевых баз данны х от­ казались от использования тезаурусов в силу неправильного экон о­ мического реш ения и з-за страха очевидных расходов на создание и использование тезаурусов и сом нения, что размер базы данны х м о­ жет оправдать такие расходы. Эти опасения оказались н еобосно­ ванны ми. Базы данны х разрослись до почти неуправляемых разм е­ ров, и стоимость поиска по заголовкам и рефератам значительно превысила требуемые вложения в разработку и использование те­ заурусов»1.

В цитированной выше монографии «Основы информатики» дан анализ тринадцати определений тезауруса отечественных и зарубеж­ ных авторов. Для полноты представления можно привести еще н е­ сколько более поздних трактовок термина «тезаурус».

Ч. Мидоу рассматривает тезаурус как иерархический список ключевых слов. «Дескрипторы, присваиваемые документу из кон­ тролируемого словаря, представляют интеллектуальную попытку описать предмет документа, используя только предопределенный набор слов, терминов или кодов... Один способ использования клю­ чевых слов - сначала составить их список. Хотя такой список можно изменять, ожидается, что индексатор или пользователь при поиске или составлении описания документов ограничивается этим спи­ ском. Таким образом контролируется словарь. Иногда он становится иерархическим, так как в лексический список вносятся отношения между терминами, и списки слов становятся тезаурусами. Важные отношения выражаются как “ ш ире”, “уже”, “близко соотносимы е”.

Синонимичные термины могут быть связаны пометой “ используй вместо...”. В некоторых системах баз данных можно использовать свободные ключевые слова, т. е. слова и фразы, выбираемые в самый момент использования. Выбор ключевых слов... зависит от того, что именно нужно описать в отдельном документе, а не от того, что со­ держится в тезаурусе... В процессе поиска пользователь пытается догадаться, какие термины мог бы использовать каталогизатор или индексатор»2.

Д. Серджел отмечает, что «термины «тезаурус» и «язык индекси­ рования» или «тезаурус» и «классификационная схема» часто ис­ пользуются как синонимы 3. Некоторые авторы связывают с терми­ ном «классификация» традиционные схемы, как, например, класси­ фикация Библиотеки Конгресса СШ А или УДК, а с термином «тезаурус» — метод комбинационного индексирования или частного вида представления отношений между понятиями. Некоторые авто­ ры понимают тезаурус как список терминов, упорядоченных по ал­ ' Batty D. Controlled vocabulary and thesauri in support o f online information access / / D-Lib Magazine. — 1998. - № 11.

2 Meadow Ch. T. Online Searching. — N. Y, 1981.

3 Soergel D. Indexing Languages and Thesauri: Construction and Maintenance. — L. Angeles, 1974. - P. 17.

Рубрикатор как инструмент информационной навигации фавиту (не в классификационном порядке). «Необходимо различать системы, которые обеспечивают лиш ь язы к индексирования (сис­ темный словарь), и системы, которые, кроме того, обеспечивают ве­ дущий словарь (словарь замещений). Эти последние системы назва­ ли тезаурусами... Хорошим общим термином, охватывающим поня­ тия классификационной схемы, системного словаря, списка дескрипторов... и тезауруса, мог бы быть “словарь предметного дос­ тупа”».

Д. Серджел выделяет два аспекта информационно-поисковых систем:

• Концептуальную структуру — хорошо продуманную систему понятий для организации хранения и поиска материала (ин­ • Терминологический контроль, обеспечивающий возможность выражения одного и того же понятия разными способами.

По его мнению, «любое несоответствие в системе понятий или терминологическом контроле приводит как к потере релевантных документов, так и к избыточной выдаче нерелевантных документов.

Чем больше объем памяти (базы данных) и количество обращений, тем чувствительнее потери от плохой организации процесса инф ор­ мационного поиска... Система понятий и терминологический кон­ троль обеспечиваются тезаурусом, который содержит:

а) структурированную систему понятий с определением иерар­ хических и ассоциативных отношений между понятиями;

б) список терминов, определяющих каждое из понятий; все тер­ мины, определяющие одно и то же понятие, называются синонима­ ми; свести их вместе — это и есть терминологический контроль.

Тезаурус содержит набор дескрипторов для индексирования и поиска документов. Этот набор дескрипторов называется языком индексирования, классификационной схемой или системным сло­ варем». «Чем выше степень механизации информационно-поисковой системы, тем более необходим хороший тезаурус, который опреде­ ляет концептуальные отношения. Концептуальные отношения предполагают два вида отношений:

(а) отнош ения между понятиями, такие как иерархические;

1 Soergel D. Indexing Languages and Thesauri: Construction and Maintenan­ ce. — Los Angeles, 1974. — P. 31.

(б) отношения между терминами, которые определяются значе­ нием этих терминов (например, синонимичные). Эти отношения за­ поминаются как сеть ассоциаций в человеческом мозге, и пользова­ тель постоянно делает выбор из них. При механизированном поиске эти отношения используются тогда и только тогда, когда они экспли­ цитно включены в автоматизированный тезаурус»1.

«Тезаурус содержит набор терминов, не определенных как деск­ рипторы, называемых замещаемые термины (или недескрипторы)...

Словарь замещений... делает тезаурус возможно более полной коллек­ цией терминов в данной предметной области и является крайне важ­ ным как для машинного, так и для ручного индексирования и состав­ ления поисковых предписаний». При составлении поискового образа документа и, в особенности, поискового предписания словарь замеще­ ний играет важную роль. Он позволяет использовать для обозначения одного или нескольких близких понятий разные ключевые слова, соот­ несенные с одним и тем же дескриптором. Такое соотношение гаран­ тирует полноту выдачи в результате информационного поиска.

Э. Хантер пишет о важности тезауруса как средства классифика­ ции понятий данной области применительно к современны м поис­ ковым системам: «Тезаурус — это средство установления отношений между терминами, специально созданное для облегчения выбора индексирующих и — шире - поисковых терминов.... Возможности тезауруса можно встроить в автоматизированную систему, так чтобы в том случае, когда по поисковому предписанию не обнаруживается ни одного релевантного документа, компьютер спросил бы самого себя: “Здесь нет ничего по этим ключевым словам, но что еще мож­ но сделать?” Затем он сверится с тезаурусом и продолжит поиск по соответствующим терминам. Таким образом, благодаря тому, что лучшие тезаурусы основываются на классификационных принципах даже там, где применяется алфавитная организация поисковых тер­ минов, классификация призвана играть значительную роль,., хотя бытует мнение {Burton), что в век Интернета и Всемирной паутины нет необходимости прим енять принцип классиф икации при и н ­ ф орм ационном поиске.... П ротивники прим енения принципов классиф икации (в том числе, и тезаурусов) предполагают, что и без классиф икации с помощ ью булевых операторов можно успеш но организовать стратегию сложного поиска, однако даже поиск с ис­ пользованием булевых операторов содержит элемент, малый эле­ 1 Soergel D. Ibidem. — P. 34.

Рубрикатор как инструмент информационной навигации мент, классификации... Тезаурусные (a priori) отнош ения между терминами... привносят “ второе измерение” в инф орм ационно-по­ исковый язык и повышают эффективность предметного индекса как средства идентификации и поиска документов...»1.

Ф. Ланкастер определяет тезаурус как «обычно алфавитный сп и ­ сок терминов в данной предметной области, который можно ис­ пользовать при индексировании и поиске. Он обеспечивает кон­ троль над синонимами, различение омографов и соотнесение ассо­ циативных (related) терминов»2.

Бранка Косовач3 пишет о тезаурусах как о структурируемых кон­ тролируемых словарях, которые явно и системно определяют основ­ ные семантические отношения (эквивалентности, иерархические и ас­ социативные) между терминами естественного языка и предназначены для посткординации. Отмечается необходимость отличать тезаурусы от словарей синонимов, антонимов и ассоциативных; от компьютерных словарных списков взаиморасположения терминов в документах, ко­ торые в литературе часто называют автоматизированными тезауруса­ ми; от списков предметных заголовков и ключевых слов, где не выра­ жены семантические отношения между терминами.

Д жессика М илстед отвечает на вопрос о том, что такое тезаурус, таким образом: «Для писателей это средство, наподобие тезауруса Роджета, которое помогает выбрать лучшее слово из сгруппирован­ ных и классифицированных слов для того, чтобы передать особые оттенки значения. Д ля информационных работников это средство хранения и поиска информации: список слов и словосочетаний, предназначенных для использования в системах индексирования, вместе с отнош ениями, вариантами и синонимами, а также вспомо­ гательные средства для пользования тезаурусом. Разработанный и используемый надлежащим образом, тезаурус может выполнять н е­ сколько функций. Он может быть особым средством, к которому об­ ращаются как пользователь, так и индексатор, реш ая вопрос о том, как обработать документы и запросы для индексирования и и нф ор­ мационного поиска. Он может размещаться вне поискового интер­ 1 Hunter Е. Do we still need classification ? / / The future o f classification / Ed. R.

Marcell, A. Maltby — Vernon, 2000. — P. 1—17.

2 Lancaster F. W., Warner A. J. Information Retrieval Today. — Int. Resources Press, 1993.).

Kosovac B. Internet/Intranet and Thesauri [Электронный ресурс]. — Режим доступа: http://sunsite.berkeley.edu/~path. — Загл. с экрана.

фейса, усиливая поиск без обращения к пользователю в качестве от­ дельной операции. Его можно применять пользователю для улучше­ ния результатов поиска с помощью поисковой маш ины»1.

Стандарты ISO2 определяют тезаурус как словарь контролируе­ мого языка индексирования, формально организованный таким образом, что априори отнош ения между терминами (например, «шире» и «уже») становятся ясно выраженными. В том же плане оп­ ределяет тезаурус отечественный ГОСТ 7.74-96: инф орм ационно­ поисковый тезаурус — это «нормативный словарь дескрипторного информационно-поискового языка с зафиксированными в нем па­ радигматическими отношениями лексических единиц»3. Парадигма­ тические отнош ения указывают на общность или противопоставле­ ние значений и особенности использования дескрипторов.

Однако Д. Милстед справедливо отмечает, что международные стан­ дарты, как и национальный американский стандарт, утратили авторитет в силу того, что были разработаны уже давно и не учитывают новой си­ туации с развитием полнотекстовых баз данных и поисковых машин.

«Сегодня кажется, что вся информация доступна в полнотекстовом ви­ де. Однако это не так и не будет таковым в ближайшем будущем. Боль­ шое количество документов осталось в наследство, и конвертировать их в поисковые тексты - дорогая, долговременная перспектива. Более того, много документов до сих пор производится в печатной форме. Следова­ тельно, тезаурусы и индексирование будут продолжать иметь место, — по крайней мере, как улучшение доступа к тем документам, которые не существуют в электронном виде. Однако перспективы тезаурусов зави­ сят от их интеграции с полнотекстовым поиском»4.

Применяемый в современных полнотекстовых инф орм ацион­ ных системах тезаурус уже не служит средством перевода текстов с естественного язы ка на дескрипторный ИПЯ путем замены ключе­ 1 Milstead J. L. Use o f Thesauri in the Full- Text Environment / / Proceedings o f the 34th Annual Clinic on Library Applications o f Data Processing, March 2 — 1997. — Urbana — champougn : Illinois Univ., 1998. — P. 28— 29.

2 ISO 2788:1986 Documentation — Guidelines fo r the establishment and development o f monolingual thesauri. — Geneve: ISO, 1986; ISO 5964:1985 Docu­ mentation — Guidelines fo r the establishment and development o f multilingual thesauri. — Geneve: ISO, 1985.

3 ГОСТ 7.74— 96. Информационно-поисковые языки. Термины и опреде­ ления / / Сборник основных российских стандартов по библиотечно-инфор­ мационной деятельности. — СПб., 2005. — С. 291—316.

4 Milsteaad J. L. Use o f Thesauri in the Full Text Environment / / Ibidem. — P. 30.

Рубрикатор как инструмент информационной навигации вых слов соответствующими дескрипторами. Соответственно изме­ няется и структура современного тезауруса: в нем могут не выделять­ ся дескрипторы, тогда все лексические единицы И П Т считаются дескрипторами, т. е. терминами, эффективно используемыми при информационном поиске. Это новое качество инф орм ационно­ поисковых тезаурусов нашло отражение в ГОСТе 7.25-2001'.

По своему построению информ ационно-поисковы е тезаурусы подразделяются на два типа2:

— тезаурусы, выделяющие из своих лексических единиц деск­ рипторы;

— тезаурусы, все лексические единицы которых являются деск­ рипторами.

Мы в дальнейшем будем придерживаться определений, предло­ женных «Терминологическим словарем по информатике», где тезау­ рус в общем смысле - это «совокупность знаний, накопленных чело­ веком или некоторым коллективом. В более узком смысле тезаурус — это словарь, предназначенный для поиска слов какого-либо языка по их смыслу»3. В информатике термин «информационно-поисковый тезаурус» используется для обозначения словаря-справочника, в ко­ тором перечислены все лексические единицы дескрипторного ИПЯ с синонимами или словами и словосочетаниями естественного языка, а также эксплицитно выражены важнейшие смысловые отношения ме­ жду дескрипторами.

Далее будем для краткости именовать тезаурусом именно инфор­ мационно-поисковый тезаурус. Напомним значения некоторых тер­ минов, которыми предстоит пользоваться в дальнейшем. Для осуще­ ствления информационного поиска с помощью дескрипторного ИПЯ используется принцип координатного индексирования - выра­ ж ения основного смыслового содержания (предмета) документа или информационного запроса в виде определенной совокупности клю­ чевых слов. Под ключевыми словами понимаются наиболее сущест­ 1 Это положение было зафиксировано еще в первом издании стандарта, разработанного в 1970-х гг., что свидетельствует о дальновидности разработчи­ ков. Более того, в нашей стране были разработаны и внедрены в практику те­ заурусы, основанные на этом положении.

ГОСТ 7.25—2001. Тезаурус информационно—поисковый одноязычный.

Правила разработки, структура, состав и форма представления / / Сборник о с ­ новных российских стандартов по библиотечно-информационной деятельно­ сти. - СПб., 2005. - С. 201-219.

3 Терминологический словарь по информатике. — М., 1975. — С. 425.

венные для этой дели слова и словосочетания, обладающие назыв­ ной (номинативной) функцией.

Дескрипторы — это предназначенные для координатного индек­ сирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного естественного языка и у которых искусственно (при помощи соответствующих ссылок и помет) устранены синонимия, полисемия и омонимия.

Дескрипторный язык — это И П Я, словарный состав которого со­ стоит из дескрипторов, а грамматика, по крайней мере, — из способа постооения поискового образа документов и поисковых предписа­ ний путем координации соответствующих дескрипторов.

Современный этап развития систем информационного поиска можно вести от работ К. Муэрса, который предложил описывать содержание документов простым перечислением дескрипторов — тер­ минов, употребляющихся в самом документе и тем самым определяю­ щих его содержание в пределах терминологии данной предметной об­ ласти. Предполагалось, что перечень дескрипторов, существенных для описания документов определенной предметной области, не слишком велик, что его можно свести в словарь, в котором будут заданы отно­ шения между дескрипторами наподобие соотношения иерархии клас­ сов понятий, и использовать этот ограниченный словарь, называемый информационно-поисковым тезаурусом, как систему фасетного ин­ дексирования документов. Во многих областях эта идеология привела к созданию успешно действующих поисковых систем со специализи­ рованными тезаурусами. Подобные тезаурусы создавались для различ­ ных сфер деятельности, как за рубежом, так и в нашей стране.



Pages:   || 2 | 3 | 4 | 5 |   ...   | 8 |
 
Похожие работы:

«Утверждено приказом Комитета лесного хозяйства и лесной промышленности Новгородской области ЛЕСОХОЗЯЙСТВЕННЫЙ РЕГЛАМЕНТ ПЕСТОВСКОГО ЛЕСНИЧЕСТВА НОВГОРОДСКОЙ ОБЛАСТИ 2011 г. 1 СОДЕРЖАНИЕ Введение 4 Глава 1. ОБЩИЕ СВЕДЕНИЯ 11 1.1. Краткая характеристика 11 1.2. Виды разрешенного использования лесов 28 Глава 2. НОРМАТИВЫ, ПАРАМЕТРЫ И СРОКИ РАЗРЕШЕННОГО ИСПОЛЬЗОВАНИЯ ЛЕСОВ 2.1. Нормативы, параметры и сроки разрешенного использования лесов при заготовке древесины 2.2. Нормативы, параметры и сроки...»

«EOB5450AOX RU ДУХОВОЙ ШКАФ ИНСТРУКЦИЯ ПО ЭКСПЛУАТАЦИИ EEB4433POX www.electrolux.com 2 СОДЕРЖАНИЕ 1. СВЕДЕНИЯ ПО ТЕХНИКЕ БЕЗОПАСНОСТИ............................................... 3 2. УКАЗАНИЯ ПО БЕЗОПАСНОСТИ........................................................ 4 3. ОПИСАНИЕ ИЗДЕЛИЯ.........................................................»

«Министерство сельского хозяйства Российской Федерации Федеральное государственное научное учреждение РОССИЙСКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ПРОБЛЕМ МЕЛИОРАЦИИ (ФГНУ РосНИИПМ) МЕРОПРИЯТИЯ ПО ОХРАНЕ ПОЧВ ОТ ЭРОЗИИ Научный обзор Новочеркасск 2010 УДК 631.459:504.5367 5 ББК 20.1 М 524 Научный обзор подготовлен сотрудниками ФГНУ РосНИИПМ: докторами сельскохозяйственных наук, профессорами Балакаем Г. Т., Полуэктовым Е. В.; кандидатами сельскохозяйственных наук Балакай Н. И., Бабичевым А. Н.,...»

«СВОД СПОРТИВНЫХ ПРАВИЛ СЕКЦИЯ IV ИЗДАНИЕ 2002 С 10 февраля 2002 ТОМ F3C - R.C. ВЕРТОЛЕТЫ F3C - СОРЕВНОВАНИЯ МОДЕЛЕЙ ВЕРТОЛЕТОВ ПРИЛОЖЕНИЕ 5D - F3C ОПИСАНИЕ МАНЕВРОВ ПРИЛОЖЕНИЕ 5Е - СУДЕЙСТВО ЧАСТЬ 5 - ТЕХНИЧЕСКИЕ ПРЕДПИСАНИЯ ДЛЯ ПРОВЕДЕНИЯ СОРЕВНОВАНИЙ ДЛЯ РАДИО-УПРАВЛЯЕМЫХ МОДЕЛЕЙ FEDERATION AERONAUTIQUE INTERNATIONALE Avenue Mon Repos 24,1005 LAUSANNE, Switzerland Copyright 2002 All rights reserved. Copyright in this document is owned by the Federation Aeronautique Internationale (FAI). 1....»

«ECE/TRANS/180/Add.2/Appendix 1 30 August 2005 ГЛОБАЛЬНЫЙ РЕГИСТР Создан 18 ноября 2004 года в соответствии со статьей 6 СОГЛАШЕНИЯ О ВВЕДЕНИИ ГЛОБАЛЬНЫХ ТЕХНИЧЕСКИХ ПРАВИЛ ДЛЯ КОЛЕСНЫХ ТРАНСПОРТНЫХ СРЕДСТВ, ПРЕДМЕТОВ ОБОРУДОВАНИЯ И ЧАСТЕЙ, КОТОРЫЕ МОГУТ БЫТЬ УСТАНОВЛЕНЫ И/ИЛИ ИСПОЛЬЗОВАНЫ НА КОЛЕСНЫХ ТРАНСПОРТНЫХ СРЕДСТВАХ (ECE/TRANS/132 и Corr.1) Совершено в Женеве 25 июня 1998 года Добавление Глобальные технические правила № 2 ПРОЦЕДУРА ИЗМЕРЕНИЯ ДЛЯ ДВУХКОЛЕСНЫХ МОТОЦИКЛОВ, ОСНАЩЕННЫХ...»

«ЕВРАЗИЙСКИЙ СОВЕТ ПО СТАНДАРТИЗАЦИИ, МЕТРОЛОГИИ И СЕРТИФИКАЦИИ (ЕАСC) EURO-ASIAN COUNCIL FOR STANDARDIZATION, METROLOGY AND CERTIFICATION (EASC) ГОСТ МЕЖГОСУДАРСТВЕННЫЙ 31361 2008 СТАНДАРТ САХАР БЕЛЫЙ ТЕХНИЧЕСКИЕ УСЛОВИЯ Издание официальное Зарегистрирован № 5841 23 февраля 2009 г. Минск Евразийский совет по стандартизации, метрологии и сертификации ГОСТ 31361- Предисловие Евразийский совет по стандартизации, метрологии и сертификации (ЕАСС) представляет собой региональное объединение...»

«5774 УДК 303.732.4 СОЛИДАРНАЯ ИНФОРМАЦИОННАЯ ЭКОНОМИКА – СОСТАВНАЯ ЧАСТЬ ТЕОРИИ УПРАВЛЕНИЯ СОЦИАЛЬНОЭКОНОМИЧЕСКИМИ СИСТЕМАМИ А.И. Орлов Московский государственный технический университет им. Н.Э. Баумана Россия, 105005, Москва, 2-я Бауманская ул., 5 E-mail: prof-orlov@mail.ru Ключевые слова: теория управления, социально-экономические системы, экономическая теория, менеджмент, информационные технологии, теория принятия решений, прогнозирование, экспертные оценки Аннотация: Доклад посвящен новому...»

«Дисководы Руководство пользователя © Copyright 2008 Hewlett-Packard Уведомление о продукте Development Company, L.P. В этом руководстве пользователя Windows — зарегистрированный в США описываются функции, которые являются товарный знак Microsoft Corporation. общими для большинства моделей. Некоторые функции могут быть Информация, содержащаяся в недоступны на данном компьютере. настоящем документе, может быть изменена без предварительного уведомления. Все виды гарантий на продукты и услуги...»

«2 Содержание 1. Цель и задачи дисциплины...3 2. Содержание дисциплины...4 3. Лекции....5 4. Лабораторно-практические занятия и семинары...12 5. Самостоятельная работа студентов...15 6. Учебно-методическое обеспечение дисциплины...16 6.1. Рекомендуемая литература...16 6.2. Средства обеспечения освоения дисциплины...16 7. Материально-техническое обеспечение дисциплины... 8. Вопросы к зачету по курсу Системы земледелия...

«УРАЛЬСКОЕ ОТДЕЛЕНИЕ Российской академии наук URAL BRANCH of the Russian Academy of Sciences КАТАЛОГ научно-технических разработок Science and Engineering Developments ФУНДАМЕНТАЛЬНЫЕ НАУКИ - МЕДИЦИНЕ Basic ReseaRch foR Medical applications Настоящее издание представляет собой каталог научно-технических разработок, выполненных в научных учреждениях ...»

«Руководства по созданию надстроек на шасси MAN Cцепные устройства TG издание 2014 г., версия 1.0 Engineering the Future – since 1758 MAN Truck & Bus AG ИЗДАТЕЛЬ MAN Truck & Bus AG (далее по тексту именуемый MAN) Technical Sales Support Application Engineering Dachauer Str. 667 D-80995 Mnchen Эл. почта: info.manted@man.eu Факс: + 49 (0) 89 1580 4264 www.manted.de Мы сохраняем право вносить технические изменения на основе новых разработок. © 2014 Акционерное общество MAN Truck & Bus Перепечатка,...»

«КАТАЛОГ ИННОВАЦИОННЫХ РАЗРАБОТОК ПО ПРИОРИТЕТНОМУ НАПРАВЛЕНИЮ РАЦИОНАЛЬНОЕ ПРИРОДОПОЛЬЗОВАНИЕ ВЫПУСК 6 Москва, 2012 1 В данный каталог вошли результаты выполнения мероприятий Федеральной целевой программы Исследования и разработки по приоритетным направлениям развития научно технологического комплекса России на 2007 2013 годы Минобрнауки России по приоритетному направлению Рациональное природопользование за 2012 год. © Министерство образования и науки Российской Федерации © Некоммерческое...»

«Проект Bioversity International/UNEP-GEF In Situ/On farm сохранение и использование агробиоразнообразия (плодовые культуры и их дикие сородичи) в Центральной Азии (компонент Узбекистана) РЕКОМЕНДАЦИИ ПО ВЫРАЩИВАНИЮ ПРОТИВОЭРОЗИОННЫХ И ВОДОРЕГУЛИРУЮЩИХ ЛЕСНЫХ КУЛЬТУР С УЧАСТИЕМ ГРЕЦКОГО ОРЕХА Е.А. БУТКОВ ТАШКЕНТ - 2010 В данной публикации изложены результаты Регионального проекта In situ/On farm сохранение и использование агробиоразнообразия (плодовые культуры и их дикие сородичи) в Центральной...»

«ГОСУДАРСТВЕННЫЙ СТАНДАРТ РЕСПУБЛИКИ КАЗАХСТАН _ Продукты пищевые ИНФОРМАЦИЯ ДЛЯ ПОТРЕБИТЕЛЯ Общие требования СТ РК 1010 - 2002 Издание официальное Комитет по стандартизации, метрологии и сертификации Министерства индустрии и торговли Республики Казахстан (Мемстандарт) Астана СТ РК 1010 - 2002 Предисловие 1 РАЗРАБОТАН И ВНЕСЕН ТК 18 Организационно-методические и общетехнические стандарты, стандарты на продукцию, процессы и услуги 2 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Комитета по...»

«Муниципальное бюджетное общеобразовательное учреждение города Абакана Средняя общеобразовательная школа №11 УЧЕБНАЯ ПРОГРАММА по предмету География для 5-9 классов Страница 1 из 37 Пояснительная записка Учебная программа предмета География для 5-9 классов разработана на основе ООП ООО МБОУ СОШ № 11. Рабочая программа включает в себя следующие разделы: 1) пояснительная записка; 2) общая характеристика учебного предмета; 3) описание места учебного предмета в учебном плане; 4) личностные,...»

«Сподобаев Ю.М., Кубанов В.П. ОСНОВЫ ЭЛЕКТРОМАГНИТНОЙ ЭКОЛОГИИ Москва Радио и Связь 2000 УДК 621.396.67:628.518 Сподобаев Ю.М., Кубанов В.П. Основы электромагнитной экологии. – М.: Радио и связь, 2000. – 240 с. ISBN 5-256-01513-3 Рассмотрен специфический вид антропогенного загрязнения окружающей среды – электромагнитное загрязнение. Показано, что проблемы электромагнитной экологии, традиционно являясь санитарно-гигиеническими, в настоящее время стали частью общей экологической проблемы и...»

«Общественная организация Саммит разработчиков ТРИЗ ПРИНЦИП ДЕЙСТВИЯ СИСТЕМ Сборник научных трудов Библиотека Саммита разработчиков ТРИЗ Выпуск 4 Санкт-Петербург 20 июля 2011 www.triz-summit.ru 1 triz-summit.ru Принцип действия систем / Сборник научных работ. Библиотека Саммита разработчиков ТРИЗ. Выпуск 4. Санкт-Петербург, 2011. – 160 с. Сборник научных статей Принцип действия систем предназначен для специалистов по ТРИЗ, инженеров, изобретателей, специалистов по инновациям и преподавателей по...»

«Содержание Химические науки Науки о Земле География Биологические науки Техника и технические науки в целом Пищевые производства Общественное питание. Кулинария Рукоделие Домоводство Парикмахерское дело Транспорт Сельское и лесное хозяйство. Растениеводство. Животноводство. Ветеринария. 2 Здравоохранение. Медицинские науки Социальные науки в целом. Социология. Статистика. Демография. Социальное управление Всемирная и зарубежная история. Исторические науки История России История Татарстана...»

«ОТКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО ПРОЕКТНО-ИЗЫСКАТЕЛЬСКИЙ И НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ГИДРОПРОЕКТ ИМ. С.Я. ЖУКА Разработка проекта Временных правил использования водных ресурсов Богучанского водохранилища на период наполнения и первого этапа эксплуатации водохранилища договор № 6518/46-2010 арх. № 255.26-40-07-11 ПРОЕКТ Временных правил использования водных ресурсов Богучанского водохранилища на период начального наполнения и первого этапа эксплуатации водохранилища (третья редакция) Москва...»

«ISSN 2218-8711 Федеральное государственное научное учреждение Научная педагогическая библиотека имени К.Д. Ушинского Российской академии образования ПРОБЛЕМЫ СОВРЕМЕННОГО ОБРАЗОВАНИЯ № 5 | 2013 РЕДАКЦИОННАЯ КОЛЛЕГИЯ Н.Д. Никандров, доктор педагогических наук, профессор, академик РАО В.А. Болотов, доктор педагогических наук, профессор, академик РАО М.В. Богуславский, доктор педагогических наук, профессор, член-корреспондент РАО, заведующий лабораторией истории педагогики и образования ИТИП РАО...»




 
© 2014 www.kniga.seluk.ru - «Бесплатная электронная библиотека - Книги, пособия, учебники, издания, публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.