ПЕРЕХОД НА ГЛАВНУЮ СТРАНИЦУ
WEB-САЙТА КФ ИА НАНУ
 
КАРТА САЙТА



Участники

 

Программа

 

 
Научно-практическая конференция «Научная библиотека академического учреждения: опыт, проблемы и перспективы информационного обеспечения исследовательской деятельности»


Еремеев Л. Г., Кузнецов А. В.

Технологии создания, каталогизации и поиска полнотекстовых электронных материалов для библиотек научно-исследовательских и учебных учреждений

     Существует общепризнанная система для представления метаданных библиотечных электронных каталогов при помощи протокола Z39.50. Эта технология позволяет применять унифицированный поиск по всем мировым ресурсам подобного вида.
     В связи с большим количеством полнотекстовых документов в сети, пользователи привыкли искать уже именно полные тексты статей, им мало описания документа (карточки электронного каталога), хранящегося в библиотеке.
     Реальное состояние дел таково, что большая часть существующих полнотекстовых документов хранятся на Интернет-порталах, в электронных коллекциях или отдельных сайтах. А поскольку все подобные электронные базы данных имеют свои внутренние поисковые системы, то для них не существует единого поискового механизма по полнотекстовым документам. Существующие поисковые системы общего назначения не вполне удовлетворяют этому требованию, т.к. результат их использования во многом зависит от удачности составления поискового запроса и алгоритмов составления поискового индекса поисковой системы. Тут стоит упомянуть, что существуют методы продвижения сайтов в поисковом ранжировании, которые используют коммерческие сайты (например, электронные магазины). Научные и учебные сайты с электронными документами, как правило, носят некоммерческий характер, а поэтому не могут позволить себе оплачивать такие методы. Как результат, даже по релевантным запросам эти сайты не всегда выдаются на первых местах в результатах поиска с использованием поисковых систем общего назначения.
     Из этого положения дел мы делаем вывод, что для поиска по электронным коллекциям нужен специализированная поисковая система, которая будет выдавать в качестве результатов поиска только полнотекстовые документы и материалы. В силу такой специализации, естественным было бы снабдить эту систему дополнительной поисковой функциональностью, дав пользователям такой поисковой системы возможность находить полнотекстовые материалы по их автору, тематическим рубрикам и т.п.
     Подобной поисковой системой может стать поиск по электронным каталогам библиотек, которые, помимо описаний документов, содержат и ссылки на полнотекстовые версии этих документов. Но чтобы подобная система была востребованной и могла конкурировать с поисковыми системами общего назначения, количество документов в полнотекстовых электронных каталогах должно быть сравнимо с общим количеством полнотекстовых документов в Интернете, иначе люди, несмотря на все ее преимущества, не станут ею пользоваться. Сейчас мы еще далеки от этой ситуации. На сегодняшний день можно констатировать как факт, что в библиотечных системах России очень мало полнотекстовых документов.
     Рассмотрим основные причины данной ситуации. В сложившихся организационных и технологических условиях для того, чтобы автор смог разместить полный текст своей работы в электронной библиотечной коллекции, в организации, в которой он работает, должна быть внедрена какая-либо АБИС, в библиотеке должны работать каталогизаторы, а также в библиотеке должен быть налажен организационный механизм, обслуживающий потребности авторов отделом каталогизации. К сожалению, реальное положение дел совсем не таково. Во-первых, в библиотеке может не быть своей АБИС, во-вторых, может не хватать квалифицированных каталогизаторов. И даже при наличии первых двух факторов, могут отсутствовать необходимые организационные механизмы.
     Можно констатировать, что в большей степени библиотеки заняты своими внутренними процессами автоматизации: учетом поступающей литературы, процессом книговыдачи, книгообеспеченностью и т. п., а доступ к текстам через компьютерные сети не развивается. Реально, сегодня через компьютерные сети развивается только доступ к электронным каталогам библиотек, да и то не везде он соответствует общемировому стандарту.
     В результате авторы вынуждены создавать свои собственные сайты, в некоторых случаях удается создавать тематические порталы, в рамках которых они и размещают свои полнотекстовые материалы. Получается, что во многом библиотеки существуют сами по себе, а авторы и читатели – сами по себе.
Мы решали следующие задачи:
– облегчить процесс создания электронных полнотекстовых материалов научными сотрудниками и преподавателями, избавив их от несвойственных им действий по программированию;
– обеспечить размещение и каталогизацию создаваемых полнотекстовых документов при отсутствии АБИС в библиотеке организации или отсутствии организационных механизмов использования существующих АБИС;
– предоставить пользователям удобные средства доступа к данным каталогам и полнотекстовым материалам.
Чтобы решить поставленные задачи в конкретно взятом учреждении необходимо обеспечить следующие функциональные возможности:
     1. Создание документов. Этот процесс возложен либо на авторов, либо на операторов, которые занимаются оцифровкой документов, существующих на бумаге или других носителях. Существование удобного инструмента для каждого конкретного типа работы значительно ускоряет процесс создания. Таким инструментом может быть специальное программное обеспечение, дающее автору возможность быстрого создания электронного материала и позволяющее, в зависимости от ситуации, использовать текстовые редакторы, редакторы формул, программы, распознающие отсканированные документы, программы для создания гипертекстовых документов и пр.
     2. Размещение документов на веб-сервере. Данная процедура разбивается на два этапа: подготовка документов и непосредственное размещение на веб-сервере. Под подготовкой документов подразумевается приведение полученного после создания документа к некоторому принятому в данной системе формату, его оформление. Этот этап необходим из-за неоднотипности созданных документов, т.к. они могут быть созданы разными авторами в разных программах. Например, для размещения на сервере документа в формате PDF может быть необходимо, кроме копирования этого документа на веб-сервер, создать страницу, которая будет содержать краткое описание и ссылку для его скачивания.
     3. Каталогизация. Чтобы стал возможным расширенный поиск по электронной коллекции, необходимо каталогизировать содержащиеся в нем полнотекстовые документы, иначе говоря, создать их метаданные. Такая процедура является стандартной для поступающей в библиотеки литературы и выполняется профессиональными каталогизаторами с использованием АБИС.
     4. Поиск. Чтобы документы электронного каталога можно было найти при помощи единого поискового механизма, используемого для поиска по библиотечной информации (протокол Z39.50), нужно использовать Z-сервер, на котором хранятся метаданные о полнотекстовых документах (электронный каталог).
В Институте математики и информационных технологий ОмГУ была разработана система, реализующая эти функциональные возможности. Данная система включает в себя:
     1. АРМ «Автор», предназначенный для создания, редактирования и публикации полнотекстовых электронных материалов, который позволяет не только создавать новые электронные документы, но и вставлять документы, созданные в других программах для создания электронных документов, сохраненные в наиболее распространенных форматах: DOC, PDF, DJV, TXT.
     2. АРМ «Администратор», предназначенный для управления учетными записями пользователей данной системы, управления электронными каталогами и каталогизацией создаваемых авторами документов. Под каталогизацией здесь подразумевается автоматическое создание электронных карточек документов и сохранение их в электронный каталог.
     3. Веб-сервер для доступа к полным текстам документов.
     4. СУБД для хранения полнотекстовых документов.
     5. Z39.50-сервер, который предназначен для осуществления поиска по электронным каталогам системы, и работающий по протоколу Z39.50, который является общепризнанным мировым стандартом для представления библиотечных данных.
     В зависимости от сложившейся ситуации в каждом конкретном учреждении мы рассмотрим различные варианты типовых проектных решений для внедрения наших технологий.
    Вариант 1. В учреждении (например, НИИ) есть авторы, но нет АБИС, нет коллектива каталогизаторов и соответственно нет электронного каталога. Для этого случая предлагается следующее типовое проектное решение.
При помощи АРМа «Автор» авторы создают полнотекстовые документы, которые автоматически размещаются на веб-сервере. (Для освоения АРМа «Автор» как инструментального средства, автору достаточно уметь пользоваться текстовым редактором типа Word). При создании документа автор, кроме создания собственно текста документа, описывает его, заполняя ряд полей: название документа, краткая аннотация, список авторов, ключевые слова. (Отметим, что заполнение этих полей не требует от автора знаний профессионального каталогизатора). Информация, помещенная в эти поля, используется для формирования метаданных о документе, которые хранятся в базе данных вместе с документом.
     При помощи АРМа «Администратор» формируется электронный каталог, в котором для каждого из документов, на основе метаданных, создается электронная карточка (запись электронного каталога). Записи электронного каталога размещаются на Z-сервере. Этот процесс представляет из себя автоматическую процедуру каталогизации, т.е., что особенно важно отметить, автору не приходится обращаться в специализированную библиотечную службу.
     После проделанных операций мы имеем полнотекстовые документы, размещенные на веб-сервере и электронный каталог этих документов, размещенный на Z39.50-сервере. Читатель при помощи унифицированного поиска по электронным каталогам с помощью Z-клиента (например, LibNavigator-а) может в созданном каталоге найти описания всех созданных авторами документов. Важным является тот момент, что данные описания содержат ссылки на полнотекстовые документы, размещенные на веб-сервере.
    Для реализации этого типового проектного решения требуется компьютер, используемый как сервер, на который устанавливается все необходимое программное обеспечение: операционная система, веб-сервер (например, Apache), СУБД (например, Postgre), Z39.50 сервер (например, Zebra), АРМы «Автор» и «Администратор» (наша собственная разработка). Данный компьютер должен иметь выделенный IP адрес.
АРМы «Автор» и «Администратор» установлены и работают на сервере, воспользоваться ими можно с любого компьютера, имеющего доступ в Интернет при помощи веб-браузера. Читатели смогут осуществлять поиск по электронному каталогу также с любого компьютера, имеющего доступ в Интернет. Для этого им понадобится Z-клиент (например, LibNavigator, который является нашей собственной разработкой). Для просмотра полнотекстовых документов читателям понадобится веб-браузер.
     Из перечисленного программного обеспечения веб-сервер Apache, СУБД Postgre и Z-сервер Zebra являются свободно распространяемым программным обеспечением.
     В институте математики и информационных технологий Омского государственного университета (ИМИТ ОмГУ) данное проектное решение было реализовано при использовании следующих компонент:
     1. Компьютер Intel Core 2 Duo 2.8 GHz, RAM 2 GB, HDD 320 GB, Net 100 MB/s
     2. Операционная система Windows XP Professional
     3. Веб-сервер Apache
     4. СУБД Postgre
     5. Z-сервер Zebra
     6. АРМы «Автор» и «Администратор»

Адрес веб-сервера: imit.omskreg.ru
Параметры соединения к электронному каталогу на Z-сервере:
сервер - imit.omskreg.ru
порт - 9999

базы данных:
ege – ЕГЭ по математике
ethno – Полнотекстовые материалы по этнографии
ptd – Полнотекстовые статьи и книги

     

     Для поиска по электронному каталогу на Z-сервере использовался LibNavigator.Вариант 2. В учреждении (например, ВУЗ) есть АБИС, есть каталогизаторы – работники библиотеки, есть Z-сервер, на котором содержится электронный каталог библиотеки. В этом случае нужно дать возможность авторам создавать полнотекстовые документы и размещать их на веб-сервере, а также организовать работу каталогизаторов так, чтобы вновь созданные документы каталогизировались ими и пополняли электронный каталог библиотеки.
     Авторы работают с инструментом (АРМ «Автор») аналогично тому, как описывалось в первом варианте. Созданные ими документы размещаются на веб-сервере. Используя АРМ «Администратор», каталогизатор библиотеки просматривает список новых созданных документов и добавляет в свой библиотечный каталог (каталог АБИС) электронные карточки этих документов, основываясь на метаданных, описанных автором документа. Таким образом, в электронном каталоге библиотеки появляются записи о полнотекстовых электронных материалах, уже размещенных на веб-сервере. А т.к. в данном учреждении есть механизм, по которому электронный каталог АБИС становится доступным на Z-сервере этой библиотеки, то читатели смогут при помощи Z-клиента находить в данном каталоге создаваемые авторами полнотекстовые электронные документы.
     При использовании данного проектного решения в каталоге библиотеки будут накапливаться электронные карточки и о бумажных и об электронных документах. Поэтому читателям, желающим найти через Z-клиент именно полнотекстовые электронные документы, при поиске в этом электронном каталоге нужно использовать специальные поисковые предписания, указывающие, что в результатах поиска нужно показывать только карточки со ссылками на полные тексты. Такой фильтр есть в LibNavigator-е.Вариант 3. В организации (например, библиотека) есть АБИС, есть каталогизаторы – сотрудники библиотеки, есть локальная сеть для поиска по электронному каталогу, возможно есть портал с размещенным на нем электронным каталогом (например, Веб-Ирбис), но нет Z-сервера, а поэтому электронный каталог библиотеки не включен в множество мировых электронных каталогов, доступным по единому протоколу.
     В типовом проектном решении этого варианта создание полнотекстовых электронных материалов, их размещение и каталогизация делаются аналогично предыдущему варианту: авторы, используя АРМ «Автор», создают документы, делая краткое их описание. Документы автоматически размещаются на веб-сервере; каталогизаторы, просматривая новые документы в АРМе «Администратор», создают на основе метаданных электронные карточки для этих документов и помещают карточки в электронный каталог библиотеки.
В отличие от предыдущего варианта в этом не хватает Z-сервера, который необходим для поиска документов в электронном каталоге по протоколу Z39.50.
     На этапе внедрения Z-сервера мы предлагаем следующую процедуру: использовать Z-сервер Zebra, который является свободно-распространяемым программным обеспечением. Но Zebra использует собственный электронный каталог, и поэтому его необходимо предварительно наполнить электронными карточками из электронного каталога АБИС. Все современные АБИС могут экспортировать свои электронные каталоги в файлы формата ISO2709. Поэтому для большинства случаев есть следующее технологичное решение данной задачи: регулярно (например, раз в неделю, месяц или квартал) нужно производить полный экспорт электронного каталога АБИС в файлы ISO2709, а затем переиндексировать их, получая электронный каталог Zebra.
     Этот процесс можно в значительной мере автоматизировать и ускорить, но это зависит от конкретно используемой АБИС. Для того, чтобы сервер Zebra мог напрямую использовать электронный каталог той или иной АБИС, нужно программное обеспечение, называемое провайдером для сервера к соответствующей СУБД, которая используется в соответствующей АБИС. Существует Z-сервер ZOOPARK, который создан на основе Zebra и имеет в своем составе провайдеры к СУБД используемых в АБИС «ИРБИС» и АИБС «MARC SQL».
     В случае использования этих АБИС можно в качестве Z-сервера использовать ZooPARK, но он, в отличие от Zebra, является коммерческим продуктом и его необходимо приобретать у разработчиков.Вариант 4. Существует уже созданный портал с полнотекстовыми документами: это может быть список статей некоторой научной организации или группы авторов, электронная библиотека, онлайн-энциклопедия и т.п. Эти полнотекстовые документы уже созданы, но обычно их можно найти только через поисковые системы общего назначения. Хотелось бы включить их в множество ресурсов, доступных по единому поисковому протоколу Z39.50.
     Для этого необходимо создать электронный каталог с метаданными о полнотекстовых документах данной коллекции и разместить его на Z-сервере. Т.к. большинство подобных Интернет-ресурсов используют для хранения и рубрикации электронных документов некоторую базу данных, то можно с уверенностью утверждать, что в этой базе данных хранится и метаданные о полнотекстовых документах. Поэтому можно разработать утилиту, создающую на основе этих метаданных электронную карточку для каждого документа, а объединение электронных карточек даст электронный каталог, который можно будет разместить на Z-сервере.

     Приведем пример. В Омском государственном университете издается научный журнал «Вестник ОмГУ», в котором печатаются научные статьи сотрудников университета и других научных учреждений. Существует и электронная версия этого журнала. Нами была разработана утилита для создания электронных карточек этих статей на основе базы данных, хранящейся на веб-сервере этого журнала. С применением этой утилиты был создан электронный каталог полнотекстовых документов, после чего он был размещен на нашем Z-сервере, и теперь вы можете найти эти полнотекстовые статьи, используя Z-клиент (например, LibNavigator).Портальный вариант.
    В случае, когда использование Z-сервера невозможно, или не предполагается, АРМ «Автор» можно использовать для создания портала полнотекстовых документов, который будет обычным веб-сайтом со своей собственной структурой и системой поиска.
      Типовое проектное решение для данного варианта включает в себя АРМ «Автор», АРМ «Администратор», а также систему поиска по электронным полнотекстовым документам. Предполагается использование АРМа автора для создания полнотекстовых документов, а АРМа администратора – для модерации и структуризации портала. Система поиска должна, по-возможности, заменить собой стандартизированный поиск по электронным каталогам, используемый в Z-технологиях, чтобы обеспечить пользователям доступ к любым документам на портале без необходимости знать его структуру.
     Примеров работы подобных систем можно привести достаточно много. В ОмГУ одним из таких примеров является сайт кафедры этнографии и музееведения (http://ethnography.omskreg.ru/), для наполнения которого инструмент разрабатывался нами. На данный момент этот портал является наиболее полным и известным в России по своей тематике.
     Использование такого варианта имеет ряд существенных недостатков. Первый – это необходимость проведения работ по структуризации портала, т.к. от его структуры будет во многом зависеть удобство работы с ним. При большом количестве документов, размещенных на портале, достаточно сложно выбрать естественно-понятную большинству пользователей структуру, кроме того, поддержание этой структуры требует постоянных трудовых затрат.
      Вторая проблема – это создание системы поиска по документам, размещенным на портале. Т.к. в данном случае единый стандартизированный механизм поиска, предназначенный для поиска по электронным каталогам библиотек, не может быть использован, то в портал нужно будет встроить собственную систему поиска, что значительно повышает трудозатраты, необходимые для создания портала. От алгоритмов работы этой системы поиска во многом будет зависеть удобство ее использования и релевантность результатов поиска запросам пользователей. Кроме того, она может быть непривычна пользователям, что также снижает удобство работы с порталом.
      Третья проблема – это доступность документов, размещенных на портале, при поиске в общих поисковых системах. Электронные каталоги, доступные через Z-сервера, могут быть включены в общий список электронных каталогов (например, LibNavigator-а), что автоматически включает все документы, размещенные в них, в общемировое поисковое поле. Документы, размещенные на портале, могут быть найдены читателями, которые не знают точного их расположения, только через поисковые системы общего назначения (Яндекс, Google и т.п.), что, во-первых, усложняет поиск, т.к. поисковые системы общего назначения ищут по всему множеству страниц в Интернете (а электронные документы – лишь их малая часть), а во-вторых, механизмы индексации и ранжирования поисковых систем общего назначения значительно препятствуют поиску недавно созданных документов: в поисковой выдаче можно увидеть только документы, проиндексированные поисковой системой, причем предпочтение отдается давно созданным документам.
     Рассмотренные варианты типовых проектных решений учитывают большинство производственно-технологических ситуаций, в которых может находиться организация, решившаяся на создание собственных полнотекстовых электронных каталогов.
     Результатом внедрения любого из этих проектных решений станет система, обеспечивающая авторов простым в освоении средством электронной публикации, а читателей – удобным поиском полнотекстовых электронных материалов.

© авторы
 
         
Выставлено 6 июля 2009 г.
.
 
© Крымский филиал Института археологии НАН Украины
© Ядрова Г.В.