Электронная библиотека » Владимир Вуль » » онлайн чтение - страница 25

Текст книги "Электронные издания"


  • Текст добавлен: 26 июля 2014, 14:30


Автор книги: Владимир Вуль


Жанр: Интернет, Компьютеры


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 25 (всего у книги 41 страниц) [доступный отрывок для чтения: 11 страниц]

Шрифт:
- 100% +
7.3.1. Требования к базе данных издательства (издательскому портфелю)

Требования к издательской базе данных, как и любому другому программному продукту, зависят от ее назначения. Назначение издательской БД многогранно. Прежде всего, такая база должна обеспечить надежное и длительное хранение выпускаемой издательством продукции. В современном представлении длительность хранения составляет не менее чем 30 или даже 50 лет.

Другое назначение БД состоит в предоставлении возможности поиска и извлечения хранимой информации сотрудникам данного издательства, а иногда и другим лицам. Практически все произведения, выпускаемые в свет любым издательством, защищены авторским правом, следовательно, извлекаемая из БД информация представляет собой определенную ценность. Вывод: доступ к информации должен быть строго регламентирован, а соответствующее разрешение выдается руководителями издательства или специально уполномоченным ими лицом.

Любое современное издательство в определенной степени выполняет также функции дистрибьютора, по крайней мере, в отношении выпускаемых им самим изданий. Дистрибьюторская функция подразумевает возможность получения различной информации об имеющейся в наличии литературе, для чего в БД должны содержаться библиографические данные изданий, аннотации, оглавления, а также указания относительно места ее хранения на складе, имеющемся количестве ее экземпляров (остатков) в любой момент времени.


Рис. 7.3. Содержание атрибутивной базы данных и хранилища современного издательства


Полезно также иметь возможность оценки количества реализованных экземпляров за определенные отрезки времени и т. п. С этих позиций следует обеспечить возможность доступа к БД для дистрибьюторов, а может быть и для торговых агентов крупных книжных магазинов и посреднических фирм, специализирующихся в распространении изданий. Иногда в издательствах книги продаются со склада и в розницу. Тогда разумно разрешить доступ хотя бы к части базы данных и покупателям. Данное требование вступает в определенное противоречие с предыдущим, так как подразумевает достаточно широкий доступ и в то же время ограничение круга лиц, которые допущены к информации, содержащейся в БД.

Ряд крупных и средних издательств имеют отделения в различных городах. Для них существенным может оказаться обеспечение возможности удаленного доступа к базе, в частности, для получения сведений о наличии изданий в главном офисе, передаче данных о продаже тиражей в отделениях и т. п.

Таким образом, издательская база данных должна обеспечить (рис. 7.3):

✓ длительное хранение изданий с высокой степенью надежности;

✓ возможность поиска и извлечения информации об изданиях сотрудниками издательства, а также представителями оптовых фирм, занимающихся книгораспространением, а иногда и розничным покупателям;

✓ возможность удаленного доступа для получения и занесения информации в базу;

✓ включение и систематическое оперативное занесение информации в специальные модули "Последние издания" различных издательств и "Персоналии".

7.3.2. Методы организации хранения и поиска электронных изданий

В течение длительного времени для хранения электронных копий изданий и их фрагментов используются различные базы данных. В последнее время базы данных стали использоваться и для публикации электронных изданий. Преимущественно это относится к базам данных, которые используются в сети Интернет и связаны с поисковыми серверами, которые, отыскав ссылку на нужное издание в своем поисковом индексе, обращаются к соответствующей сетевой базе данных. Другой вариант публикации – в базах данных, связанных с издательскими серверами.

Существует 2 принципиально разных метода организации хранения электронных публикаций:

1. В виде иерархической файловой системы, в которой файлы отдельных изданий объединены в каталоги по тематическому или другим признакам.

2. В виде текстовой базы данных, в которой размещены файлы изданий.

Первый метод проще с точки зрения организации структур данных, но требует создания и использования дополнительных средств для поиска нужного электронного издания, в особенности, если количество таких изданий достаточно велико. При его использовании, в общем случае, гораздо труднее обеспечить защиту информации от несанкционированного доступа, которая несомненно нужна, так как издания представляют собой определенную информационную и материальную ценность, являясь интеллектуальной собственностью конкретного издательства.

Во втором варианте обычно проще осуществить защиту информации. Методы и средства для этого достаточно разработаны и проверены практикой. Однако, при работе с изданием, связанной с его изменением, используется большое количество операций записи и чтения информации. Это связано с тем обстоятельством, что приложение не может напрямую работать с базой данных. В результате для больших текстовых баз данных существенно снижается скорость обработки информации. Кроме того, возникают определенные проблемы при использовании различных видов информационных носителей, например, жестких магнитных дисков и оптических компакт– или DVD-дисков.

Хранение изданий требует обязательной организации системы поиска. Существуют два варианта поиска изданий пользователем. В первом случае производится поиск электронного издания, о котором точно известно, что оно существует, и известен хотя бы один его поисковый атрибут. Такие системы называют фактографическими, так как в них каждому изданию однозначно соответствуют поисковые атрибуты. Во втором случае ставится задача отыскания всей совокупности электронных изданий по определенному тематическому направлению. В последнем случае заранее неизвестно не только количество изданий, но даже сам факт их существования. Такие системы называют документальными. Большинство аналитических и исследовательских задач на начальной стадии реализации связано с применением второго варианта поиска. В частности, на этапе постановки задачи всегда проводится обзор литературы по рассматриваемому вопросу.

Методы организации поиска также могут быть разделены на 2 группы. К первой из них относится так называемый атрибутивный поиск. Он основан на том, что каждый документ (издание представляет собой частный случай документа) характеризуется определенным набором атрибутов (полей). Эти поля заполнены конкретной информацией, которая изменяется для различных изданий. При поиске проверяется совпадение значений, содержащихся в запросе, со значениями в соответствующих полях каждого из изданий. Такой метод организации поиска характерен для фактографической модели.

К атрибутам изданий относят: название, автора (авторов), время создания, ISBN (индивидуальный номер издания по универсальной книжной классификации) и так далее. В последнее время набор атрибутов все чаще называют метаинформацией. Этот термин уже упоминался во второй главе, когда мы рассматривали содержимое заголовочной части HTML-издания. За рубежом делаются попытки стандартизации электронного описания для любого издания. В частности, имеются библиотечные стандарты, в том числе и отечественные, а также стандарты описания, существующие в книжной торговле. Ко второй группе средств относится полнотекстовый поиск и выборка изданий. Действительно, любая книга, в том числе и в электронном виде, представляет собой слабоструктурированный набор символов, организованных в слова, предложения, разделы, параграфы и главы. Для организации полнотекстового поиска необходимо вначале произвести индексацию изданий, составить для них так называемый полнотекстовый индекс. В простейшем случае он представляет собой список всех значащих слов в текстовой базе данных с указанием, в каких изданиях встречаются эти слова. Встречаются многоуровневые индексы, в которых на верхнем уровне расположен словарь или поисковый индекс слова. В нем каждому значащему слову соответствует указатель на расположенный на следующем уровне список местонахождений или индекс ссылок, в котором содержатся адрес издания и, иногда, позиция слова внутри документа.

Многие из читателей, вероятно, использовали полнотекстовый поиск, работая в сети Интернет с поисковыми серверами. В этом случае в специальное поле поиска вводится конструкция из некоторого количества слов или фраз, иногда связанных друг с другом знаками логических операций. Соответствующий механизм на сервере автоматически проверяет содержимое ссылок на документы, содержащихся в его базе данных и выдает результат поиска в виде списка подходящих или релевантных документов.

Можно сформулировать 4 основных отличия полнотекстовой выборки от атрибутивной:

✓ полнотекстовая выборка отвечает на запросы с меньшей точностью;

✓ она вероятностная, а не детерминированная;

✓ критерием правильности выборки является не точное совпадение, а лишь пригодность извлеченного из базы издания;

✓ время поиска и извлечения издания в большей степени зависит не от технических средств, а от качества формулирования запроса и скорости анализа пользователем пригодности извлеченных из базы изданий.

Нетрудно понять, что первой модели наилучшим образом соответствует атрибутивный поиск, а второй – полнотекстовый. Принципиальное отличие между этими двумя методами поиска состоит в том, что результат применения атрибутивного поиска детерминированный, в то время как полнотекстовый поиск следует характеризовать как вероятностный, т. е. его результат содержит набор документов, характеризуемых определенным уровнем релевантности или пригодности.

Исторически первыми использовались базы данных для хранения структурированной информации с жестким набором атрибутов. Затем возникла необходимость хранения документов, включая журналы и книги, которые представляют собой набор неструктурированной или почти неструктурированной информации. В последние годы возникла определенная тенденция к разметке или структурированию текстовых документов. Для этого созданы специальные языки, в частности, SGML (Standard Generalized Markup Language) и XML (Extensible Markup Language).

Атрибутивный поиск проще и быстрее, а также позволяет получить точный, а не вероятностный, результат. Для его реализации не требуется создавать полнотекстовый индекс, занимающий значительное дисковое пространство, а также сложные поисковые механизмы. Кстати, в последние годы даже в сети Интернет взят курс на поисковые системы, основанные на частичном использовании метаинформации, по крайней мере, в тех случаях, когда эта информация известна пользователю. Вводится и соответствующий стандарт на содержание атрибутов на каждой Web-странице для реализации такого поиска. Тем не менее, полнотекстовые базы и поиск пока еще достаточно широко используется в издательских информационных системах.

Известно несколько методов поиска в текстовых базах данных, на которых автору хотелось бы остановиться. Первой и наиболее простой моделью поиска является просмотр, т. е. процесс сходный с обычной работой с книгой. В этом случае из базы данных извлекается определенное электронное издание, и пользователь знакомится с его содержанием. Используя современные средства навигации, можно перемещаться по каталогу изданий, раскрывать нужные книги и просматривать их оглавления и аннотации. Для больших баз данных такой способ неэффективен и может использоваться только в сочетании с другими моделями.

Вариантом этой модели является связанное чтение, которое использует концепцию гипертекста и переходы по гиперссылкам внутри одного издания или даже между изданиями, включая рисунки, звуковые и видеофрагменты.

Чаще всего применяется Булевы модели поиска, использующие в качестве основы логические конструкции, т. е. слова или фразы (последние заключаются обычно в круглые скобки), объединенные знаками логических операций И (AND, &), ИЛИ (OR) и НЕ (NO). Входящие в конструкцию смысловые элементы, т. е. слова и фразы, если последние рассматриваются как единое целое, обычно называют термами. Если в результате запроса поисковая система выдала чрезмерно большой список документов, запрос можно попытаться усложнить, включив в него большее количество термов и операторов И, предполагающих одновременное наличие в документе базовых слов и фраз. Наоборот, если найдено небольшое количество пригодных (релевантных) документов, запрос можно упростить, исключив из него отдельные конструкции с оператором И (или добавив конструкции с оператором ИЛИ).

Специальное программное обеспечение может обеспечить автоматическую оценку степени полезности каждого из извлеченных изданий. Эта оценка делается на основе частоты, с которой встречаются в издании термы, используемые в запросе. Результаты обычно сортируются по степени релевантности. Такая модель поиска используется, в частности, на поисковом сервере Rambler.

Векторная модель поиска основана на представлении каждого отдельного издания некоторым вектором в N-мерном пространстве. Запрос также представляется в виде вектора. Степень полезности документа, определяется как его близость в указанном N-мерном пространстве к вектору запроса. Количественная оценка близости найденного документа к запросу выражается косинусом угла между этими векторами и изменяется в пределах от 0 до 1.

Векторная модель поиска обязательно подразумевает последовательные итерации. В начале поиска пользователь из всего множества выбранных изданий определяет некоторые как нужные, полезные для него. На основании этого выбора вырабатывается уточненное положение вектора запроса

Эффективность – главный критерий при определении применяемого метода полнотекстовой выборки. Эффективность поиска издания можно описать двумя характеристиками: точность и охват. Точность µ определяется отношением числа релевантных документов R к общему количеству документов в выборке N (µ = R/N). Охват ∑ характеризуется отношением числа релевантных документов в выборке R к общему числу релевантных документов в базе данных T (∑ = R/T).

В случае идеального поиска все выбранные документы полностью пригодны и исчерпывают список пригодных документов в базе данных, т. е. ∑ = 1 и µ = 1. Однако многочисленные исследования, выполненные различными специалистами, показали что точность и охват связаны друг с другом обратной зависимостью, а максимальное значение суммы µ + ∑ близко к 1,4. Сказанное иллюстрируется графиком, представленным на рис. 7.4.

Такой результат выглядит вполне осмысленным. Действительно, если мы хотим увеличить точность µ – мы должны как можно более точно сформулировать запрос, включив в него большое количество различных термов, связанных с помощью операторов И, чтобы исключить возможность попадания в результаты поиска непригодных документов. Однако, в этом случае общее количество выбранных изданий не может быть большим, точнее – оно будет малым. Естественно, что не все релевантные документы, содержащиеся в базе данных, попадут в число выбранных.

В последнем случае увеличение количества выбранных изданий неизбежно увеличит время обработки результатов поиска. Реально, если количество выбранных изданий составляет сотни значений, то время оценки их пригодности становится чрезмерно большим, в результате пользователь утомляется, внимание его рассеивается, что неизбежно приводит к неточностям и ошибкам.


Рис. 7.4. График зависимости величины охвата от точности


Таким образом, атрибутивная выборка выглядит гораздо предпочтительнее как с точки зрения эффективности и скорости выборки, так и экономии дискового пространства. Однако, для ее практического применения необходимо знать поисковые атрибуты, что возможно далеко не во всех случаях.

Во многих случаях следует остановиться на промежуточном варианте, когда наряду с атрибутами в поисковой среде хранится набор ключевых слов и терминов, каждый из которых связан с определенным кругом изданий. При включении нового издания в поисковую структуру из набора ключевых слов отбирается несколько, в наибольшей степени отвечающих тематике и содержанию издания. При поиске информации пользователь также просматривает список ключевых слов и отбирает те из них, которые, по его мнению, в наибольшей степени соответствуют его требованиям.

Помимо обеспечения возможности эффективной выборки нужного издания, очень важно то, как следует организовать хранение изданий, чтобы гарантировать только санкционированный доступ к этому хранилищу. Дополнительные трудности на организацию процесса хранения накладывает использование во многих изданиях мультимедийных компонентов.

7.3.3. Оптимизация структуры базы данных

Из двух предыдущих разделов следует, что для лучшей защиты данных от несанкционированного доступа и ускорения работы поисковой системы целесообразно разделить функции поиска документов и их извлечения из базы данных. Для поиска целесообразно использовать атрибуты и ограниченный набор ключевых слов и выражений. Причем предпочтительнее производить атрибутивный поиск, и лишь при незнании пользователем атрибутов может быть организован контекстный поиск по ключевым словам и выражениям. Но и во втором случае пользователь не придумывает эти слова и выражения, а выбирает их из ограниченного множества, предоставляемого ему атрибутивной базой данных. Результатом такого поиска будет извлечение сведений об издании. Целесообразно применение вспомогательной БД сравнительно небольшого информационного объема, в которой хранятся так называемые метаданные – атрибуты документа: автор, название издания, формат, версия, аннотация, резюме, рецензии и отзывы. Для организации поиска по контексту полезно хранить в атрибутивной БД также и ограниченное множество ключевых слов. Это множество должно адекватно отображать ту предметную область, в которой работает издательство.


Рис. 7.5. Общая структурная схема атрибутивной базы данных


Из этого множества автором и редактором каждого издания отбирается подмножество слов и выражений, каждое из элементов которого полностью отвечает тематике данного издания. Возможно и автоматическое извлечение ключевых слов и выражений из аннотации, предисловия, рецензий и прочих документов, в концентрированной форме отражающих особенности издания. Однако затем следует сличить извлеченные автоматически выражения с множеством хранимых в базе данных, оставив только то, что попадает в зону пересечения этих множеств. Это традиционная реляционная БД, организованная в виде совокупности полей, соответствующих структуре метаданных.

По атрибутивному запросу клиенту возвращается один документ или список релевантных документов в форме миниатюр, из которых он выбирает нужное издание, за которым может затем обратиться в основное информационное хранилище, если он обладает соответствующими правами доступа. Те же, кто ими не обладает, получает миниатюру, а также некоторые вспомогательные документы, характеризующие издание: аннотацию, рецензии, иногда – оглавление или развернутый план-проспект. Общая структурная схема такой базы данных представлена на рис. 7.5.

7.4. Проектирование хранилища изданий и атрибутивной БД

Ядром издательской системы (см. рис. 7.1), структура которой и требования к которой обсуждались ранее, является хранилище изданий или архив издательства. Для работы с полными документами, какими несомненно являются тексты изданий и их версий, более пригодными представляются объектно-ориентированные БД, в которые могут быть включены различные индексные структуры и методы доступа для объектов определенного типа. В них же проще создать иерархию типов, которая будет отражать специфическую семантику. Сказанное еще в большей степени применимо для изданий, в которых используются фрагменты мультимедиа различных типов и форматов. Возможно также создание комбинированных объектно-реляционных БД.

Хранилище данных – это централизованный интегрированный депозитарий информации. В данном контексте слово интегрированный означает, что удалена избыточная и ошибочная информация, выполнено объединение данных и полученная выверенная информация объединена в новую структуру. Хранилища данных отличаются от производственных баз данных или систем оперативной обработки транзакций (on-line transaction processing – OLTP) своим назначением и устройством. Действительно, OLTP-системы проектируются и оптимизируются для регулярного ввода, извлечения и обновления данных, тогда как хранилища данных – для длительного хранения и периодического извлечения данных. В OLTP-системах находятся текущие данные, подверженные частым изменениям, причем отдельные элементы в момент их ввода в базу данных могут быть неполными или даже неизвестными. В хранилищах же накапливаются данные, не меняющиеся со временем и избавленные от ошибок транзакций.

Основой хранилищ данных служит или реляционная модель, или многомерная схема. В реляционных системах трудно представлять отношения между конкретными объектами. Структуры данных в реляционных БД (РБД) плохо подходят для индексации текста. По этой причине в системы, опирающиеся на РБД, дополнительно включают средства полнотекстового поиска. Стоит, однако, иметь в виду, что такие разработчики СУБД, как Informix, Oracle и IBM, работают над улучшением способов работы с текстом в РБД. В ООБД имеется возможность разработать индексные структуры и методы доступа специально для объектов определенного типа. Кроме атрибутов для объектов можно определить семантику, формализованную в операциях над ними, и создать иерархию типов, которая будет отражать все более и более специфическую семантику.

Например, система, построенная на ООБД, может иметь тип данных content-object с операцией play. На следующих уровнях иерархии могут быть подтипы для объектов со специфическим содержанием: audio-object, video-object, animation-object, и подтипы для специфических форматов: WAVaudio-object, MP3-audio-object, MPEG2-video-object и пр. Независимо можно ввести тип text-index, определив для него операции автоматической индексации и выполнения запросов. В ООБД в число атрибутов могут включаться указатели на индивидуальные объекты – что позволяет легко реализовать упомянутые выше отношения вхождения документов.

Резюмируя, отметим, что ООБД сами по себе имеют достаточный потенциал, чтобы стать законченным решением для системы на серверной стороне. Считается, что ООБД уступают реляционным системам в надежности, работоспособности и возможностях передачи данных, т. е. характеристиках, существенных для масштабируемости. Однако, новый Universal Server компании Informix, в котором объединены "объектно-реляционные" средства Illustra с масштабируемостью самой Informix, сможет преодолеть эти недостатки. Программное обеспечение DataBlade, входящее в Informix Universal Server, хорошо согласуется с рассматриваемой архитектурой издательской системы. Помимо того, в DataBlade имеется возможность определять семантику новых типов данных непосредственно в БД.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11
  • 4.6 Оценок: 5

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации