Текст книги "Исторические информационные системы: теория и практика"
Автор книги: Динара Гагарина
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 4 (всего у книги 16 страниц) [доступный отрывок для чтения: 5 страниц]
2.1. Принципы, возможности и ограничения различных подходов
В главе 1 уже упоминались два подхода к созданию исторических баз данных и информационных систем – источнико-ориентированный и проблемно-ориентированный. Основанием для разделения служит выбор структуры, от которой отталкивается разработчик. Оба подхода имеют свои преимущества и ограничения, их понимание важно при выборе исходных оснований для проектирования системы. И хотя на практике, как правило, используется смешанный подход, разные модули такой смешанной системы все равно в большинстве случаев строятся на основе одного из двух указанных подходов.
Источнико-ориентированный подходВ случае проектирования источнико-ориентированной системы в основу ее информационной модели ложится структура источника, т.е. имеющиеся в нем разделы и подразделы, рубрики, повторяющиеся элементы и т. п. Такой подход используется, как правило, для однотипных по структуре групп источников или массива одного источника, например для коллекции выпусков газеты или дневниковых записей.
При этом подходе максимально сохраняется источник – его структура, содержание и даже внешний вид. Соответственно, помимо прочего, решается задача сохранения и расширения доступа к историческим источникам.
Наиболее значимым преимуществом источнико-ориентированного подхода является возможность многократного использования созданной системы как источниковой основы для исследований или решения других задач. Эти исследования могут иметь разную тематическую и даже дисциплинарную направленность и относиться к источнику в целом или отдельным его элементам.
Предоставляя пользователю источниковую основу, информационная система при этом не заточена на решение тех или иных типов исследовательских задач или использование определенных методов, что может снизить ее эффективность по сравнению с проблемно-ориентированными системами, описанными ниже.
Ограничением рассматриваемого подхода является серьезное требование к источниковой базе. Данный подход эффективно работает с массовыми источниками или коллекциями источников схожей структуры, но в значительно меньшей степени применим к уникальным источникам и в тех случаях, когда рассматриваемое множество источников разнообразно по форме и структуре.
Источнико-ориентированный подход при разработке информационной системы предполагает обязательный предварительный источниковедческий анализ: формально-логический – для создания информационной модели, предметно-тематический – для определения набора возможных значений атрибутов.
Данный подход был многократно апробирован нами при создании информационных систем на основе коллекций газет. Так, в чистом виде он работает в системе «Пермские губернские ведомости» [Волгирева, Корниенко, Пигалева, 2007; Пигалева, Корниенко, Гагарина, Горбачева, 2008], созданной на основе коллекции одно именной газеты. Однако даже в этом случае наблюдается изменение структуры выпусков, относящихся к раннему (1840-е годы) и позднему (1900-е годы) периодам ее издания, что требовало адаптации и настройки модели информационной системы по мере включения новых периодов [Пигалева, Корниенко, Гагарина, Горбачева, 2008].
Пример еще одного нашего газетного проекта – система «Колчаковские газеты»[21]21
Колчаковские газеты [Электронный ресурс]. URL: http://kolchak.psu.ru (дата обращения: 10.07.2020).
[Закрыть]. Проект объединил в одном ресурсе шесть изданий: «Освобождение России», «Свободная Пермь», «Современная Пермь», «Отечество», «Пермская земская неделя», «Пермские губернские ведомости». Это потребовало разработки единой информационной модели описания и организации выпусков, подходящей для всех перечисленных изданий [Корниенко, Гагарина, Масленников, Пигалева, 2013].
Далее серия газетных проектов была продолжена изданиями периодов Первой мировой войны, Октябрьской революции 1917 г. и Гражданской войны. В это время в Пермской губернии издавался широкий круг газет [Обухов, 2012]; большая их часть представлена в коллекции Пермского краеведческого музея, совместно с которым реализовывались указанные проекты. В основу системы «Пермская губернская периодика: 1914–1922»[22]22
Пермская губернская периодика: 1914–1922 [Электронный ресурс]. URL: http://permnewspapers.ru/ (дата обращения: 10.07.2020).
[Закрыть] положена коллекция из 13 периодических изданий. Конечно, в структуре газет есть различия, но формально-логический и предметно-тематический источниковедческий анализ показал много схожего, что позволило использовать единую структуру описания со сквозной системой рубрик и типов. Таким образом, в ходе расширения коллекции проект перестал быть в чистом виде источнико-ориентированным, однако сохранил такую логику разработки информационной модели.
При проблемно-ориентированном подходе разработка системы и ее информационной модели отталкивается от модели предметной области, ее сущностей и их возможных атрибутов. Исследователь или разработчик системы исходят из интересующей их предметной области, формулируя вопросы и гипотезы исследования, как правило, в ходе анализа состояния разработки темы в научных исследованиях. Затем подбираются источники, которые содержат информацию по этим вопросам. Далее вопросы могут уточняться на основе источников. Информация, которая имеется в источниках по другим вопросам, в значительной степени опускается [Hudson, Ishizu, 2000].
Соответственно, это менее жесткий с точки зрения требований к источникам подход, позволяющий использовать совместно разные по структуре и происхождению источники. На основе извлеченных из них знаний моделируется проблемно-ориентированная система. При этом от источника берется лишь часть его содержания, иногда очень незначительная по объему. Значимым ограничением данного подхода является потеря источника для повторного использования. Созданная таким образом система решает ограниченный, заранее определенный круг задач, что означает выборочное сохранение информации источников.
При этом проблемно-ориентированный подход оказывается более эффективным, чем источнико-ориентированный, при решении конкретно-исторических задач в силу того, что модель системы непосредственно на них заточена [Гагарина, Кирьянов, Корниенко, 2011].
Другие ограничения рассматриваемого подхода – необходимость определения наиболее уместных и важных источников для решения поставленной задачи, что требует анализа огромного массива данных [Hudson, Ishizu, 2000], а также необходимость решения часто возникающей в таком случае проблемы противоречивости данных в источниках.
Проблемно-ориентированный подход был апробирован нами при создании информационной системы «Российские парламентарии начала XX века» [Кирьянов, Корниенко, 2005; Корниенко, 2006].
Смешанный подходБольшинство создаваемых на практике исторических информационных систем имеют смешанный вид, а источнико– и проблемно-ориентированный подходы лежат в основе составляющих систему модулей. Общая схема системы и функциональные модули проектируются, как правило, проблемно-ориентированными, а модули, содержащие источники, – соответственно, источнико-ориентированными. Это позволяет нивелировать недостатки обоих подходов – сохранить источники и позволить использовать их многократно, а также эффективно решать конкретно-исторические задачи на основе созданной системы.
Такой подход использован нами при работе над ресурсом «Парламентская история позднеимперской России»[23]23
Парламентская история позднеимперской России [Электронный ресурс]. URL: http://parliament.psu.ru (дата обращения: 18.04.2020).
[Закрыть]. Для организации источников – в первую очередь стенографических отчетов Государственной Думы и Государственного Совета – использован источнико-ориентированный подход. Для разработки общей модели системы и моделей отдельных разделов и инструментов – проблемно-ориентированный подход. Здесь также используется обобщенная модель исторической системы, которая подробно будет описана в следующем разделе. В итоге ресурс содержит достаточно разнообразную информацию по парламентской истории России, при этом обеспечена универсальность его научного использования [Гагарина, Кирьянов, Корниенко, 2011].
2.2. Модели исторических информационных систем
В этой части исследования выявлены типичные модели исторических информационных систем, предложены их формализованное описание и методика определения типа системы. В условиях многообразия систем и множества оснований их классификации, рассмотренных в предыдущей главе, такая задача совсем не тривиальна. Мы будем решать ее на основе определения основных – наиболее важных и типичных – сущностей систем, а затем – типичных связей между ними. Разработка унифицированных моделей упростит в дальнейшем проектирование и создание исторических ресурсов. С другой стороны, имеющиеся в конкретной системе сущности и взаимосвязи, по сути, определяют ее тип (конкретно-исторические, историографические, источниковедческие, просопографические, историко-географические, историко-библиографические, смешанные системы и др.).
Анализ существующих историко-ориентированных информационных систем, собственный опыт их проектирования и использования, а также теоретические изыскания позволяют выявить в качестве основных следующие типовые сущности (классы) и их атрибуты.
• Персона – историческая личность или любой человек. Для описания могут использоваться биографические, социокультурные, профессиональные атрибуты: Ф.И.О., даты рождения и смерти, пол, социальная принадлежность, профессия, образование, семейное положение и т. д. Внутри класса могут быть подклассы (в терминологии баз данных – сущности) и связи различного типа, т. е. в системе может быть несколько сущностей типа «персона».
• Источник – исторический источник любого типа, используемый в исторической информационной системе как содержательная или структурная основа. Для описания могут использоваться атрибуты из традиционного источниковедения, систем метаописания, а также тематические, хронологические, археографические и любые другие атрибуты. Структура источника (источников) может быть реализована в виде нескольких связанных (как правило, иерархически) сущностей. Кроме того, в системе может быть несколько сущностей для источников различного типа.
• Публикация – научная, справочно-энциклопедическая или иного вида публикация, массив которых используется как содержательная или структурная основа ресурса. Для описания могут использоваться библиографические, тематические, программно-технологические и другие атрибуты.
• Организация (сообщество) – структурная единица, соответствующая организации или институции любого типа (общественная, государственная, политическая, научная, коммерческая, некоммерческая, юридическая и т. д.). Атрибуты описания во многом определяются типом организации, ее структурой и функционированием. Внутри класса могут быть под классы – сущности для организаций различного типа, связанные между собой иерархически или иным способом.
• Событие – происшествие, явление или иная деятельность как факт государственной, общественной или личной жизни, описываемые в системе. Характеризуется в первую очередь пространственно-временными атрибутами. События могут объединяться в цепочки и иерархии, поэтому для задания этого класса также могут использоваться подклассы.
В общем случае указанные сущности могут быть связаны по типу «многие ко многим», что можно визуализировать в виде следующей диаграммы (рис. 2.1).
Помимо указанных исторические информационные системы, конечно, могут содержать и другие основные (для конкретной системы) сущности, например лингвистические единицы, понятийный аппарат и др. Кроме того, система обычно включает множество вспомогательных сущностей, необходимых для описания ее основных классов, – справочников типов (библиотек значений атрибутов).
Как правило, не имеют самостоятельного значения, однако целесообразны для обобщенного выделения еще две сущности.
• Хронология – временная привязка, используемая для классов всех указанных выше типов.
• География – пространственная привязка, также используемая для классов всех указанных выше типов.
Рис. 2.1. Обобщенная модель исторической информационной системы
При работе с хронологическими и географическими сущностями возникают традиционные для истории и исторических баз данных проблемы: неточность информации, изменение географических названий и границ, разнотипность хронологических данных и др. Выделение этих классов в качестве самостоятельных целесообразно не только в силу их важности и универсальности для описания прочих классов, но и в силу того, что эти сущности могут стать структурной основой для организации историко-ориентированной информационной системы (например, ГИС, таймлайны и т. д.). В этом случае хронология и география переходят из статуса описательных атрибутов в самостоятельные основополагающие сущности, к которым привязываются все прочие элементы системы.
Наличие в системе того или иного класса еще не определяет ее тип, значение также имеют:
• количество сущностей одного типа (подклассов) и связи между ними;
• количество экземпляров каждой сущности;
• связи между сущностями различного типа, их наличие и характер;
• характер описания (совокупность и количество атрибутов) каждой сущности.
Важно, что перечисленные типовые классы в общем случае не связаны с конкретной технологией реализации системы и не отражают ее физическую модель. Они одинаково эффективно могут применяться для систем, созданных на основе реляционных или нереляционных баз данных, языков разметки (в том числе семантической) и других технологий.
Чтобы получить типичные модели и унифицированную методику определения типа системы, мы будем составлять матрицы классов. Такая матрица может быть составлена для каждой конкретной системы, класса систем или исторических информационных систем в целом.
Названия столбцов и строк матрицы – типовые классы объектов системы. Также могут быть занесены иные классы (основные для конкретной системы, но не перечисленные среди типовых).
В матрице на пересечении двух разных классов указывается тип связи между ними:
• 0: связь отсутствует (на уровне модели, на функциональном или ином уровне) или отсутствует один из классов;
• 1–1: связь «один к одному»;
• 1 – ∞: связь «один ко многим», т. е. каждый экземпляр первого класса (строка) потенциально связан с несколькими экземплярами второго класса (столбец);
• ∞ – 1: связь «многие к одному», т. е. каждый экземпляр второго класса потенциально связан с несколькими экземплярами первого класса;
• ∞ – ∞: связь «многие ко многим».
В матрице на пересечении строки и столбца, соответствующих одному классу указывается его наличие в системе либо связь между подклассами внутри одного класса:
• 0: класс отсутствует;
• 1: класс присутствует и нет подклассов;
• если в системе есть подклассы данного класса, то элемент заполняется по аналогии с пересечением двух разных классов.
На основе разработанной методики составления матрицы классов могут быть заданы типичные модели исторических информационных систем различного типа; осуществлены описание, сравнение и анализ ресурсов.
Описанная методика позволяет дифференцировать обычные ресурсы, состоящие из нескольких не связанных на уровне модели, как правило, статичных страниц, от историко-ориентированных информационных систем. Матрица статичного ресурса будет представлена единицами на главной диагонали и нулями в остальных ячейках.
Анализ матрицы позволяет определить центральную сущность системы – ту, которая имеет в соответствующей строке и столбце наибольшее количество связей «один ко многим» и «многие ко многим».
Рассмотрим примеры заполнения матрицы классов для систем различных типов (незаполненные элементы могут принимать любые значения).
Пример: фактографическая система, в которой к каждому событию привязаны источники, публикации, персоналии, организации и события имеют подсобытия (табл. 2.1).
В этом примере в незаполненных ячейках могут стоять значения 0, если источники, публикации, персоналии и организации не связаны между собой.
Фактографическую систему можно изобразить в виде обобщенной диаграммы (рис. 2.2). Здесь событийная часть представлена несколькими сущностями, связанными между собой (это могут быть вложенные события, цепочки событий и т. п.).
Модель фактографической системы может также содержать прочие типичные или специфические сущности.
Таблица 2.1. Пример матрицы классов для фактографической системы
Рис. 2.2. Модель фактографической системы
Пример: просопографическая система (табл. 2.2).
Таблица 2.2. Пример матрицы классов для просопографической системы
ER-диаграмма просопографической системы в обобщенном виде представлена на рис. 2.3. Здесь центральной сущностью является персона. Другие типичные или специфические сущности могут присутствовать в модели историко-ориентированной информационной системы и соотноситься с персоной различными связями (на рисунке все связи имеют тип «многие ко многим»).
Рис. 2.3. Модель просопографической системы
Другими вариантами систем, когда одна из сущностей является центральной и к ней привязываются остальные, являются источнико-ориентированная и геоинформационная системы. Их ER-диаграммы изображены на рис. 2.4 и 2. 5.
2.3. Системы на основе реляционной модели
Реляционная модель преобладает среди историко-ориентированных информационных систем на протяжении многих лет. Технологической базой систем на основе реляционной модели являются реляционные базы данных и реляционные системы управления базами данных (СУБД), которые представлены на рынке большим разнообразием.
Рис. 2.4. Модель источнико-ориентированной системы
Рис. 2.5. Модель исторической ГИС
Популярность реляционной модели связана как с распространенностью реляционных СУБД, так и с универсальностью и относительной простотой данного типа моделей. «Теоретическая аккуратность, адаптивность и простота использования способствовали росту доминирования в последние годы систем реляционных баз данных и реляционного мышления», – пишут Ч. Харви и Д. Пресс в 1996 г. [Harvey, Press, 1996]. Реляционная модель и ее трансформации продолжают доминировать до сих пор.
В разделе 1.3 мы уже обращались к базам данных, в том числе реляционным. В этой части издания реляционная модель, ее возможности и ограничения будут рассмотрены в аспекте создания исторических информационных систем.
Напомним, что реляционная модель представлена набором отношений (relation), традиционно визуализируемых в виде двумерных таблиц. Наполнение базы данных представляется заданием значений атрибутов в кортежах отношений. Порядок следования кортежей (записей, экземпляров, строк таблицы) значения не имеет. Записи могут быть отсортированы по любому атрибуту. Кортежи (записи) не имеют связей между собой, также нет связей и внутри одного кортежа. Значения атрибутов (признаков) экземпляров образуют столбцы реляционной таблицы. Все значения одного атрибута относятся к одному типу данных. Список поддерживаемых типов данных определяется возможностями конкретной СУБД. К реляционным базам данных предъявляется ряд требований, в частности целостности и отсутствия избыточности.
Наряду с реляционной моделью данных, в том числе для информационных систем, используются иерархическая и сетевая модели, которые значительно менее распространены. Кроме того, развиваются постреляционные модели – объектно-ориентированные, объектно-реляционные базы данных и др.
Реляционные модели наиболее эффективны при создании проблемно-ориентированных систем, а также исторических информационных систем на основе структурированных и массовых источников. При наличии естественной однотипной структуры у массива источников каждый из них становится экземпляром основного отношения (таблицы) базы данных, структурные элементы образуют атрибуты отношения. Если массив источников имеет естественную иерархию, то ее уровни образуют набор отношений, связанных между собой (например, периодические издания, выпуски этих изданий и отдельные публикации). В качестве дополнительных (справочных) отношений могут использоваться различные элементы метаописаний источников: автор, место хранения, место издания, рубрикация, типология и др.
При проблемно-ориентированном подходе к созданию информационной системы типичными отношениями модели являются: персона, источник, организация, публикация и событие. Более подробно они были рассмотрены выше.
Реляционные базы данных имеют ряд ограничений, в основном связанных с жесткой структурой модели. Так, все строки (записи) должны иметь единый набор атрибутов, модель строго определена заранее. Нормализация модели зачастую порождает сложную структуру с дополнительными таблицами и связями. Ограничения реляционной модели при создании историко-ориентированных информационных систем обусловлены как указанными строгими требованиями этой модели, так и спецификой исторических данных, в частности преобладанием слабоструктурированных, неунифицированных данных со сложными внутренними связями [Schreibman, Siemens, Unsworth, 2008].
К наиболее типичным проблемам исторических реляционных баз данных относятся следующие.
Реляционная модель навязывает структуру данных на ранней стадии исследования, что в большинстве случаев неуместно для истории. В результате мы вынуждены данные адаптировать к структуре, а не структуру к данным, что было бы более логичным. Исторические источники не всегда легко укладываются в реляционный формат связанных двусторонних таблиц, а внутренние связи и отношения между элементами не всегда прозрачны [Harvey, Press, 1996].
Реляционные СУБД не ориентированы на работу с большими массивами текстов, рисунками, аудио– и видеоисточниками. Поскольку большинство исторических источников являются нарративными и представлены слабоструктурированными текстами, использование реляционной модели потребует либо искусственного расщепления, фрагментации источника, либо использования «слабой» модели с небольшим набором атрибутов, главным (или даже единственным) из которых будет текст источников. Даже если выбранная СУБД поддерживает возможность хранения в ячейке таблицы текстов большого объема, это не является эффективным. Фрагментация источника, его метаописание или выборочное извлечение частей текста вместо хранения его целиком вносят элемент субъективизма и могут затруднять повторное использование источниковой базы. Другая проблема текста – изменяемые правила орфографии и грамматики, ошибки и опечатки в источниках.
Даже в случае использования структурированных источников проблемой являются неунифицированные, значительно отличающиеся по объему и формату записи данных. Историкам сложно иметь дело с полями фиксированной длины, при этом значения полей часто вообще отсутствуют либо поля имеют множественные значения. Например, в пределах одной метрической книги могли использоваться разные способы записи даты рождения и разная степень детализации информации о родителях.
Распространенной проблемой реляционных исторических баз данных является работа с датами. Это связано с использованием даже в пределах одного источника разных хронологических систем, традиций записи дат, религиозных календарей, а также с неполнотой данных. Для разных событий в пределах одной базы данных может быть известна точность до века, года, месяца, дня или часа. Причиной тому может быть как неполнота исторических данных, так и специфика разных типов процессов и явлений. Так, дата начала экономического кризиса редко может быть определена с точностью до дня, для других же событий даже дневная точность будет недостаточной. Особенно остро это ощущается при создании ресурсов на основе больших хронологических периодов и при объединении в одной базе разнотипных событий. Решения этой проблемы существуют, но все они имеют недостатки – необходимо либо отказаться от точности, либо вводить для каждой даты несколько полей, порождая содержательную избыточность данных.
Еще одна типичная особенность – изменение топонимов и границ территорий (физическое и политическое).
Несмотря на указанные ограничения, реляционные модели и СУБД часто используются при создании историко-ориентированных информационных систем, однако одновременно развиваются альтернативные варианты.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?