Мислене древо 2.5 – ієрархічна СУБД для гуманітарної сфери
Жарких М.І.
Інформатизація в гуманітарній сфері має відмінності від інформатизації інших областей людської діяльності – як в суб’єктивному, так і в концептуальному плані. Відмінності суб’єктивного характеру випливають з того, що працівники гуманітарної сфери за своєю базовою освітою далекі від інформаційних технологій. Ми розглянемо детальніше концептуальні відмінності.
На нашу думку, інформатизація в гуманітарній області має такі особливості:
1. Ключовою абстракцією тут є документ, на відміну від трансакції, яка лежить в основі сучасних промислових СУБД.
2. Принциповою особливістю документа є його неструктурованість, чим він відрізняється від документів в інших галузях ІТ.
3. Читання документів рішуче переважає над записом/модифікацією документів.
4. Помилкові документи ніколи не повинні видалятися, а тільки помічатися як помилкові.
5. Типовими для гуманітарної сфери є розпливчасті дати (такі як "початок 12 ст."), невідомі в інших областях ІТ.
Розробляючи програмні продукти для гуманітарних застосувань, треба зважати на ці особливості. Найліпшим прикладом інформаційної технології, пристосованої для гуманітаріїв, є мережа WWW : документо-орієнтоване середовище записів довільної структури, призначене тільки для читання (бракує тільки підтримки розпливчастих дат). Тому можна навести ряд успішних гуманітарних Web-проектів, чого не можна сказати про предметно-орієнтовані бази даних.
Ієрархічний підхід до побудови баз даних, на наш погляд, є принциповим проектним вирішенням, яке має задовольнити вимоги гуманітарної сфери. В основі такої СУБД лежить поняття вершини (node) – абстрактного аналога документа. Вершина зберігає довільну неструктуровану інформацію (або й структуровану, але це не конче – адже порядок є частинним випадком хаосу). Вершини об’єднуються в дерево – однозв’язний граф (тобто між двома вершинами в одному дереві завжди є шлях, і цей шлях – тільки один). Деревовидна структура забезпечується тим, що вершина зберігає вказівник на вершину-господиню (одна тільки коренева вершина дерева не має такого вказівника). Порядок слідування вершин в дереві може фіксуватись вказівниками на сусідні вершини того самого ієрархічного рівня (до одного рівня належать вершини, які мають спільну вершину-господиню) або визначатись динамічно на підставі інформації з самих вершин.
Всі операції над такою множиною даних, природно, також є ієрархічними : пошук, відбір, сортування, збір статистики та інші операції над даними здійснюються за ієрархічними алгоритмами.
Простою мовою, ієрархічна база даних – це застиглий хаос, в якому ієрархічна позиція певної вершини має важливе, а іноді навіть ключове значення, переважаючи зміст вершини. Наприклад, коли ми говоримо "село Іванівка", то для однозначної ідентифікації предмету треба вказати "такого-то району і області". Без вказання ієрархічної позиції інформація про це село знецінюється, бо неясно, де його шукати серед інших Іванівок.
Мислене древо – програма, яка розробляється нами з 1999 року для реалізаці викладених проектних пропозицій. Нині в експлуатації знаходиться версія 2.5, випущена в кінці 2004 року. Ця програма є безкоштовною для кінцевих користувачів. Компактна програма (дистрибутив її займає всього 1.4 Мб) дозволяє створювати і переглядати ієрархічні бази даних. Ієрархія вершин в ній може створюватись вручну (командами "Додати нову вершину", "Додати нову дочірню вершину" та іншими) або автоматично, за допомогою цілого спектру досконалих методів імпорту інформації.
В вершинах бази даних можна зберігати звичайний і збагачений текст (RTF, включно зі вкладеними об’єктами), зображення в більшості поширених форматів, звукові та відеофайли, які підтримуються операційною системою. Програма підтримує трансформацію ієрархічних наборів даних, ієрархічні операції пошуку, відбору, сортування, експорту інформації.
Програма підтримує синхронізацію примірників баз даних, що дозволяє організувати роздільне наповнення великої бази даних і є основою колективної роботи над великомасштабними базами даних.
Програма "Мислене древо" прекрасно озброєна для створення енциклопедій, довідників, словників і каталогів – жанрів, у яких ієрархічний принцип лежить в основі діяльності. Вона також надається для електронних монографій чи журналів.
На веб-сайті "Мисленого древа" можна ознайомитись з анотаціями баз даних, виконаних за нашою технологією (всього це біля 30 назв продуктів, які можна поширювати на компакт-дисках), завантажити дистрибутив програми, прочитати онлайнову версію контекстної допомоги, методичні поради щодо використання програми. Родзинкою сайту є інформація про Мислене древо 3, яке знаходиться в стані розробки.
12.04.2007 р.
Опубліковано : «Документознавство. Бібліотекознавство. Інформаційна діяльність : проблеми науки, освіти, практики / Матеріали 4-ї Міжнародної науково-практичної конференції, Київ, 21 – 23.05.2007 р.» – К. : 2007 р., с. 196 – 197.