Два дні у цифровому гуманітарному Львові
Микола Жарких
4 – 5 жовтня 2019 року я на ласкаве запрошення Українського католицького університету (УКУ) брав участь у роботі семінару з цифрової гуманітаристики, який проходив на базі університету.
3 жовтня 2019 р.
Вперше у житті покатався на поїзді Інтерсіті. Враження дуже приємне. Тихо (зустрічних поїздів не чути), покійно (не трясе, тільки погойдує). Всередині вагон нагадує літак (3 крісла з одного боку проходу і 2 – з другого; мабуть з цієї причини провідниці тепер звуться стюардесами). Перевірка квитків проводиться під час руху поїзда (скануються QR коди). Розвозять чай та каву, а нетерплячі самі ходять у вагон-буфет і несуть звідти те, що вподобали (це користується досить великою популярністю). Пасажири в поїзді смартфоняться і ноутбучаться. Одна зупинка в Коростені і наступна – уже на Підзамчу у Львові.
Я виїжджав з Києва при температурі +23, а у Львові було вже +8. Але у вагоні працював кондиціонер, і температура весь час була комфортною.
Через 5 годин я був уже у Львові, котрий зустрів нас цілком розкопаною привокзальною площею і натовпом автомобілів. Я розумію, що це було зроблено не спеціально заради мене і не спеціально заради згаданого семінару (до речі, два моїх сусіди теж їхали на якийсь інший ІТ-семінар), але контраст між зручним вагоном і засипаною щебенем стежкою поміж парканами на площі мав місце.
Далі я наводжу повний текст програми семінару і подаю свої враження, що устиг зрозуміти.
From Artes liberales to Artes digitales:
Ukrainian and Slavic Studies International Seminar
4 – 5 October 2019, Lviv, Ukrainian Catholic University
Organising Committee
Olena Haleta (UCU)
Yuliya Ilchuk (Stanford University)
Vasyl Starko (UCU)
Andrii Yasinovskyi (UCU)
Dmytro Yesypenko (Taras Shevchenko Institute of Literature, NASU)
Friday, 4 October
The Metropolitan Andrey Sheptytsky Center (29а Stryiska str.) Conference Hall (Auditorium 002)
Український католицький університет – цілком новий навчальний заклад, який прецінь має у Львові уже три майданчики. На майданчику між вулицями Стрийською і Козельницькою, який одним боком прилягає до верхньої границі Стрийського парку, розміщено дві церкви і три корпуси (четвертий ще будується).
Семінар проходив у корпусі, де розміщено Центр ім. А. Шептицького та бібліотеку УКУ. Будинок не тільки ззовні, але і всередині виглядає дуже сучасним, розумно розпланованим і зручним для роботи.
12.30 – 13.00 Registration
13.00 – 13.15 Welcome and opening remarks – Andrii Yasinovskyi, Dean of the Humanities Faculty, Ukrainian Catholic University
Професор Ясіновський виступив англійською мовою, і тим задав тон усьому першому дню – всі виступали англійською мовою, і нею ж йшло спілкування (запитання, виступи, навіть розмови у кулуарах). Відчувається, що англійська мова – своя в УКУ, тут її добре знають і вільно користуються. Пан Андрій процитував 4 рядки з Шекспіра, з яких я укотре переконався, що мова Шекспіра зовсім не схожа на те, що у нас відомо під назвою «англійська мова»…
Треба відзначити, що професор Ясіновський взяв участь у семінарі не з посадового обов’язку, а таки з реального інтересу до теми. Декан – чоловік досить зайнятий, але він знайшов змогу два дні відвідувати засідання і в кінцевому слові сказав, що всі доповіді були йому цікаві. З приємністю це відзначаю.
13.15 – 15.00 Open keynote lecture
Toward a Common Model for Digital Slavic Studies: Challenges and Solutions – Yuliya Ilchuk, Assistant Professor of Slavic Languages and Literatures, Stanford University
У цій лекції я устиг ухопити три блоки питань:
1, успіхи і завдання автоматичного порівняння різних авторських версій літературних творів (на прикладі двох редакцій повісті М. Гоголя «тарас Бульба»).
2, кластерний аналіз змісту реалістичного роману (на прикладі роману Л. Толстого «Анна Кареніна»). Це було тим більше цікаво, що зв’язки між персонажами визначались автоматично на підставі аналізу змісту (за одиницю зв’язку було узято одну розмову між персонажами). Мені це було більш-менш зрозуміло, бо я й сам бавився кластерним аналізом текстів літописів, але ж я не є ніяким гуманітарієм, і наскільки отаке цифрове, математичне літературознавство може прижитись, скажімо, в тому ж Інституті літератури НАНУ – велике запитання.
3, організаційні питання, забезпечення тривкості (sustainability) існування пропонованих цифрових проектів. Ця тема була однією з наскрізних в усьому семінарі, і мене воно торкалось, може, найбільше з усіх учасників, котрі всі як один були молодші за мене (отак несподівано опинився якимось аксакалом…).
Коли я вмру, на світі залишиться
Сто сорок гривень на рахунку Водафон –
це, безперечно, потішає, але що буде з моїми веб-проектами?
Слід відзначити, що послухали пані Юлію зібралось досить багато студентів, котрі задавали запитання і виявляли інтерес до теми.
У проміжок між кінцем лекції і обідом для нас провели екскурсію приміщенням Центру. На 5-у поверсі знаходиться адміністрація УКУ (тимчасово, до побудови нового корпусу; потім цей поверх віддадуть бібліотеці).
4-й – 2-й поверхи займає бібліотека. Вона досить молода, почала формуватись у 1992 році після відкриття УКУ, але уже встигла розростись, так що розподілена між двома приміщеннями. Вона зовсім не схожа на бібліотеки радянської традиції, завданням яких було максимально ізолювати читачів від книжок, щоб вони, бува, не витягнули з полиць якоїсь крамоли. Тут, навпаки, організовано відкритий доступ до стелажів з книгами, а книги розставлено за систематичним принципом. Ніяких вам УДК чи ББК – цих реліктів юрського радянського періоду; замість них стоять закладки з літерами DA, DB… DF… які позначають відповідні рубрики. Працівники УКУ казали, що так прийнято у Європі, і дуже тішились (з повною підставою), що мають тепер таке у себе.
Виняток з вільного доступу становить відділ рідкісної книги, котрий відділено суцільною скляною стінкою, туди заходять тільки бібліотекарі.
Учасники семінару дарували в бібліотеку свої видання, я подарував компакт-диск електронного видання «Леся Українка: енциклопедія життя і творчості».
Слід відзначити, що на всіх поверхах є багато зручних стільців і столиків, за якими сиділи студенти зі своїми ноутбуками і працювали. Теж не зовсім звичне явище для мене. В радянському університеті, де я вчився, коридори надаються хіба що для стройової підготовки, але ніяк не для затишного сидіння.
15.00 – 16.00 Lunch break
Обід для учасників семінару було організовано у студентській їдальні УКУ в сусідньому корпусі. Їдальня відкрита для всіх, але студенти УКУ мають знижку в 50 %. Учасників семінару (включаючи декана) нагодували коштом УКУ.
16.00 – 17.40 Session I
Chair Olena Haleta
16.00 – 16.25 Jarmila Maximová, Marek Debnár (Constantine the Philosopher University in Nitra) Launching Digital Humanities Approach to the Traditional Humanities Study Programmes and Research at the Faculty of Arts, Constantine the Philosopher University in Nitra
Доповідь дуже змістовна і присвячена чисто організаційним питанням. В першій частині пані Ярміла розповіла, що собою являє їх факультет мистецтв (власне – гуманітарний факультет нашої класифікації). Він має 3 000 студентів, друкує 14 фахових періодичних видань, 4 з них включено до SCOPUS. Навчання за спеціальністю «історія мистецтв» у вузькому сенсі все провадиться англійською мовою, що дозволяє залучати як студентів, так і професорів з інших країн.
Друга частина доповіді була присвячена плану організації Центру цифрової гуманітаристики в рамках цього факультету. План мені здався всеохопним і дуже добре обміркованим, так що можна буде скористатись з нього для проектування аналогічних закладів у нас. Для цього проекту буде виділено грант Міністерства освіти, так що і з боку вищої адміністрації та фінансів ініціатива виглядає добре забезпеченою.
Україна більша за Словаччину, але чи побачимо ми у себе щось подібне?
Чи доживе моя душа до того?
16.25 – 16.50 Oles Dobosevych (Ukrainian Catholic University) On Recognition of Cyrillic Text
Задача розпізнання рукописного тексту все ще залишається важкою для комп’ютерних систем. Розпізнання мови, якою написано текст, становить значну проблему, особливо якщо текст короткий. Також якщо тло тексту запорошене – це сильно заважає розпізнанню. Доповідач окреслив ті нові підходи до зазначених питань, які він розробляє. Приклади текстів, які піддано аналізу – це сучасні рукописні тексти та рекламні оголошення.
Звичайно, було би дуже цікаво випробувати нові підходи для розпізнання старих, історичних рукописних текстів.
16.50 – 17.15 Mykola Zharkikh (Independent scholar) Ukrainian Literary Classics. The Experience of WWW Editions
Я говорив про свій досвід е-видань, що стало для мене останніми роками неначе постійною темою для розмов. Новим було те, що я говорив англійською мовою, але у звичному для себе стилі генерації тексту на ходу (ніколи не читаю наперед написаного тексту під час виступів). Не обійшлося, ясна річ, без класичних «б-е-е» та «м-е-е», але їх ми бачили ще в якомусь вірші Гесіода (йому, виходить, можна?).
17.15 – 17.40 Dmytro Yesypenko (Taras Shevchenko Institute of Literature, NASU) From Printed to Digital Wor(l)d: Scholarly Editing of Slavic Literatures
Доповідь мала характер огляду – що зроблено в плані е-видань у різних слов’янських країнах. Найкраще справа поставлена у Словенії – там уся літературна спадщина цілого народу, від 10-го до 20-го століття, вже виставлена в цифровому вигляді на одному сайті.
Необхідно використовувати досвід західних проектів такого плану, запроваджувати певну стандартизацію типів видань (скани / символьні тексти / тексти з коментарями і т. д.). Цікавим було би використання технологій XML + XSLT, які уже досить широко використовуються. Це відкрило би шлях до об’єднання ресурсів різного походження (з чим не можна не погодитись).
Юлія Ільчук нагадала, що треба передбачити видання різних варіантів текстів одного твору, з чим також слід цілком погодитись (але на сьогодні така варіативність текстів реально доступна тільки на сайтах, зроблених мною. Ну, якщо сам себе не похвалиш…)
Після закінчення засідання кулуарна розмова продовжилась за чаєм / кавою, зокрема, домовлялись про обмін матеріалами, котрі становлять професійний інтерес для учасників.
Saturday, 5 October
The Metropolitan Andrey Sheptytsky Center (29а Stryiska str.) Park Auditorium # 112
10.00 – 11.40 Session II
Chair Yuliya Ilchuk
10.00 – 10.25 Oksana Tyshchenko (Institute of Ukrainian Language, NASU) Archival Lexical Card Index: Digital Format
Історія українського словникарства і навіть ще вужче – історія картотек словників – відбиває драматичну політичну історію України. В цьому переконається кожен, хто познайомиться із доповіддю пані Оксани.
Картотека словника української мови, яку накопичували Агатангел Кримський та Сергій Єфремов і котра були використана для випуску трьох томів «Російсько-українського словника» (4-й том випустити не встигли через репресивну кампанію СВУ) – ця картотека була профільтрована з вилученням прикладів із творів новоспечених «ворогів народу», а потім взагалі знищена. Після 1933 року накопичення картотеки почалось заново, і ще раз заново після 1945 року.
Але серед великої (на 6 млн. карток) сучасної картотеки Інституту мовознавства було виявлено близько 350 000 карток, які походили з картотеки Кримського і Єфремова. З їх використанням можна частково відновити втрачений (знищений у наборі) 4-й тому словника.
Зараз ця історична колекція карток повністю відсканована, але тільки бл. 2 000 їх переведено у символьний вигляд. Це переведення ускладнюється тим, що структура картки дуже варіативна, є багато дописок та закреслень, але така робота ведеться.
Важливо відзначити, що ця робота була підтримана грантом Українського культурного фонду.
(На мій мало компетентний погляд ІТ-задача була ускладнена спробою втиснути варіативний текст у жорстку структуру полів. Можливо, простіше було би набрати їх вільним текстом, а потім пройтися по цьому тексту з якоюсь семантичною розміткою.)
10.25 – 10.50 Mariia Shvedova (Kyiv National Linguistic University) General Regionally Annotated Corpus of Ukrainian Language: Composition, Structure, and Functionality
Пані Марія відзначила, що існує кілька корпусів української мови, але розроблений нею ГРАК є найбільш досконалим. Важливо, що він використовує програмне забезпечення, розроблене британськими фахівцями, і воно виявилось досить гнучким, щоб ним можна було скористатись для кириличного словника. Кожне слово, занесене до словника, має прив’язку до морфологічних ознак, до автора (і через нього – до певного часу та регіону) або до місця видання (для періодичних видань, матеріали яких також увійшли до корпусу). Словарна стаття містить позначення (розмітку) за стилем, темою, жанром твору, за мовами (для перекладів з інших мов на українську), роками і правописом (це теж дуже важливо, в корпусі представлено 2 500 текстів желехівкою).
Про ГРАК можна сказати те саме, що про славну візантійську енциклопедію : «громіздке і складне у використанні, але добре обмірковане, міцно збудоване і корисне знаряддя».
10.50 – 11.15 Olha Zahorodnia (National Academy of Statistics, Accounting and Auditing) STIMULUS: An Online Tool in Associative Linguistics
Про існування асоціативної лінгвістики я не мав ніякого поняття, тому мені дуже важко було збагнути, в чому суть такого підходу. Наскільки я устиг зрозуміти, предметом вивчення є ряди слів, котрі асоціюються в умі учасників опитування із базовим словом, заданим дослідником. При вивченні цих рядів враховуються позитивні та негативні зв’язки між словами. І всі ці ряди асоціацій можуть бути прив’язані чи до однієї особи, чи до групи осіб, чи навіть до цілої нації. Автор пропонує створити загальну базу даних таких асоціацій, котра відкриває великі перспективи не тільки для суто-лінгвістичних цілей, але також і для досліджень способу мислення особи / групи / нації, і для практичного застосування в рекламній справі, в управлінні бізнесом та в інших напрямках.
11.15 – 11.40 Vasyl Starko (Ukrainian Catholic University) Digital Projects and Tools of the r2u Group
На відміну від попередніх бесідників цього дня, котрі говорили по-українськи, пан Василь виступив по-англійськи (для збереження мовного балансу, як він сам висловився). Він трохи відкрив таємницю походження наших онлайнових двомовних словників – та . Їх розробила та підтримує група волонтерів, серед яких є і програмісти, і філологи. Наслідком такої взаємодії стала досконала система, коли кожен словник, доданий до бази даних, з одного боку, зберігає свою індивідуальність, а з іншого – бере участь у загальному пошуку.
Також для цих сайтів розроблена досконала система , тобто канонічних форм слів, з яких за правилами граматики утворюються словоформи. Всього словники мають у своїй базі 388 тисяч лем, з яких утворюється 5.5 млн. словоформ – а я взагалі вперше почув про такий підхід до словникарства!
Окрім того, група розробила набір інструментів для граматичного аналізу текстів. Це програми з відкритим кодом, отже, бажаючі (і тямучі) можуть приєднатись до їх вдосконалення.
Взагалі словникарська секція була представлена на семінарі найбільш потужно, і словникарям справді є чим похвалитись.
11.40 – 12.10 Coffee break
12.10 – 13.50 Session III
Chair Dmytro Yesypenko
12.10 – 12.35 Oleg Sobchuk (Max Planck Institute for the Science of Human History) Trends versus Patterns: Two Types of Historical Explanation in the DH
Дуже шкода, що доповідач не зміг приїхати. Це була єдина доповідь з цифрової історії, хоча там є про що поговорити (ну і я сам маю особистий інтерес до цього напрямку).
12.35 – 13.00 Anastasiia Cherednychenko, Vladyslav Pioro (National Kyiv-Pechersk Historical and Cultural Preserve, NGO ‘Ukrainian Center for Museum Development’) Specialization of the CIDOC CRM Ontology for Sources on the History of the All-Ukrainian Museum Town
Мені важко про це писати, тому що з паном Владиславом ми знайомі чи не 20 років, і завжди були у дружніх стосунках. Але пригадавши Платона та істину, я подумав: якщо я цього не скажу, то ніхто авторам того не скаже…
Доповідь мені не сподобалась. Не ясно мені, чому зроблена одна доповідь, а не дві, адже спільного між частинами, про які говорили співавтори, не було нічого.
Пані Анастасія розповідала про драматичну долю колекції Всеукраїнського музейного містечка, котра у переважній частині знищена, а вціліле розпорошене по різник музейних та інших збірках. Поставлена задача – відновити у віртуальному вигляді вціліли окрушини цієї колекції – вважаю дуже слушним і потрібним. Але як це зробити? Чи справді тут не можна обійтись без «концептуального моделювання»?
Думаю, що справу можна було би вирішити простіше – відвести в проекті «Прадідівська слава» куточок для Всеукраїнського музейного містечка як підрозділ розділу «» і там розмістити все, що удасться зібрати. Чому б не спробувати?
Така сама ситуація зі щоденниками П. М. Попова. Я теж дуже поважаю цього дослідника і навіть склав його , тому мене не треба переконувати у важливості цього джерела. І які з ним можуть бути проблеми? Якщо ці щоденники справді цінні, їх треба набрати і опублікувати – хоча б і на «Мисленому древі». І знову для цього ніякий CIDOC ніже CRM не може ані допомогти, ані завадити.
Пан Владислав розповідав про цікаву модель опису музейних предметів CIDOC-CRM. Проблема в тому, що я цю доповідь у різних варіантах чув уже кілька разів, але ніколи не міг зрозуміти – чи є хоч десь у світі хоч один приклад реально працюючої системи, котра б грунтувалась на цій моделі? Не побачив я такого прикладу і зараз, тільки діаграму класів. Я теж у свій час розробляв об’єктні моделі для гуманітарної сфери «і знаю, як устроєні дівчата» (говорячи словами класика). Але маленька відмінність полягає в тому, що мої об’єктні моделі реально працюють – на всіх тих сайтах, які я розробив і підтримую.
Далі доповідач пропонував вживати німецьку програму (не встиг запам’ятати її назву), котра повинна перетворювати декларації класів на форми введення / редагування даних для примірників цих класів. Знову пригадав класика:
Якусь німецьку, не тутешню…
Чи справді це така складна річ, що треба було йти по неї аж до Німеччини? Як автор однієї такої програми можу твердо сказати – весь потрібний для цього код не перевищує й 15 кілобайт і працює він у мене з 2010 року без ніяких змін (зовсім не бачу потреби вдосконалювати досконале). І процесор класів у «Смереці» здатен підтримувати не тільки ту ієрархію класів, котра потрібна мені для моїх видавничих проектів, але й взагалі будь-яку ієрархію класів. Всієї роботи по реалізації класів CIDOC я бачу на півтора дні, ніяк не більше. А тут минає рік за роком, а реально працюючого протитипу системи як не було, так і нема.
Давно відоме просте правило: коли хто хоче щось зробити – бере і робить. Тут я щось не побачив його застосування.
13.00 – 13.25 Orysia Vira (Ukrainian Catholic University) Lviv Street Names from the 14th–18th Centuries in a Geoinformation System
Доповідач – ще студентка УКУ, але зробила надзвичайно корисну річ – склала довідник згадок назв вулиць Львова на підставі великої кількості джерел від 1382 до 1772 року. Ці згадки приєднані до географічної карти і тепер можна побачити всю палітру перейменувань кожної вулиці. В процесі роботи було виявлено і переконливо спростовано помилкові пояснення назв деяких вулиць, вигадані істориками 19 – 20 ст.
Безперечно, було би дуже добре, якби складена база даних стала доступною для читачів у повному обсязі. Мені особисто така інформація потрібна, як кажуть, «на позавчора». Безперечно, ця робота знайде багато інших застосувань, а розроблена методика повинна стати загальним надбанням, щоб можна було по такій схемі опрацювати й інші історичні населені пункти України.
«Вишенькою на торті» цієї доповіді стала картосхема повісті Івана Франка «Герой поневолі». Я склав у свій час аналогічну карту для повісті «», тому мені приємно, що в мене знайшлись послідовники (які, здається, і не знали про моє існування).
13.25 – 13.50 Petro Sarkanych (Institute for Condensed Matter Physics, NASU; Coventry University) Network Analysis of Bylyny
Доповідь була присвячена кластерному аналізу персонажів билин київського циклу. відносини між героями билин прості: вони або дружать, або ворогують, і це спрощує моделювання. Доповідач зазначив, що така методика уже застосовувалась для аналізу «Іліади», «Беовульфа», ісландських родинних саг. Отже, результати роботи над билинами можна буде порівняти з іншими епічними циклами. Цікаво відзначити, що пан Петро за основним фахом – фізик-теоретик і займається статистичною фізикою. Так що і від нас, фізиків-теоретиків, може бути якась користь у цифровому господарстві.
13.50 – 14.20 – Final discussion, closing remarks
Тут я занотую тільки свої власні тези, висловлені під час цього вільного говоріння.
Що було доброго на семінарі:
1, люди, котрі цікавляться цифровою гуманітаристикою, в Україні є;
2, вони мають певні конкретні успіхи в різних ділянках такого обширного поля, як цифрова гуманітаристика.
Які недоліки показав наш семінар:
3, дуже велику розпорошеність ентузіастів цієї роботи, слабку обізнаність із результатами аналогічних проектів;
4, слабку обізнаність зі світовим досвідом; часто вживаються саморобні вирішення там, де варто було би скористатись уже апробованими підходами;
5, відсутність інституційної підтримки цих робіт і як наслідок – невпевненість у тривкості здобутків, неможливість створення шкіл та регулярного обміну досвідом, підготовки фахівців у галузі цифрової гуманітаристики. Без усього цього вказаний напрямок досліджень залишиться предметом самодіяльності окремих ентузіастів.
Хочу вірити, що УКУ знайде можливість і надалі бути майданчиком для такого цифрового гуманітарного спілкування.
Поворот додому
Вдруге у житті їхав поїздом Інтерсіті. Враження дещо інакші.
1, поїзд йшов із Перемишля і спізнився прибуттям до Львова на 33 хвилини. Це йому так сподобалось, що на шляху до Києва він запізнився іще більше – на 42 хвилини. Я собі думав, що приїду до Києва о 23:08 і спокійно зайду у метро, котре закривається опівночі. А приїхав о 23:50 і уже малював собі величну картину, як я буду плуганитись додому нічним містом. На щастя, встиг ускочити в метро в останню мить перед закриттям, але тут навіть Укрзалізниця не змогла нічого зробити, хоча дуже старалась такого не допустити.
2, поїзд іде замість 5 годин – номінально 7, фактично ще довше. В українській геометрії віддаль від пункту А до пункту Б зовсім не обов’язково дорівнює віддалі від пункту Б до пункту А.
3, власне, поїзд справді йшов південним шляхом, із зупинками у Тернополі, Хмельницькому та Вінниці. Замість швидкісного поїзда під назвою Інтерсіті їздить звичайна міжобласна електричка (щоправда, підвищеного комфорту, тут слід віддати належне).
4, у вагоні було табло зі спідометром, на якому я тільки один раз на кілька секунд побачив 160 км / годину – показник, який справді личить швидкісному поїзду. Ще один раз десь упродовж однієї хвилини швидкість досягла 140 км / годину, а переважно коливалась від 90 до 120 км / годину. Більше, ніж у старорежимної радянської електрички, але до швидкісного поїзда у загальноприйнятому розумінні дуже далеко.
5, на відміну від північного маршруту тут була досить відчутна тряска (при меншій швидкості). Вона зникла тільки після Козятина, по мірі наближення до Києва. Мабуть, близькість начальства заспокійливо діє на вагони.
6, в нашому вагоні туалета не було зовсім, а в сусідньому він не працював. Довелось робити експедицію аж у третій вагон.
Висновок: все було гірше, повільніше і… дорожче (квиток до Львова північним маршрутом коштував 274 грн, а зворотній південним маршрутом – 324 грн). Якщо десь додаткову плату беруть за комфорт, то у нас – за дискомфорт.
Але ці побутові дрібниці ніяк не впливають на дуже позитивне враження від семінару.
6 жовтня 2019 р.