Облік обсягу і вартості електронних видань
М.І.Жарких
Проблема обліку обсягу електронних видань
Принципи обліку обсягу електронних видань
Можливості практичного використання
Облік обсягу паперових видань
Обсяг видань на паперових носіях обраховується в авторських аркушах. Згідно діючих в Україні визначень, «авторський аркуш — умовна одиниця виміру обсягу текстового та ілюстративного матеріалу літературного твору, що є основою для обліку праці автора, укладача, рецензента тощо. Один авторський аркуш дорівнює 40 тис. друкованих знаків прозаїчного тексту (враховуючи цифри, розділові знаки, проміжки між словами), чи 40 кілобайтам комп’ютерного тексту (разом з проміжками), чи 700 віршованим рядкам, чи 3 000 кв.см площі ілюстративного матеріалу на сторінках видання».
Це визначення породжує масу запитань, на які немає ніяких пояснень і які розв’язуються усталеною видавничою практикою без письмової фіксації. Щоб зрозуміти особливості цієї одиниці обліку, слід згадати, що походить вона з доби панування друкарських машинок (настільних механічних друкарських пристроїв зі шрифтом Courier New 12 пунктів). Друкуючи на сторінці формату А4 зі «стандартними» полями через два інтервали, в рядку розміщувалось 60 знаків, на сторінці – 30 рядків. На сторінці, таким чином, розміщувалось максимум 1800 знаків. Щоб набрати 40 тис. знаків, треба 22.2 таких сторінки. Традиційно вважається, що авторський аркуш – це 24 сторінки такого друку (я думаю, це збільшення відображає типовий відсоток неповних рядків).
Далі, при підрахунку обсягу поетичного тексту прийнято ті самі 24 сторінки по 30 рядків (разом 720 рядків, які заокруглено до 700).
Далі, для обліку ілюстрацій авторським аркушем прийнято 3000 кв.см (мені невідомо, звідки взялося таке значення). Визначення Книжкової палати України містить важливе доповнення – мається на увазі площа змакетованих ілюстрацій, а не висхідного ілюстративного матеріалу (традиційні визначення авторського аркуша цього нюансу не пояснюють).
Цих визначень цілком достатньо для того, щоб уявити собі обсяг книги, яку ви купуєте, наприклад, в інтернет-магазині. Скажімо, якщо обсяг книги – 5 авторських аркушів, то це скоріше за все буде малоформатне видання до 100 сторінок, а якщо 50 аркушів – треба готувати на полиці місце для важкої «цеглини».
Проблема обліку обсягу електронних видань
Традиційного визначення авторського аркуша не достатньо для обліку обсягу електронних видань. Можна тільки вітати пропозицію Книжкової палати встановити авторський аркуш комп’ютерного тексту в 40 кілобайт (тобто 40960 знаків – а чому комп’ютерний аркуш на 2.5% більший за традиційний ?), але й тут є нюанси.
40 Кб – це 40960 знаків в кодуванні ASCII (1 байт на символ), але тільки 20480 знаків в кодуванні Unicode-16 (2 байти на символ); в кодуванні UTF-8 вживаються як однобайтові, так і двобайтові символи, тому число знаків в 40 Кб буде лежати між 20 і 40 тис. Порожній документ MS Word займає 19 Кб, не маючи жодної літери – скільки тут аркушів ? Я думаю, визначення неявно припускає формат plain text в кодуванні ASCII, але цей приклад виразно показує, що при розрахунках обсягів не можна спиратись на фізичні характеристики файлів.
«Разом з проміжками» – отже, з переводами рядків ? А перевод рядка часто кодується двома байтами (CR + LF) – вважати його двома знаками чи одним ? Відступ рядка, заданий кількома символами табуляції – це кілька знаків ? чи один пробільний знак ? А відступ рядка, заданий іншим засобом форматування – це знак чи не знак ?
HTML коди в тексті – це знаки (пробільні) чи не знаки ? З одного боку, користувач їх не бачить, і рахувати їх знаками не випадає; але з другого боку, в друкованій книжці є поля : на них нічого не надруковано, а гроші за них беруть, і ми платимо.
З ілюстраціями ще гірше : електронні видання не мають облікової поверхні, і кожне цифрове зображення можна масштабувати (принаймні теоретично) на будь-яку площу. Про інші типи даних, які можуть міститись в електронному виданні, визначення взагалі промовчує.
Отже, нашею задачею буде запропонувати методику обліку обсягу мультімедійних електронних видань, а також їх вартості (вартість залежить від обсягу, але не тотожня цій останній).
Принципи обліку обсягу електронних видань
Електронним виданням ми будемо спрощено називати будь-який матеріальний носій інформації, для читання якого людині потрібна допомога комп’ютера. Фізичні принципи запису інформації в електронних виданнях можуть бути різноманітними (орієнтація магнітних доменів на магнітних дисках, чи оптична густина на оптичних дисках, чи направленість p-n переходів у флеш-пам’яті, чи певний розподіл електричних струмів в енергозалежній пам’яті – тільки ця остання форма інформації може називатись електронною у вузькому, фізичному розумінні). Спільне для них всіх одне – колосальна густина запису, яка лежить далеко за межами роздільної здатності людських почуттів і яка потребує потужного підсилювача-декодувальника-трансформатора у вигляді комп’ютера.
Далі, слід розуміти, що обсяг видання – це не фізична характеристика (тобто така, що піддається об’єктивному вимірюванню), а технічна (така, що залежить від прийнятого способу вимірювання, від методики).
В основу обліку можна покласти один з двох принципів – принцип трудових затрат або принцип споживчої цінності. Щоб пояснити різницю цих підходів, розглянемо конкретний приклад. Ми випускаємо кінофільм. Трудові затрати на його виготовлення складаються (спрощено кажучи) з вартості відеопотоку (ВП) та вартості аудіопотоку (АП). Отже, вартість за принципом трудових затрат (ПТЗ-вартість) = ВП + АП. Покупець, оцінюючи наш продукт, також зважає, що платить гроші за відеопотік та аудіопотік; отже, вартість за принципом споживчої цінності (ПСЦ-вартість) також = ВП + АП.
Тепер ми випускаємо кінофільм, дубльований кількома мовами (нехай трьома). ПТЗ-вартість = ВП + 3*АП – просто і ясно. А ПСЦ-вартість ? З одного боку, на диску є фактично три незалежних кінофільми, тобто ПСЦ-вартість = 3*(ВП + АП). З другого боку, кожен конкретний покупець здебільшого буде дивитись лише одну мовну версію фільму, і йому байдуже про наявність інших версій, тобто ПСЦ-вартість = (ВП + АП). Чи зможемо ми переконати покупця, що за цей диск варто платити дорожче, тому що він містить три продукти в одному ? Іншими словами, чи можна переконати пасажира, який їде з Оболоні на Борщагівку, найняти три таксомотори (адже їде він все одно тільки в одному) ?
Цей приклад має показати, що різниця в результатах оцінки за різними принципами може бути дуже істотною.
Цифровий аркуш
Наступний – найголовніший – принцип обліку обсягу полягає у приведенні всієї різноманітності змістовного наповнення (контенту) видань до єдиної міри. Цю одиницю я пропоную називати цифровим аркушем (царкушем, скорочено – царк.). Для кожного типу наповнення треба визначити спосіб його перерахунку в цифрові аркуші – величину, яка дозволяє більш-менш об’єктивно порівнювати обсяги різних електронних видань.
Цифрові аркуші також можуть бути корисними для оцінки трудових витрат на виготовлення електронних видань і певною мірою – для оцінки грошової вартості відповідних проектів.
Розглянемо тепер основні категорії змістовного наповнення видань і поміркуємо над тим, чим може бути цифровий аркуш у стосунку до відповідних категорії. Одразу попереджаю, що тут буде поставлено більше запитань, ніж дано відповідей.
Текст
Я не бачу причин відмовлятись від старого доброго авторського аркуша в 40000 знаків, коли йдеться про прозаїчний текст. Комп’ютерна доба вимагає тільки деяких уточнень :
1. Текст для обліку має бути приведений до формату чистого Unicode (16 bit) тексту; знаком вважається один символ Unicode (який займає 2 байти). Таким чином ми використовуємо єдиний підхід до обліку текстів всіма мовами (алфавітними; ієрогліфічні тексти ми не розглядаємо).
2. Текст має бути нормалізованим в дусі XML-нормалізації, тобто всі пробільні символи слід вважати рівноцінними і послідовність кількох пробільних символів заміняти на один пробільний символ. Цей пробільний символ рахується в обсязі.
3. З тексту слід видалити всі символи форматування (такі як символи м’якого переносу, розриву сторінки, розриву рядка і т.д.). Управління течією тексту, на мою думку, не належить до обсягу тексту.
Отже, цифровий аркуш прози дорівнює 40000 знаків.
Поетичний текст. Також не бачу причини відмовлятись від звичного авторського аркуша в 700 рядків. Оскільи тут рахуються переводи рядків, то перетворення в Unicode і нормалізація не потрібні.
Цифровий аркуш поетичного тексту дорівнює 700 рядкам (уступам чи параграфам).
Формульний набір. Для тексту, основний зміст якого становлять математичні або хімічні формули, слід вигадати спеціальний підхід. Редактор математичних формул MS Equation editor вставляє формули в документ MS Word як OLE-об’єкти, а в статистиці документа кожен OLE-об’єкт рахується як один символ. Це, звичайно, несправедливо мало як у відношенні трудомісткості такого набору, так і особливо у відношенні інформаційної цінності формул.
Отже, я пропоную для формул цифровий аркуш у 50 формул. При цьому слід рахувати тільки формули, які займають окрему полосу в тексті (дрібними формулами, вставленими безпосередньо в рядок, можна знехтувати). Така кількість формул приблизно відповідає статті в один авторський аркуш тексту.
Табличний набір. Якщо кількість таблиць в тексті невелика, то їх наявністю можна знехтувати і обліковувати тільки обсяг тексту в комірках. Але для документів, основним змістом яких є текст, організований у вигляді таблиць, облік тексту як прози не повністю відбиває його інформаційну цінність.
Я пропоную для таблиць додавати 1 цифровий аркуш на кожну 1000 комірок. Цей модуль встановлено довільно, і слід подумати, як встановити більш обґрунтоване значення.
Нотний текст. Для нотного набору одиницею обліку є один нотний знак або знак модифікації. В обсяг слід також включати всі текстові фрагменти (слова вокальних творів, текстові позначення темпів та динаміки і т.д.). Можна спробувати цифровий аркуш в 40000 таких знаків.
Окрему проблему, невідому для паперових видань, становить динамічний текст. Щоб зрозуміти, про що йдеться, пропоную перечитати вірш Лесі Українки «Contra spem spero!» і поклацати варіанти тексту. Вірш відомий у трьох авторських редакціях, і моє електронне видання надає читачу всі три варіанти як рівноцінні тексти. З точки зору споживчої цінності, тут є три незалежних тексти, кожен з яких слід виміряти окремо за нормами поетичного тексту. З точки зору трудозатрат, було зверстано тільки основний текст і варіативні строфи.
В поемі Лесі Українки «Що дасть нам силу» як основний текст, так і автограф містять по 174 рядки, автограф відрізняється на три рядки. Отже, ПСЦ-обсяг = 348 рядків = 0.5 царк., а ПТЗ-обсяг = 177 рядків = 0.25 царк.
Ми розглянули тільки найпростіший приклад динамічного тексту. А як бути з відповідями пошукових чи експертних систем ? Там тексти компонуються з блоків за певними правилами, то що слід обліковувати – обсяг блоків чи обсяг варіантів відповідей ? Отже, облік динамічних текстів є предметом подальших міркувань.
Сканований текст. Як вирахувати його обсяг ? Для споживача не принципово, генерується образ тексту на льоту з текстового файлу чи відображається у вигляді заздалегідь відсканованого зображення. В обох випадках він отримує однакову інформацію (те, що написано), хіба що з деякими варіаціями в додаткових функціях (можливість / неможливість копіювання, пошуку та ін.). Отже, ПСЦ-обсяг сканованого тексту слід вираховувати так само, як і символьного тексту. Але з точки зору трудових затрат обсяг сканованого тексту слід вираховувати як обсяг графічних файлів.
Особливий випадок становлять комбіновані формати, в яких сканований текст суміщається з розпізнаним символьним текстом (так робить, наприклад, Google Books). Знову з точки зору споживача тут є один текст (з багатим набором додаткових можливостей обробки), а з точки зору трудозатрат – слід додавати цифрові аркуші сканованих зображень і цифрові аркуші розпізнаного тексту.
Для практичного використання можна запропонувати такий спрощений метод обліку ПСЦ-обсягу : розділити оригінали на такі, що мають сторінку формату А5 і меншу, і такі, що мають сторінку більшу ніж А5. Оригінали першої групи найчастіше скануються розворотами по 2 сторінки, і цифровий аркуш = 16 розворотам (32 сторінкам). Для оригіналів другої групи цифровий аркуш = 16 сторінкам, кожна з яких сканується окремо.
Зображення
Піксельні зображення. Для піксельного зображення природною одиницею площі є піксел – мінімальний елемент зображення квадратної (зрідка, прямокутної) форми. Слід розуміти, що це чисто логічна одиниця площі, яка однаково успішно може відповідати квадрату 0.2 : 0.2 мм на дрібнозернистому екрані чи квадрату 10 : 10 мм на великомасштабному плакаті. Кількість інформації, яка міститься в зображенні, визначається пікселами і тільки пікселами.
Зручною похідною одиницею є мегапіксел (Мпк, це рівно 1 млн. піксел). В якості цифрового аркуша для піксельних зображень можна прийняти 50 Мпк. Цей модуль перерахунку запропоновано довільно, і варто подумати, як ліпше обґрунтувати цю величину.
Як враховувати глибину кольору ? Ясно, що кольорові зображення більш інформативні, ніж монохромні, але наскільки ? Найпростіше вирішення – помножити цифрові аркуші, розраховані на мегапікселах, на бітову глибину кольору. Але важко повірити, що повноколірне зображення (24 біти / піксел) аж у 24 рази інформативніше за монохромне; що ж стосується зображень у 48 біт / піксел, то таке збільшення об’єму даних ніяк не збільшує інформації (хоча б з тієї причини, що така кількість відтінків лежить за межами як можливостей пристроїв виводу графічної інформації, так і роздільної здатності очей людини).
Моя практична порада така : розділити всі зображення на біднокольорові (8 біт / піксел і менше) і ряснокольорові (більше 8 біт / піксел). Для цих останніх слід застосувати якийсь підвищувальний коефіцієнт, наприклад, 2 рази.
Різномасштабні зображення. Часто буває, що електронні видання містить одне зображення в кількох піксельностях (наприклад, повнорозмірні і малоформатні зображення – thumbnails). На мій погляд, всі варіанти менших розмірів, утворені з великомасштабного зображення, не несуть нової інформації і не повинні враховуватись в обсязі видань. Це стосується як зменшених варіантів цілого зображення, так і фрагментів, вирізаних з цілого.
Тобто якщо подається репродукція ікони в 1 мегапіксел і до неї додано 5 окремо виконаних фотографій деталей, кожна по 1 Мпк, то тут ми нараховуємо 6 Мпк; але якщо ці деталі вирізані з того самого основного зображення, то вони в обсяг не додають нічого.
Графічне оформлення. Електронні видання часто містять графічні елементи, які виступають як прикраси чи акценти змісту (для веб-сайтів наявність графічного оформлення є просто неодмінною вимогою). З точки зору розробника, облік цих елементів здійснюється один раз; але споживач бачить ці елементи на кожній сторінці видання, тому для таких елементів [ПСЦ-обсяг] = [ПЗТ-обсягу] * [число сторінок видання].
Скановані зображення. При переведенні оригіналів зображень у цифрову форму сканувати можна по-різному. Можна сканувати з роздільністю 150 піксел / дюйм, а можна – 2400 піксел / дюйм. В другому випадку ми отримаємо рівно в 256 разів більше пікселів, ніж у першому. Мій багаторічний досвід сканування різноманітних паперових оригіналів говорить : 300 піксел / дюйм досить. Більша роздільність не несе ніякої додаткової інформації, а тільки без потреби збільшує розміри файлів. В особливих випадках (надзвичайно якісного паперу і надзвичайно дрібного друку, коли для читання потрібно збільшувальне скло) може знадобитись 600 піксел / дюйм, але в колишньому СРСР і в незалежній Україні таких видань не випускали.
Отже, при розрахунках обсягів сканованих текстових документів слід виходити з планової роздільності в 300 піксел / дюйм. 1 кв.см сканованого оригіналу = 14 тис. піксел, 1 кв.дюйм = 90 тис. піксел, 1 аркуш А4 = 8.6 Мпк. Отже, цифровий аркуш в 50 Мпк дорівнює 6 сканованим сторінкам формату А4. Це приблизно відповідає 1 авторському аркушу тексту при щільному поліграфічному друці. Такий спосіб підрахунку відповідає підходу споживача, якого цікавить кількість інформації, а не спосіб її зберігання. З точки зору трудозатрат цифровий аркуш може відповідати 60 чи 100 сканованим сторінкам А4.
Звичайно, читач зауважить велику розбіжність між цифровим аркушем сканованого тексту (для якого вище було запропоновано 16 аркушів А4) і оцим аркушем сканованих зображень. Я не знаю, чи мусять вони співпадати. З одного боку, текстові оригінали досить рідко займають повне вікно А4, і було б доречним запровадити якийсь коефіцієнт, який збільшує число сторінок оригіналу в цифровому аркуші; з другого боку, сканований текст практично ніколи не піддається додатковій обробці, в той час як скановані зображення майже ніколи не можна використовувати без попереднього технічного редагування (повороту, обрізки, видалення растру, вирівнювання яскравостей). Тобто скановані зображення потребують відносно більших трудозатрат, і було б справедливо встановити для них менший цифровий аркуш.
Векторні зображення. Форматів векторних зображень запропоновано дуже багато, і всі вони є невдалими, оскільки жоден з них не досяг стану стандарта де-факто. Тому оцінювати обсяг цих зображень слід шляхом перетворення в еквівалентне піксельне зображення – таке, щоб найтонша лінія рисунка мала товщину не менше 1 піксела. Така роздільність забезпечує упевнене читання всіх елементів рисунка без надлишкової піксельності.
Аналогічний підхід слід застосовувати для сканування штрихових рисунків : роздільність слід вибирати такою, щоб найтонша лінія рисунка мала товщину не менше 1 піксела.
Динамічні зображення. Векторні зображення дуже часто бувають динамічними, і ця динамічність часто є основною перевагою відповідних електронних видань. Векторні географічні карти, плани, креслення дозволяють вмикати / вимикати відображення як окремих об’єктів, так і цілих шарів, надаючи користувачам потужні можливості генерації зображень, найбільш відповідних їхнім потребам. Проблема обліку обсягу таких зображень аналогічна проблемі з динамічним текстом : якщо географічна карта має 10 шарів, і кожен шар оцінюється в 1 цифровий аркуш, то ПТЗ-обсяг карти становить 10 царк. А ПСЦ-обсяг може варіювати від 1 царк. (якщо користувачу потрібен тільки один шар, йому байдуже про наявність інших шарів) до величезної кількості комбінацій шарів.
Звук
Для аудіоінформації, включеної до складу електронного видання, основним показником обсягу є тривалість звучання. Можна запропонувати цифровий аркуш тривалістю 10 хвилин (тут теж бажано дати якусь мотивацію). Різниця між аналоговим (WAV) і нотним (MIDI) звучанням, на мій погляд, не впливає на обсяг (принаймні на ПСЦ-обсяг).
Для врахування якості звучання можна поділити аудіоінформацію на дві категорії : з частотою дискретизації 22 кГц і менше; з частотою дискретизації понад 22 кГц. Для першої категорії можна запропонувати якийсь понижаючий коефіцієнт, наприклад, 0.8.
Багатоканальний звук загалом несе більше інформації, ніж одноканальний; тому можна запропонувати коефіцієнти : для монофонічного звуку – 0.8, для стереофонічного – 1, для більшого числа каналів – 1.2.
Відео
При оцінці обсягу відеоматеріалів, включених до складу електронних видань, слід враховувати наступні фактори.
Розмір зображення. Розмір (число пікселів у кадрі) має вирішальне значення для інформативності відео, тому обсяг слід приймати прямо пропорційним числу пікселів.
Тривалість. Не бачу причин, чому не прийняти пряму пропорційність тривалості фільму та його обсягу.
Колір зображення. Думаю, що для чорно-білих стрічок можна запропонувати понижаючий коефіцієнт, наприклад, 0.8.
Аудіопотік. Думаю, що обсяг аудіопотоку мусить рахуватись окремо від відеопотоку і отримані величини (в цифрових аркушах) слід просто додавати. Проблеми, пов’язані з кількома аудіопотоками в одному фільмі, ми вже злегка заторкнули у вступі.
Векторні анімації. Такі фільми, на мою думку, слід обліковувати нарівні з натурними відеозйомками (принаймні, з точки зору споживчої цінності).
Отже, одиницею обсягу відеопотоку є мегапіксел*хвилина, а 1 цифровий аркуш = 1.5 Мпк*хвилина (це відповідає 5 хвилинам відео розміром 640:480 піксел). Міркування, висловлені тут з приводу обліку аудіо та відеоданих, слід розглядати як перші кроки, тут є ще багато моментів для конкретизації.
Тривимірні моделі
Немалу складність з оцінкою обсягу становлять тривимірні моделі. Природа складності – динамічний характер об’єкта, з яким ми вже стикались в динамічних текстах і зображеннях. Якщо ПТЗ-оцінка може базуватись на числі змодельованих об’єктів, числі елементів кожного з них і якості (піксельності) текстур, то з точки зору споживача тривимірна модель становить потужну неперервну множину (континнум теорії множин) позицій огляду. Така оцінка може базуватись або на зворотній дискретизації моделі (тобто виділенні скінченої множини позицій огляду, яка дає повний образ модельованого простору), або на перетворенні моделі на кінофільм з фіксованою траєкторією камери. При першому підході оцінюється обсяг сукупності статичних зображень, при другому – обсяг відеопотоку.
Окремо слід розглянути такий аспект обсягу, як можливості дій користувача в моделі. Ясно, що чим більше ступенів свободи надається камері, з якою користувач оглядає модель, тим більший обсяг інформації вона несе. Більший, але на скільки ? Тут є тема для роздумів.
Структура видання
В книговиданні структура як окрема складова частина, що впливає на обсяг видання, не враховувалась. Всі знали, що 10-томне видання містить вдвічі більше інформації, ніж 5-томне, але сама по собі кількість томів елементом обсягу не була. Книги розбивались на томи, виходячи з технічних можливостей поліграфії та обсягу тому, оптимального для певного призначення; журнали ділились на номери заради того, щоб інформація надходила читачам з певною періодичністю.
Не так стоять справи з електронними виданнями. Вони не мають (загалом беручи) технічних обмежень на обсяг, і всі 50 томів Івана Франка можна при бажанні убгати в один документ. Статті в е-журналах стають доступними читачам миттєво, в день публікації, тому нема ніякої рації ділити потік статей на якісь «номери».
Електронне видання структурується не через технічні обмеження носія, а задля зручності користування (usability). Структурування видання впливає як на трудозатрати, так і на споживчу цінність інформації, тому є сенс враховувати кількісні показники структури в обсязі видання.
Ці кількісні показники мусять відбивати логічну, а не фізичну структуру електронного видання. Корисною може виявитись абстракція документа як мінімальної самостійної порції інформації, яка в контексті конкретного технічного вирішення електронного видання надається користувачу.
Цифровий аркуш для структури можна встановити, наприклад, в 1000 документів. В такому випадку для традиційних книг з кількома десятками розділів / підрозділів структурна частина загального обсягу є мізерною, і нею можна знехтувати; разом з тим для великих інформаційних проектів цей показник може стати вирішальним і навіть заміняти собою всі інші показники.
Наприклад, національні розділи «Вікіпедії» змагаються між собою саме за числом статей, в той час як обсяги текстів і зображень не враховуються.
Аналогічно стоїть справа з навігаційними елементами електронного видання. Для паперових видань не є дивиною, що зміст і покажчики враховуються в загальному обсязі; так само немає сумнівів, що Біблія з розбивкою на вірші і перехресними посиланнями на полях є кориснішою, ніж Біблія без таких елементів.
Тому для електронного видання всі елементи навігації, які дозволяють перейти від даного документа до інших, якимось чином споріднених документів, є складовими обсягу. Вони, з одного боку, потребують від виробника трудозатрат на компоновку таких елементів; з другого боку, полегшують користувачу роботу з виданням, роблять її більш ефективною. Тому я думаю, що 10000 посилань на інші документи можуть становити цифровий аркуш навігаційної частини електронного видання.
Загальні елементи вартості
Розглянуті вище складові частини електронного видання загалом пропорційні його обсягу, і тому сума цифрових аркушів різних складників є інтегральною мірою цього обсягу, досить добре абстрагованою від конкретного наповнення. Але кожне електронне видання містить ще інші компоненти, не залежні від обсягу, але необхідні для його використання. Ці компоненти чогось варті як з точки зору трудозатрат, так і з точки зору споживчих якостей видання; тому вони, не додаючи обсягу видання, впливають на його вартість.
На першому місці стоїть базове програмне забезпечення видання, без якого видання перетворюється на байтову кашу. В залежності від прийнятих технологічних підходів воно може змінюватись від «нульового рівня», коли використовується базове ПЗ операційної системи, через проміжний рівень, на якому використовується ПЗ стороннього виробника (не видавця), яке не постачається з виданням і мусить встановлюватись окремо, до рівня повної автономії («все своє несу із собою»), коли все специфічне ПЗ включене до складу видання і не може бути відділене від нього (найбільш поширений приклад – комп’ютерні ігри).
Вартість розробки та / або ліцензування цього ПЗ включається у вартість видавничого проекту і таким чином впливає на кінцеву вартість. Кожен з підходів по ПЗ має свої переваги й недоліки. «Нульовий рівень» зручний тим, що видання не містить ніяких додаткових файлів, окрім власне інформаційного наповнення; незручність полягає в залежності такого видання від конфігурації комп’ютера читача і в обмеженості доступних форматів. Практично можна розраховувати тільки на формат HTML, оскільки Internet Explorer встановлено на всіх комп’ютерах з ОС Windows. Але останні новини говорять, що нові версії ОС Windows вже не будуть містити передвстановленого Internet Explorer-а, тому й «нульовий рівень» втрачає привабливість.
Видання проміжного рівня потребують встановлення ПЗ стороннього виробника. Для споживача найзручнишим є варіант, коли це ПЗ є безкоштовним і ліцензія дозволяє тиражування і поширення цього ПЗ разом з виданням. Але і в цьому разі залишається проблема установки ПЗ на комп’ютері користувача : багато користувачів не вміють цього робити; немало є таких, що вміють, але не люблять; немалий відсоток користувачів в корпоративних мережах не має системних прав адміністратора, щоб це робити. Ще гіршими є варіанти, коли потрібне ПЗ не можна включати до складу видання і треба завантажувати окремо, і коли це ПЗ вимагає окремої оплати.
Автономне ПЗ просте для використання читачем, але нерідко має значні системні обмеження; окрім того, якщо видання допускає / вимагає інсталяції на жорсткий диск користувача, при кожній інсталяції встановлюється автономна копія ПЗ, що приводить до перевитрат простору. Наприклад, якщо кожне зі 100 однотипних видань встановлює 10 Мб ПЗ, загальні витрати становлять 1 Гб, з яких 99 % є надлишковими.
На вартість впливають додаткові функції ПЗ, такі як можливість пошуку даних, друку, копіювання фрагментів інформації в інші програми, експорту інформації в інші формати. Серед цих функцій варто згадати таку дуже пожиточну річ, як підтримка сеансів (тобто здатність ПЗ автоматично запам’ятовувати місце, на якому користувач зупинився при роботі з програмою, з наступним автоматичним відновленням цієї позиції); можливість робити свої примітки до документів видання, і т.д.
Чи впливає на вартість стандартизація ? Чи можна вважати, що електронне видання, яке використовує документовані / стандартизовані / відкриті формати і технології, є кориснішим за видання, яке використовує власний закритий формат ? Питання спірне; думаю, що відповіді будуть протилежними для видань різного призначення. Для комерційних електронних видань немає альтернативи використанню закритих форматів, тому для них це питання звучить риторично; але для видань, призначених стати громадським надбанням, використання відкритих форматів є однозначним плюсом.
Всі аспекти стандартизації ускладнюються, по-перше, різноманітністю електронних видань, по-друге, відсутністю добрих кандидатів на стандарти.
Різноманітність електронних видань настільки велика, що звична різноманітність книжкової продукції не може дати навіть приблизного уявлення про першу. Коли вам пропонують компакт-диск з написом «Хвантастика», то це може виявитись чим завгодно : аудіокнигою, сканованим зібранням творів нашого улюбленого автора, комп’ютерною грою за мотивами його творів, колекцією коміксів або навіть проектом державного бюджету на черговий рік. Електронні видання не тільки можуть, але й повинні бути різноманітними : книга, призначена для індивідуального використання з автономного носія, не подібна до книги, розрахованої на поширення через Інтернет; електронна екскурсія, яка демонструється на стаціонарному плазмовому моніторі в музеї, не подібна до екскурсії, яку читають / слухають через смартфон; електронний посібник, призначений для студентів в аудиторії, не подібний до посібника, розрахованого на самостійне вивчення чи дистанційне навчання, і т.д.
Жодна з існуючих технологій електронних видань не може забезпечити всієї потрібної різноманітності. Постійно пропонуються все нові технології, пошук вдалих рішень триває. З кандидуванням цих рішень на стандарти справа ускладнюється практично повною відсутністю технічної інформації від розробників.
Подальше заглиблення в тему стандартизації не входить в план цієї статті, але перспектива мати в комп’ютері двісті електронних видань, кожне з яких пропонує свій спосіб запуску, свій інтерфейс користувача, свою систему навігації, має свої особливості в пошуку, не є дуже радісною. Досить задати питання – як виконати пошук по всіх цих виданнях ? – щоб зрозуміти вагу стандартизації.
Важливими складовими вартості є кросплатформеність і системні вимоги (як документ, який переводить загальне поняття кросплатформеності в площину технологій). Ми вже говорили, що єдина риса, яка ріднить всі електронні видання між собою і протиставить їх іншим типам видань – це необхідність електронного пристрою-посередника для читання. Промисловість пропонує величезну різноманітність таких пристроїв, і якщо в центрі поставити персональний комп’ютер як найбільш універсальний і потужний пристрій, то на флангах розмістяться відеоплеєри та мобільні телефони. І все це – платформи !
Різноманітність платформ, помножена на різноманітність типів видань, породжує певні складності й здивування користувачів. HTML книга не хоче відтворюватись в аудіоплеєрі; розкішно ілюстрована презентація не влізає на екран смартфона; мобільному телефону не вистачає полоси пропускання, щоб дивитись потокове відео через Інтернет, і нарешті «я вставив ваш компакт-диск, а він не заводиться» (DVD диск вставлено в CD дисковод).
Отже, правильно сформульовані системні вимоги (які, з одного боку, гарантують роботу електронного видання, з другого боку, не вимагають нічого зайвого й непотрібного) є дуже важливою частиною опису видання. М’які вимоги (такі, що визначають широкий клас пристроїв) підвищують цінність видання, а жорсткі (які містять специфічні вимоги) – звужують коло споживачів і знижують цінність видання.
Можливості практичного використання
Намічені в статті способи обліку обсягу електронних видань шляхом приведення їх до єдиного показника – цифрового аркуша – можуть знайти застосування в наступних напрямках :
- облік обсягів продукції медіа-видавництв (для внутрішнього і зовнішнього використання);
- обґрунтування ресурсоємності та вартості проектів електронних видань для бізнес-планування;
- обґрунтування вартості електронних видань для видавців і споживачів продукції;
- державна статистика видавничої діяльності в царині електронних видань; державний облік обсягу електронних інформаційних ресурсів країни;
- облік обсягу цифрових архівів і цифрових бібліотек.
Практичне використання цифрових аркушів стане можливим після того, як буде створене спеціалізоване програмне забезпечення, яке буде автоматично визначати обсяг електронних видань (або відповідні модулі будуть додані до існуючих програм управління інформаційними ресурсами). Звичайно, слід розробити та узгодити XML-схему для опису обсягів, яка повинна містити не тільки число цифрових аркушів, але й складові, з яких це число утворене, а також опис методики підрахунку.
Розроблена нами програма «Мислене древо» містить модуль збору статистики, який вміє підраховувати кількість авторських аркушів тексту, число та загальний обсяг зображень та медіа-файлів, число вершин (структурних елементів видання). Отже, спрощено обсяг видання у форматі МД можна підрахувати так :
Сума царк. = [Число авт.арк.тексту] + [Число зображень] / 100 + [Об’єм звукових файлів у Мб] / 10 + [Число вершин] / 1000
В зв’язку з тим, що Мислене древо 2.5 не вміє рахувати піксельність зображень, ми спрощено приймаємо, що одне зображення = 0.5 Мпк (800:600 пікс.), що загалом відповідає практиці нашого видавництва. Обсяг звукових файлів також спрощено рахуємо як 1 Мб / хвилину. Ось приклади розрахунку обсягів :
Назва | Текст | Зображення | Звукові файли, Мб | Число вершин | Цифр.арк. |
Качанівка | 12.2 | 196 | 36 | 297 | 18.1 |
Храми Поділля | 98.5 | 2 294 | 0 | 37 136 | 158 |
Україна 13 – 18 ст. [все в одному] | 3882.62 | 0 | 0 | 273 295 | 4155.92 |
Отже, обсяг диску «Україна 13 – 18 ст.» в 230 разів більший за обсяг диску «Качанівка», а діаметри обох дисків однакові і дорівнюють 120 мм.
Програма «Мислене древо» версії 3, яка зараз розробляється, буде містити більш досконалий калькулятор цифрових аркушів (своя рука – владика !).
Закінчено 12.07.2009 р.