Log in

Геометрія і топологія Big Data

"La Seine à la Grande-Jatte" постімпресіоніста Georges Seurat "La Seine à la Grande-Jatte" постімпресіоніста Georges Seurat

Big Data поступово перетворюється у парадигму сучасної науки, попри існування серйозної критики.

Так чи інакше, людство усвідомлює, що потік інформації неймовірно зростає. За деякими оцінками, в близькому майбутньому він вимірюватиметься десятками зеттабайт (зетта - 10 у 21-му степені). З цим усім потрібно собі якось радити.

Як з'ясувалося, геометричні і топологічні методи є надзвичайно корисними для розуміння Big Data.  Вони відіграють велику роль у візуалізації великого масиву інформації; при цьому процесс візуалізації можна уподібнити до охоплення поглядом картини, виконаної у стилі пуантилізму (на рисунку -- "La Seine à la Grande-Jatte" постімпресіоніста Georges Seurat).

Одним з важливих інструментів якісного дослідження Big Data є так звані стійкі гомології (persistent homology). Звичайно, пояснювати, що таке стійкі гомології варто вже коли вивчена теорія гомологій, та все ж спробую принаймні створити враження. Отож, теорія гомологій ставить у відповідність кожному просторові X набір абелевих груп Hn(X), n=0,1,2,... При цьому, генераторами групи Hn (X) є n-вимірні "отвори" в X. Для прикладу: H1(коло) має 1 генератор, H1(цифра 8) має 2 генератори, H1(тор) теж має 2 генератори, H2(тор) має 1 генератор, ...

Обчислення стійких гомологій починається із зображення масиву даних X у евклідовому просторі. Далі для додатнього r перетворюємо X у так званий симпліціальний комплекс (абстрактний поліедр) Xr. Для цього є різні способи. Один з них - покрити X кулями радіуса r; при цьому вершини комплекса відповідають центрам куль, а якщо деякий скінченний набір (наприклад, m) куль має спільну точку, то вважаємо, що їх центри є вершинами (m-1)-вимірної грані симплекса.

Далі обчислюємо групи гомологій Hn (Xr) і завважуємо, що при r<s природне відображення Xr Xs індукує гомоморфізм груп гомологій Hn (Xr) → Hn (Xs)

На рисунку показано «еволюцію» симпліціальних комплексів зі зміною параметра (він позначений ε), а також так званий штрих-код, який показує, коли генератор народжується, а коли зникає. Короткі штрихи при цьому відповідають шумам, а довгі свідчать про стійкість відповідного генератора.

Ґуннар Карлссон зі Стенфордського університету провів дослідження мільйонів піксельних зразків розміром 3x3, взятих з чорно-білих фотографій.

Кожен такий зразок моделюється точкою у дев'ятивимірному просторі – досить відкласти на відповідній координаті значення інтенсивності сірого кольору. Відніманням медіани і нормуванням можна помістити всі ці зразки на одиничну 7-вимірну сферу в 8-вимірному просторі. Дивовижним результатом Карлссена і його групи було те, що піксельні зразки не розподілені рівномірно на 7-вимірній сфері, а концентруються навколо пляшки Кляйна.

Цей результат отримав практичне застосування - на його основі було запропоновано алгоритм стискання зображень, кращий від відповідного JPEG.

У зв’язку з використанням топології для дослідження Big Data американський математик Айседор Зінгер (співавтор знаменитої теореми Атії-Зінґера) написав у 2004 році: “I predict a new subject of statistical topology. Rather than count the number of holes, Betti numbers*), etc., one will be more interested in the distribution of such objects on noncompact manifolds as one goes out to infinity.

Тут виникає спокуса передбачити застосування до Big Data асимптотичної топології (в іншій термінології – грубої геометрії) – остання займається крупномасштабними властивостями геометричних об’єктів.  Скажімо, множина цілих чисел у малому масштабі нульвимірна, бо складається з ізольованих точок, а при віддаленні сприймається як одновимірний об’єкт:

……………………………………………………………………………………………………

Тут знову наведемо приклад з живопису. Відома картина Сальвадора Далі «Портрет мого покійного брата»**)  зблизька сприймається як набір плям (вишень), при віддаленні – це вже портрет, а при ще більшому віддаленні виникає контур птаха.

Деякі переваги методів грубої геометрії перед чисто топологічними полягають у тому, що перші все ж зберігають більше кількісної інформації від об’єкта, а не є чисто якісними.

 

-----

Ілюстрації взято з відкритих джерел.

* числа Бетті – числа генераторів (ранги) груп гомологій.

** автор цих рядків мав змогу бачити оригінал у музеї Сальвадора Далі в м. Ст.-Петерсбург, Флорида, США.

М.М. Зарічний

доктор фізико-математичних наук, професор кафедри геометрії і топології

Сайт: www.franko.lviv.ua/faculty/mechmat/Departments/Topology/zarichnyi.html

Залиште свій коментар

Post comment as a guest

0
«
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
»

Наші контакти


Ідея, веб-дизайн і т.д.:

Олег Романів
oromaniv at franko.lviv.ua