Velocity у великих даних. Big Data: аналітика та рішення. Кращі книги з Big Data

Тільки лінивий не говорить про Big data, але що це таке і як це працює – розуміє навряд чи. Почнемо з найпростішого – термінологія. Говорячи російською, Big data - це різні інструменти, підходи та методи обробки як структурованих, так і неструктурованих даних для того, щоб їх використовувати для конкретних завдань та цілей.

Неструктуровані дані - це інформація, яка не має наперед визначеної структури або не організована в певному порядку.

Термін «великі дані» запровадив редактор журналу Nature Кліффорд Лінч ще у 2008 році у спецвипуску, присвяченому вибуховому зростанню світових обсягів інформації. Хоча, звичайно, найбільші дані існували і раніше. За словами фахівців, до категорії Big data належить більшість потоків даних понад 100 Гб на день.

Читайте також:

Сьогодні під цим простим терміном ховається лише два слова - зберігання та обробка даних.

Big data - простими словами

У сучасному світі Big data – соціально-економічний феномен, який пов'язаний з тим, що з'явилися нові технологічні можливості для аналізу величезної кількості даних.

Читайте також:

Для простоти розуміння уявіть супермаркет, в якому всі товари лежать не в звичному порядку. Хліб поруч із фруктами, томатна паста біля замороженої піци, рідина для розпалювання навпроти стелажу з тампонами, на якому окрім інших стоїть авокадо, тофу чи гриби шиїтаке. Big data розставляють все по своїх місцях і допомагають вам знайти горіхове молоко, дізнатися вартість і термін придатності, а ще - хто, крім вас, купує таке молоко і чим воно краще за молоко коров'ячого.

Кеннет Кук'єр: Великі дані - найкращі дані

Технологія Big data

Величезні обсяги даних обробляються у тому, щоб людина міг отримати конкретні й необхідні йому результати їхнього подальшого ефективного застосування.

Читайте також:

Фактично, Big data - це вирішення проблем та альтернатива традиційним системам управління даними.

Техніки та методи аналізу, застосовні до Big data по McKinsey:

  • Data Mining;
  • Краудсорсінг;
  • Змішання та інтеграція даних;
  • Машинне навчання;
  • Штучні нейронні мережі;
  • Розпізнавання образів;
  • прогнозна аналітика;
  • Імітаційне моделювання;
  • Просторовий аналіз;
  • Статистичний аналіз;
  • Візуалізація аналітичних даних.

Горизонтальна масштабованість, що забезпечує обробку даних - базовий принципобробка великих даних. Дані розподілені на обчислювальні вузли, а обробка відбувається без деградації продуктивності. McKinsey включив у контекст застосування також реляційні системи управління та Business Intelligence.

Технології:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Апаратні рішення.

Читайте також:

Для великих даних виділяють традиційні визначальні характеристики, вироблені Meta Group ще 2001 року, які називаються « Три V»:

  1. Volume- Величина фізичного обсягу.
  2. Velocity- швидкість приросту та необхідності швидкої обробки даних для отримання результатів.
  3. Variety- Можливість одночасно обробляти різні типи даних.

Big data: застосування та можливості

Об'єми неоднорідної та швидко надходить цифрової інформаціїобробити традиційними інструментами неможливо. Сам аналіз даних дозволяє побачити певні та непомітні закономірності, які не може побачити людина. Це дозволяє оптимізувати всі сфери нашого життя – від державного управління до виробництва та телекомунікацій.

Наприклад, деякі компанії ще кілька років тому захищали своїх клієнтів від шахрайства, а турбота про гроші клієнта – турбота про свої власні гроші.

Сюзан Етліджер: Як бути з великими даними?

Рішення на основі Big data: "Сбербанк", "Білайн" та інші компанії

«Білайн» має величезну кількість даних про абонентів, які вони використовують не тільки для роботи з ними, а й для створення аналітичних продуктів, на зразок зовнішнього консалтингу або IPTV-аналітики. «Білайн» сегментували базу та захистили клієнтів від грошових махінацій та вірусів, використавши для зберігання HDFS та Apache Spark, а для обробки даних – Rapidminer та Python.

Читайте також:

Або пригадаємо «Сбербанк» із їхнім старим кейсом під назвою АС САФІ. Це система, яка аналізує фотографії для ідентифікації клієнтів банку та запобігає шахрайству. Система була впроваджена ще в 2014 році, в основі системи – порівняння фотографій із бази, які потрапляють туди з веб-камер на стійках завдяки комп'ютерному зору. Основа системи – біометрична платформа. Завдяки цьому випадки шахрайства зменшилися в 10 разів.

Big data у світі

До 2020 року, за прогнозами, людство сформує 40-44 зеттабайти інформації. А до 2025 року зросте в 10 разів, йдеться у доповіді The Data Age 2025, яку підготували аналітики компанії IDC. У доповіді наголошується, що більшу частину даних генеруватимуть самі підприємства, а не звичайні споживачі.

Аналітики дослідження вважають, що дані стануть життєво важливим активом, а безпека – критично важливим фундаментом у житті. Також автори роботи впевнені, що технологія змінить економічний ландшафт, звичайний користувачкомунікуватиме з підключеними пристроями близько 4800 разів на день.

Ринок Big data у Росії

У 2017 році світовий дохід на ринку big data має досягти $150,8 млрд, що на 12,4% більше, ніж минулого року. У світовому масштабі російський ринок послуг та технологій big data ще дуже малий. В 2014 році американська компанія IDC оцінювала його в $340 млн. У Росії технологію використовують у банківській сфері, енергетиці, логістиці, державному секторі, телекомі та промисловості.

Читайте також:

Щодо ринку даних, він у Росії тільки зароджується. Усередині екосистеми RTB постачальниками даних виступають власники програматик-платформ управління даними (DMP) та бірж даних (data exchange). Телеком-оператори в пілотному режимі діляться з банками споживчою інформацією про потенційних позичальників.

Зазвичай великі дані надходять із трьох джерел:

  • Інтернет (соцмережі, форуми, блоги, ЗМІ та інші сайти);
  • Корпоративні архіви документів;
  • Покази датчиків, приладів та інших пристроїв.

Big data у банках

Крім системи, описаної вище, у стратегії Ощадбанку на 2014-2018 роки. йдеться про важливість аналізу супермасивів даних для якісного обслуговування клієнтів, управління ризиками та оптимізації витрат. Наразі банк використовує Big data для управління ризиками, боротьби з шахрайством, сегментації та оцінки кредитоспроможності клієнтів, управління персоналом, прогнозування черг у відділеннях, розрахунку бонусів для співробітників та інших завдань.

«ВТБ24» користується великими даними для сегментації та управління відтоком клієнтів, формування фінансової звітності, аналізу відгуків у соцмережах та на форумах. Для цього він застосовує рішення Teradata, SAS Visual Analytics та SAS Marketing Optimizer.

Передмова

"Big data" - модний нині термін, що фігурує майже на всіх професійних конференціях, присвячених аналізу даних, прогностичної аналітики, інтелектуального аналізу даних (data mining), CRM. Термін використовується у сферах, де актуальна робота з якісно великими обсягами даних, де постійно відбувається збільшення швидкості потоку даних до організаційного процесу: економіки, банківської діяльності, виробництва, маркетингу, телекомунікації, веб-аналітики, медицини та ін.

Разом із стрімким накопиченням інформації швидкими темпами розвиваються й технології аналізу даних. Якщо ще кілька років тому було можливо, скажімо, лише сегментувати клієнтів на групи зі схожими уподобаннями, то тепер можна будувати моделі для кожного клієнта в режимі реального часу, аналізуючи, наприклад, його переміщення по мережі Інтернет для пошуку конкретного товару. Інтереси споживача можуть бути проаналізовані, і відповідно до побудованої моделі виведена відповідна реклама або конкретні пропозиції. Модель також може налаштовуватись і перебудовуватись у режимі реального часу, що було немислимо ще кілька років тому.

У сфері телекомунікації, наприклад, розвинені технології визначення фізичного розташування стільникових телефонівта їхніх власників, і, здається, незабаром стане реальністю ідея, описана у науково-фантастичному фільмі «Особлива думка», 2002 року, де відображення рекламної інформації в торгових центрах враховувала інтереси конкретних осіб, які проходять повз.

У той же час існують ситуації, коли захоплення новими технологіями може призвести і до розчарування. Наприклад, іноді розріджені дані ( Sparse data), що дають важливе розуміння дійсності, є набагато ціннішими, ніж Великі дані(Big Data), що описують гори, часто не істотної інформації.

Мета цієї статті - прояснити та обміркувати нові можливості Big Data та проілюструвати, як аналітична платформа STATISTICAкомпанії StatSoft може допомогти в ефективному використанні Big Data для оптимізації процесів та вирішення завдань.

Наскільки великі Big Data?

Звичайно, правильна відповідь на це питання має звучати - «це залежить…»

У сучасних обговореннях поняття Big Data описують дані обсягу в порядках терабайт.

На практиці (якщо мова йдепро гігабайти або терабайти), такі дані легко зберігати та керувати ними за допомогою «традиційних» баз даних та стандартного обладнання (сервера баз даних).

Програмне забезпечення STATISTICAвикористовує багатопоточну технологію для алгоритмів доступу до даних (читання), перетворення та побудови прогностичних (і скорингових) моделей, тому такі вибірки даних можуть бути легко проаналізовані і не вимагають спеціалізованих інструментів.

У деяких поточних проектах StatSoft обробляються вибірки близько 9-12 мільйонів рядків. Помножимо їх на 1000 параметрів (змінних), зібраних та організованих у сховищі даних для побудови ризикових чи прогностичних моделей. Такий файл матиме об'єм “тільки” близько 100 гігабайт. Це, звичайно, не маленьке сховище даних, але його розміри не перевищують можливості технології стандартних баз даних.

Лінійка продуктів STATISTICAдля пакетного аналізу та побудови скорингових моделей ( STATISTICA Enterprise), рішення, що працюють у режимі реального часу ( STATISTICA Live Score), та аналітичні інструменти для створення та управління моделями ( STATISTICA Data Miner, Decisioning) легко масштабуються на кілька серверів із багатоядерними процесорами.

На практиці це означає, що достатня швидкість роботи аналітичних моделей (наприклад, прогнози щодо кредитного ризику, ймовірності шахрайства, надійності вузлів обладнання тощо) дозволяє приймати оперативні рішення, майже завжди може бути досягнута за допомогою стандартних інструментів STATISTICA.

Від великих обсягів даних до Big Data

Як правило, обговорення Big Data зосереджено навколо сховищ даних (і проведення аналізу, заснованих на таких сховищах), об'ємом набагато більшим, ніж просто кілька терабайт.

Зокрема, деякі сховища даних можуть зрости до тисячі терабайт, тобто до петабайт (1000 терабайт = 1 петабайт).

За межами петабайт, накопичення даних може бути виміряно в ексабайтах, наприклад, у виробничому секторі по всьому світу в 2010 році, за оцінками, накопичено в цілому 2 ексабайти нової інформації (Manyika et al., 2011).

Існують галузі, де дані збираються та накопичуються дуже інтенсивно.

Наприклад, у виробничій сфері, такій як електростанції, безперервний потік даних іноді генерується для десятків тисяч параметрів кожну хвилину або навіть кожну секунду.

Крім того, за останні кілька років впроваджуються так звані “smart grid” технології, що дозволяють комунальним службам вимірювати споживання електроенергії окремими сім'ями кожну хвилину чи кожну секунду.

Для таких програм, у яких дані повинні зберігатися роками, накопичені дані класифікуються як Extremely Big Data.

Зростає і кількість додатків Big Data серед комерційних та державних секторів, де обсяг даних у сховищах може становити сотні терабайт чи петабайт.

Сучасні технології дозволяють «відстежувати» людей та їхню поведінку у різний спосіб. Наприклад, коли ми користуємося інтернетом, робимо покупки в Інтернет-магазинах або великих мережах магазинів, таких як Walmart (згідно з Вікіпедією, сховище даних Walmart оцінюється більш ніж у 2 петабайт), або переміщуємося з включеними мобільними телефонами- ми залишаємо слід наших дій, що призводить до накопичення нової інформації.

Різні способи зв'язку, від простих телефонних дзвінків до завантаження інформації через сайти соціальних мереж, таких як Facebook (згідно з даними Вікіпедії, обмін інформацією щомісяця становить 30 млрд. одиниць), або обмін відео на таких сайтах, як YouTube (Youtube стверджує, що він завантажує 24 години відео кожну хвилину; див. Wikipedia), щодня генерують величезну кількість нових даних.

Аналогічним чином, сучасні медичні технології генерують великі обсяги даних, що стосуються надання медичної допомоги (зображення, відео, моніторинг у реальному часі).

Отже, класифікацію обсягів даних можна так:

Великі набори даних: від 1000 мегабайт (1 гігабайт) до сотень гігабайт

Величезні набори даних: від 1000 гігабайт (1терабайт) до кількох терабайт

Big Data: від кількох терабайт до сотень терабайт

Extremely Big Data: від 1000 до 10000 терабайт = від 1 до 10 петабайт

Завдання, пов'язані з Big Data

Існують три типи завдань, пов'язаних з Big Data:

1. Зберігання та управління

Обсяг даних у сотні терабайт чи петабайт не дозволяє легко зберігати та керувати ними за допомогою традиційних реляційних баз даних.

2. Неструктурована інформація

Більшість даних Big Data є неструктурованими. Тобто. як можна організувати текст, відео, зображення тощо?

3. Аналіз Big Data

Як аналізувати неструктуровану інформацію? Як на основі Big Data складати прості звіти, будувати та впроваджувати поглиблені прогностичні моделі?

Зберігання та керування Big Data

Big Data зазвичай зберігаються та організуються у розподілених файлових системах.

Загалом, інформація зберігається на кількох (іноді тисячах) жорстких дискахна стандартних комп'ютерах.

Так звана "карта" (map) відстежує, де (на якому комп'ютері та/або диску) зберігається конкретна частина інформації.

Для забезпечення стійкості до відмов і надійності, кожну частину інформації зазвичай зберігають кілька разів, наприклад - тричі.

Так, наприклад, припустимо, що ви зібрали індивідуальні транзакції у великій роздрібної мережімагазинів. Детальна інформаціяпро кожну транзакцію зберігатиметься на різних серверах та жорстких дисках, а «карта» (map) індексує, де саме зберігаються відомості про відповідну угоду.

За допомогою стандартного обладнання та відкритих програмних засобівдля керування цією розподіленою файловою системою (наприклад, Hadoop), порівняно легко можна реалізувати надійні сховища даних у масштабі петабайт.

Неструктурована інформація

Більшість зібраної інформації у розподіленій файловій системіскладається з неструктурованих даних, таких як текст, зображення, фотографії чи відео.

Це має свої переваги та недоліки.

Перевага полягає в тому, що можливість зберігання великих даних дозволяє зберігати всі дані, не турбуючись про те, яка частина даних актуальна для подальшого аналізу і прийняття рішення.

Недоліком є ​​те, що у таких випадках для вилучення корисної інформаціїПотрібна подальша обробка цих великих масивів даних.

Хоча деякі з цих операцій можуть бути простими (наприклад, прості підрахунки тощо), інші вимагають більш складних алгоритмів, які мають бути спеціально розроблені для ефективної роботи на розподіленій файловій системі.

Один топ-менеджер одного разу розповів StatSoft, що він «витратив цілий стан на IT та зберігання даних, але досі не почав отримувати грошей», тому що не думав про те, як краще використовувати ці дані для покращення основної діяльності.

Отже, в той час як обсяг даних може зростати в геометричній прогресії, можливості отримувати інформацію та діяти на основі цієї інформації, обмежені та будуть асимптотично досягати межі.

Важливо, щоб методи та процедури для побудови, оновлення моделей, а також для автоматизації процесу прийняття рішень були розроблені поряд із системами зберігання даних, щоб гарантувати, що такі системи є корисними та вигідними для підприємства.

Аналіз Big Data

Це справді велика проблема, пов'язана з аналізом неструктурованих даних Big Data: як аналізувати їх з користю. Про це питання написано набагато менше, ніж про зберігання даних та технології управління Big Data.

Є низка питань, які слід розглянути.

Map-Reduce

При аналізі сотні терабайт або петабайт даних, неможливо витягти дані в будь-яке інше місце для аналізу (наприклад, в STATISTICA Enterprise Analysis Server).

Процес перенесення даних каналами на окремий сервер або сервера (для паралельної обробки) займе занадто багато часу і вимагає занадто великого трафіку.

Натомість, аналітичні обчислення мають бути виконані фізично близько до місця, де зберігаються дані.

Алгоритм Map-Reduce є модель для розподілених обчислень. Принцип його полягає в наступному: відбувається розподіл вхідних даних на робочі вузли (individual nodes) розподіленої файлової системи для попередньої обробки (map-крок) і, потім, згортка (об'єднання) вже попередньо оброблених даних (reduce-крок).

Таким чином, скажімо, для обчислення підсумкової суми алгоритм буде паралельно обчислювати проміжні суми в кожному з вузлів розподіленої файлової системи, а потім підсумовувати ці проміжні значення.

В Інтернеті є величезна кількість інформації про те, яким чином можна виконувати різні обчислення за допомогою моделі map-reduce, у тому числі і для прогностичної аналітики.

Прості статистики, Business Intelligence (BI)

Для складання простих звітів BI, існує безліч продуктів з відкритим кодом, що дозволяють обчислювати суми, середні, пропорції тощо. за допомогою map-reduce.

Таким чином, отримати точні підрахунки та інші прості статистики для складання звітів дуже легко.

Прогнозне моделювання, поглиблені статистики

На перший погляд може здатися, що побудова прогностичних моделей у розподіленій файловій системі складніша, проте це зовсім не так. Розглянемо попередні етапи аналізу даних.

Підготовка данних. Нещодавно StatSoft провів серію великих та успішних проектів за участю дуже великих наборів даних, що описують похвилинні показники процесу роботи електростанції. Мета проведеного аналізу полягала у підвищенні ефективності діяльності електростанції та зниженні кількості викидів (Electric Power Research Institute, 2009).

Важливо, що, незважаючи на те, що набори даних можуть бути дуже великими, інформація, яка міститься в них, має значно меншу розмірність.

Наприклад, у той час як дані накопичуються щомиті або щохвилини, багато параметрів (температура газів і печей, потоки, положення заслінок і т.д.) залишаються стабільними на великих інтервалах часу. Інакше висловлюючись, дані, записуються кожну секунду, є переважно повтореннями однієї й тієї інформації.

Таким чином, необхідно проводити “розумне” агрегування даних, отримуючи для моделювання та оптимізації дані, що містять лише необхідну інформацію про динамічні зміни, що впливають на ефективність роботи електростанції та кількість викидів.

Класифікація текстів та попередня обробка даних. Проілюструємо ще раз, як великі набори даних можуть містити набагато менше корисної інформації.

Наприклад, StatSoft брав участь у проектах, пов'язаних з аналізом текстів (text mining) з твітів, що відображають, наскільки пасажири задоволені авіакомпаніями та їх послугами.

Незважаючи на те, що щогодини та щодня було вилучено велика кількістьвідповідних твітів, настрої, виражені у яких, були досить простими і одноманітними. Більшість повідомлень – скарги та короткі повідомлення з однієї пропозиції про “поганий досвід”. Крім того, кількість і “сила” цих настроїв щодо стабільні у часі та у конкретних питаннях (наприклад, втрачений багаж, погане харчування, скасування рейсів).

Таким чином, скорочення фактичних твітів до швидкого (оцінки) настрою, використовуючи методи text mining (наприклад, реалізовані в STATISTICA Text Miner), призводить до набагато меншого обсягу даних, які потім можуть бути легко зіставлені з існуючими структурованими даними (фактичні продажі квитків, або інформація про пасажирів, що часто літають). Аналіз дозволяє розбити клієнтів на групи та вивчити їх характерні скарги.

Існує безліч інструментів для проведення такого агрегування даних (наприклад, швидких настроїв) у розподіленій файловій системі, що дозволяє легко здійснювати даний аналітичний процес.

Побудова моделей

Часто завдання полягає в тому, щоб швидко побудувати точні моделі даних, що зберігаються в розподіленій файловій системі.

Існують реалізації map-reduce для різних алгоритмів data mining/прогностичної аналітики, які підходять для масштабної паралельної обробки даних у розподіленій файловій системі (що може бути підтримано за допомогою платформи STATISTICA StatSoft).

Однак, саме через те, що ви обробили дуже велику кількість даних, чи ви впевнені, що підсумкова модель є дійсно більш точною?

Насправді, найімовірніше, зручніше будувати моделі для невеликих сегментів даних у розподіленій файловій системі.

Як говориться в нещодавньому звіті Forrester: "Два плюс два дорівнює 3,9 - це зазвичай досить добре" (Hopkins & Evelson, 2011).

Статистична та математична точність полягає в тому, що модель лінійної регресії, що включає, наприклад, 10 предикторів, заснованих на правильно зробленій імовірнісній вибірцізі 100 000 спостережень буде так само точна, як модель, побудована на 100 мільйонах спостережень.

Великі дані (або Big Data) – це сукупність методів роботи з величезними обсягами структурованої чи неструктурованої інформації. Фахівці по роботі з великими даними займаються її обробкою та аналізом для отримання наочних, які сприймаються людиною результатів. Look At Me поговорив з професіоналами і з'ясував, якою є ситуація з обробкою великих даних у Росії, де і чому краще вчитися тим, хто хоче працювати в цій сфері.

Олексій Рівкін про основні напрямки у сфері великих даних, спілкування із замовниками та світ чисел

Я навчався у Московському інституті електронної техніки. Головне, що мені вдалося звідти винести - це фундаментальні знання з фізики та математики. Одночасно з навчанням я працював у R&D-центрі, де займався розробкою та впровадженням алгоритмів завадостійкого кодування для засобів захищеної передачі даних. Після закінчення бакалаврату я вступив до магістратури бізнес-інформатики. Вищої школиекономіки. Після цього я захотів працювати у IBS. Мені пощастило, що на той час у зв'язку з великою кількістю проектів йшов додатковий набір стажистів, і після кількох співбесід я почав працювати в IBS, одній з найбільших російських компаній цієї галузі. За три роки я пройшов шлях від стажера до архітектора корпоративних рішень. Зараз займаюся розвитком експертизи технологій Big Data для компаній-замовників із фінансового та телекомунікаційного сектору.

Є дві основні спеціалізації для людей, які хочуть працювати з великими даними: аналітики та ІТ-консультанти, які створюють технології роботи з великими даними. Крім того, можна також говорити про професію Big Data Analyst, тобто людей, які безпосередньо працюють із даними, з ІТ-платформою у замовника. Раніше це були звичайні аналітики-математики, які знали статистику та математику та за допомогою статистичного ПЗ вирішували завдання з аналізу даних. Сьогодні, крім знання статистики та математики, необхідне також розуміння технологій та життєвого циклу даних. У цьому, на мою думку, і полягає відмінність сучасних Data Analyst від тих аналітиків, які були раніше.

Моя спеціалізація – ІТ-консалтинг, тобто я вигадую та пропоную замовникам способи вирішення бізнес-завдань за допомогою ІТ-технологій. У консалтинг приходять люди з різним досвідом, але найважливіші якості для цієї професії – це вміння розуміти потреби клієнта, прагнення допомагати людям та організаціям, гарні комунікаційні та командні навички (оскільки це завжди робота з клієнтом та в команді), хороші аналітичні здібності. Дуже важлива внутрішня мотивація: ми працюємо в конкурентному середовищі, і замовник чекає на незвичайні рішення та зацікавленість у роботі.

Більшість часу у мене йде на спілкування із замовниками, формалізацію їхніх бізнес-потреб і допомогу в розробці найбільш підходящої технологічної архітектури. Критерії вибору тут мають свою особливість: крім функціональних можливостейі ТСО (Total cost of ownership – загальна вартість володіння) дуже важливі нефункціональні вимоги до системи, найчастіше цей час відгуку, час обробки інформації. Щоб переконати замовника, ми часто використовуємо підхід proof of concept – пропонуємо безкоштовно «протестувати» технологію на якомусь завданні на вузькому наборі даних, щоб переконатися, що технологія працює. Рішення має створювати для замовника конкурентну перевагу за рахунок отримання додаткових вигод (наприклад, x-sell, крос-продаж) або вирішувати якусь проблему в бізнесі, скажімо, знизити високий рівень шахрайства за кредитами.

Було б набагато простіше, якби клієнти приходили з готовим завданням,але поки що вони не розуміють, що з'явилася революційна технологія, яка може змінити ринок за кілька років

З якими проблемами доводиться стикатися? Ринок поки що не готовий використовувати технології «великих даних». Було б набагато простіше, якби клієнти приходили з готовим завданням, але поки що вони не розуміють, що з'явилася революційна технологія, яка може змінити ринок за кілька років. Саме тому ми, по суті, працюємо в режимі стартапу – не просто продаємо технології, а й щоразу переконуємо клієнтів, що потрібно в ці рішення інвестувати. Це така позиція візіонерів – ми показуємо замовникам, як можна поміняти свій бізнес із залученням даних та ІТ. Ми створюємо цей новий ринок – ринок комерційного ІТ-консалтингу в області Big Data.

Якщо людина хоче займатися дата-аналізом або ІТ-консалтингом у сфері Big Data, то перше, що важливо, - це математична або технічна освіта з гарною математичною підготовкою. Також корисно освоїти конкретні технології, припустимо SAS, Hadoop, мову R або рішення IBM. Крім того, потрібно активно цікавитись прикладними завданнямидля Big Data - наприклад, як їх можна використовувати для покращеного кредитного скорингу в банку або управління життєвим цикломклієнта. Ці та інші знання можна отримати з доступних джерел: наприклад, Coursera і Big Data University . Також є Customer Analytics Initiative у Wharton University of Pennsylvania, де опубліковано дуже багато цікавих матеріалів.

Серйозна проблема для тих, хто хоче працювати в нашій області, – це явна нестача інформації про Big Data. Ти не можеш піти до книгарні або на якийсь сайт і отримати, наприклад, вичерпну збірку кейсів за всіма застосуваннями технологій Big Data в банках. Таких довідників немає. Частина інформації знаходиться у книгах, ще частина збирається на конференціях, а до чогось доводиться доходити самим.

Ще одна проблема полягає в тому, що аналітики добре почуваються у світі чисел, але їм не завжди комфортно у бізнесі. Такі люди часто інтровертні, їм важко спілкуватися, і тому важко переконливо доносити до клієнтів інформацію про результати досліджень. Для розвитку цих навичок я рекомендував би такі книги, як «Принцип піраміди», «Говори мовою діаграм». Вони допомагають розвинути презентаційні навички, лаконічно та зрозуміло викладати свої думки.

Мені дуже допомогла участь у різних кейс-чемпіонатах під час навчання у НДВ ВШЕ. Кейс-чемпіонати – це інтелектуальні змагання для студентів, де потрібно вивчати бізнес-проблеми та пропонувати їх вирішення. Вони бувають двох видів: кейс-чемпіонати консалтингових фірм, наприклад McKinsey, BCG, Accenture, а також незалежні кейс-чемпіонати типу Changellenge. Під час участі в них я навчився бачити та вирішувати складні завдання – від ідентифікації проблеми та її структурування до захисту рекомендацій щодо її вирішення.

Олег Михальський про російський ринок та специфіку створення нового продукту у сфері великих даних

До приходу в Acronis я займався запуском нових продуктів на ринок в інших компаніях. Це завжди цікаво і складно одночасно, тому мене одразу зацікавила можливість роботи над хмарними сервісамита рішеннями для зберігання даних. У цій сфері став у нагоді весь мій попередній досвід роботи в ІТ-галузі, включаючи власний стартап-проект I-accelerator. Допомогло також і наявність бізнес-освіти (MBA) на додаток до базової інженерної.

У Росії у великих компаній - банків, мобільних операторіві т. д. – є потреба в аналізі великих даних, тому в нашій країні є перспективи для тих, хто хоче працювати у цій галузі. Щоправда, багато проектів зараз є інтеграційними, тобто зробленими на основі зарубіжних напрацювань чи open source-технологій. У таких проектах не створюються принципово нові підходи та технології, а швидше адаптуються вже наявні напрацювання. В Acronis ми пішли іншим шляхом і, проаналізувавши наявні альтернативи, вирішили вкластися у власну розробку, створивши в результаті систему надійного зберігання для великих даних, яка за собівартістю не поступається, наприклад, Amazon S3, але працює надійно та ефективно і на значно менших масштабах. Власні розробки за великими даними є і великі інтернет-компанії, але вони швидше орієнтовані на внутрішні потреби, ніж задоволення потреб зовнішніх клієнтів.

Важливо розуміти тренди та економічні сили, які впливають на сферу обробки великих даних. Для цього потрібно багато читати, слухати виступи авторитетних спеціалістів у ІТ-індустрії, відвідувати тематичні конференції. Зараз майже кожна конференція має секцію про Big Data, але всі вони розповідають про це під різним кутом: з погляду технологій, бізнесу чи маркетингу. Можна піти на проектну роботу або стажування до компанії, яка вже веде проекти на цю тематику. Якщо ви впевнені у своїх силах, ще не пізно організувати стартап у сфері Big Data.

Без постійного контакту із ринком нова розробкаризикує виявитися незатребуваною

Щоправда, коли ви відповідаєте за новий продукт, багато часу йде на аналітику ринку та спілкування з потенційними клієнтами, партнерами, професійними аналітиками, які знають багато про клієнтів та їхні потреби. Без постійного контакту з ринком нова розробка ризикує виявитися незатребуваною. Завжди багато невизначеностей: ви повинні зрозуміти, хто стануть першими користувачами (early adopters), що у вас є для них цінного і як потім залучити масову аудиторію. Друге за важливістю завдання - це сформувати і донести до розробників чітке та цілісне бачення кінцевого продукту, щоб мотивувати їх на роботу в таких умовах, коли деякі вимоги можуть змінюватися, а пріоритети залежать від зворотнього зв'язку, що надходить від перших клієнтів. Тому важливе завдання - це управління очікуваннями клієнтів з одного боку та розробників з іншого. Так щоб ні ті ні інші не втратили інтерес і довели проект до завершення. Після першого успішного проекту стає простіше і головним завданням буде знайти правильну модель зростання для нового бізнесу.

У російськомовному середовищі використовується як термін Big Data, і поняття «великі дані». Термін «великі дані» – це калька англомовного терміна. Великі дані немає суворого визначення. Не можна провести чіткий кордон – це 10 терабайт чи 10 мегабайт? Сама назва дуже суб'єктивна. Слово "велике" - це як "один, два, багато" у первісних племен.

Проте є думка, що великі дані - це сукупність технологій, які покликані здійснювати три операції. По-перше, обробляти великі порівняно зі «стандартними» сценаріями обсяги даних. По-друге, вміти працювати з даними, що швидко надходять, у дуже великих обсягах. Тобто даних не просто багато, а їх постійно стає дедалі більше. По-третє, вони повинні вміти працювати зі структурованими та погано структурованими даними паралельно у різних аспектах. Великі дані припускають, що на вхід алгоритми отримують потік не завжди структурованої інформації і що з нього можна отримати більше однієї ідеї.

Типовий приклад великих даних - це інформація, що надходить з різних фізичних експериментальних установок - наприклад, з , що виробляє величезну кількість даних і робить це постійно. Установка безперервно видає великі обсяги даних, а вчені з допомогою вирішують паралельно безліч завдань.

Поява великих даних у громадському просторі було пов'язано з тим, що ці дані торкнулися практично всіх людей, а не тільки наукової спільноти, де подібні завдання вирішуються давно. У публічну сферу технології Big Dataвийшли, коли мова стала йти про цілком конкретну кількість - кількість жителів планети. 7 мільярдів, які збираються у соціальних мережах та інших проектах, які агрегують людей. YouTube, Facebook, ВКонтактіде кількість людей вимірюється мільярдами, а кількість операцій, які вони здійснюють одночасно, величезна. Потік даних у цьому випадку - це дії користувача. Наприклад, дані того ж хостингу YouTube, які переливаються через мережу в обидві сторони. Під обробкою розуміється не лише інтерпретація, а й можливість правильно обробити кожну з цих дій, тобто помістити його в потрібне місце та зробити так, щоб ці дані кожному користувачеві були доступні швидко, оскільки соціальні мережіне терплять очікування.

Багато з того, що стосується великих даних, підходів, які використовуються для їх аналізу, насправді існує досить давно. Наприклад, обробка зображень з камер спостереження, коли ми говоримо не про одну картинку, а про потік даних. Або навігація роботів. Все це існує десятки років, просто зараз завдання з обробки даних торкнулися значно більшої кількості людей та ідей.

Багато розробників звикли працювати зі статичними об'єктами та мислити категоріями станів. У великих даних парадигма інша. Ти маєш вміти працювати з безперервним потоком даних, і це цікаве завдання. Вона торкається дедалі більше областей.

У нашому житті все більше апаратних засобів та програм починають генерувати велику кількість даних – наприклад, «інтернет речей».

Речі вже зараз генерують величезні потоки інформації. Поліцейська система «Потік» надсилає з усіх камер інформацію та дозволяє знаходити машини за цими даними. Все більше входять у моду фітнес-браслети, GPS-трекери та інші речі, які обслуговують завдання людини та бізнесу.

Департамент інформатизації Москви набирає велику кількість аналітиків даних, тому що статистики по людях накопичується дуже багато і вона багатокритеріальна (тобто про кожну людину, про кожну групу людей зібрано статистику за дуже великою кількістю критеріїв). У цих даних треба знаходити закономірності та тенденції. Для таких завдань потрібні математики з IT-освітою. Тому що зрештою дані зберігаються в структурованих СУБД, і треба вміти до них звертатися та отримувати інформацію.

Раніше ми не розглядали великі дані як завдання з тієї простої причини, що не було місця для їх зберігання та не було мереж для їх передачі. Коли ці з'явилися, дані відразу заповнили собою весь наданий їм обсяг. Але як би не розширювали пропускну спроможністьі здатність до зберігання даних завжди знайдуться джерела, припустимо, фізичні експерименти, експерименти з моделювання обтічності крила, які продукуватимуть інформації більше, ніж ми можемо передати. За законом Мура, продуктивність сучасних паралельних обчислювальних системстабільно зростає, зростають і швидкості мереж передачі даних. Однак дані потрібно вміти швидко зберігати та витягувати з носія ( жорсткого диската інших видів пам'яті), і це ще одне завдання у обробці великих даних.

Термін «Біг-Дата», можливо, сьогодні вже впізнаваний, але навколо нього все ще досить багато плутанини щодо того, що він означає насправді. Правду кажучи, концепція постійно розвивається і переглядається, оскільки вона залишається рушійною силою багатьох хвиль цифрового перетворення, що продовжуються, включаючи штучний інтелект, науку про дані та Інтернет речей. Але що є технологія Big-Data і як вона змінює наш світ? Спробуймо розібратися пояснити суть технології Біг-Дати і що вона означає простими словами.

Дивовижне зростання Біг-Дати

Все почалося зі «вибуху» в обсязі даних, які ми створили від початку цифрової епохи. Це багато в чому пов'язане з розвитком комп'ютерів, Інтернету та технологій, здатних «вихоплювати» дані з навколишнього світу. Дані власними силами є новим винаходом. Ще до епохи комп'ютерів та баз даних ми використовували паперові записи транзакцій, клієнтські записи та архівні файли, які є даними. Комп'ютери, особливо електронні таблиці та бази даних, дозволили нам легко і легко зберігати та впорядковувати дані у великих масштабах. Несподівано інформація стала доступною за допомогою одного клацання миші.

Тим не менш, ми пройшли довгий шлях від початкових таблиць та баз даних. Сьогодні через кожні два дні ми створюємо стільки даних, скільки ми отримали від початку до 2000 року. Правильно через кожні два дні. І обсяг даних, які ми створюємо, продовжує швидко зростати; до 2020 обсяг доступної цифрової інформації зросте приблизно з 5 зеттабайтів до 20 зеттабайтів.

В даний час майже кожна дія, яку ми робимо, залишає свій слід. Ми генеруємо дані щоразу, коли виходимо в Інтернет, коли переносимо наші смартфони, обладнані пошуковим модулем, коли розмовляємо з нашими знайомими через соціальні мережі чи чати тощо. До того ж кількість даних, згенерованих машинним способом, також швидко зростає. Дані генеруються та розповсюджуються, коли наші «розумні» домашні пристрої обмінюються даними один з одним або зі своїми домашніми серверами. Промислове обладнання на заводах та фабриках все частіше оснащується датчиками, які акумулюють та передають дані.

Термін «Big-Data» стосується збору всіх цих даних і нашої здатності використовувати їх у своїх інтересах у широкому спектрі областей, включаючи бізнес.

Як працює технологія Big Data?

Біг Дата працює за принципом: чим більше ви знаєте про той чи інший предмет чи явище, тим достовірніше ви зможете досягти нового розуміння та передбачити, що станеться у майбутньому. У ході порівняння більшої кількості точок даних виникають взаємозв'язки, які раніше були приховані, і ці взаємозв'язки дозволяють нам навчатися та приймати більш виважені рішення. Найчастіше це робиться за допомогою процесу, який включає побудову моделей на основі даних, які ми можемо зібрати, і подальший запуск імітації, в ході якої щоразу налаштовуються значення точок даних і відстежується те, як вони впливають на наші результати. Цей процес автоматизований — сучасні технології аналітики запускатимуть мільйони цих симуляцій, налаштовуючи всі можливі змінні доти, доки не знайдуть модель — чи ідею — які допоможуть вирішити проблему, над якою вони працюють.

Біл Гейтс висить над паперовим вмістом одного компакт-диска

Донедавна дані були обмежені електронними таблицями чи базами даних — і все було дуже впорядковане та акуратне. Все те, що не можна було легко організувати в рядки та стовпці, розцінювалося як надто складне для роботи та ігнорувалося. Однак прогрес у галузі зберігання та аналітики означає, що ми можемо фіксувати, зберігати та обробляти велику кількість даних різного типу. В результаті «дані» на сьогоднішній день можуть означати будь-що, починаючи базами даних, і закінчуючи фотографіями, відео, звукозаписами, письмовими текстами та даними датчиків.

Щоб зрозуміти всі ці безладні дані, проекти, що мають в основі Біг Дату, найчастіше використовують ультрасучасну аналітику із залученням штучного інтелектута комп'ютерного навчання. Навчаючи обчислювальні машини визначати, що є конкретні дані — наприклад, у вигляді розпізнавання образів чи обробки природної мови – ми можемо навчити їх визначати моделі набагато швидше і достовірніше, ніж ми самі.

Як використовується Біг-Дата?

Цей потік інформації, що постійно збільшується, про дані датчиків, текстових, голосових, фото- і відеоданих означає, що тепер ми можемо використовувати дані тими способами, які неможливо було уявити ще кілька років тому. Це приносить революційні зміни у світ бізнесу чи не в кожній галузі. Сьогодні компанії можуть з неймовірною точністю передбачити, які конкретні категорії клієнтів захочуть зробити придбання і коли. Біг Дата також допомагає компаніям виконувати свою діяльність набагато ефективніше.

Навіть поза сферою бізнесу проекти, пов'язані з Big-Data, вже допомагають змінити наш світ різними шляхами:

  • Покраща здоров'я — медицина, керована даними, здатна аналізувати величезну кількість медичної інформації та зображень для моделей, які можуть допомогти виявити захворювання на ранній стадії та розробити нові ліки.
  • Прогнозуючи та реагуючи на природні та техногенні катастрофи. Дані датчиків можна проаналізувати, щоб передбачити, де можуть статися землетруси, а моделі поведінки людини підказують, які допомагають організаціям надавати допомогу тим, хто вижив. Технологія Біг Дати також використовується для відстеження та захисту потоку біженців із зон воєнних дій у всьому світі.
  • Запобігаючи злочинності. Поліцейські сили все частіше використовують стратегії, засновані на даних, які включають їхню власну розвідувальну інформацію та інформацію з відкритого доступудля більш ефективного використанняресурсів та вжиття стримувальних заходів там, де це необхідно.

Кращі книгипро технологію Big-Data

  • Всі брешуть. Пошуковики, Big Data та Інтернет знають про вас все.
  • BIG DATA. Вся технологія в одній книзі.
  • Промисловість щастя. Як Big Data та нові технології допомагають додати емоцію в товари та послуги.
  • Революція аналітики. Як у епоху Big Data покращити ваш бізнес за допомогою операційної аналітики.

Проблеми з Big-Data

Біг Дата дає нам безпрецедентні ідеї та можливості, але також порушує проблеми та питання, які необхідно вирішити:

  • Конфіденційність даних – Big-Data, яку ми сьогодні генеруємо, містить багато інформації про наше особисте життя, на конфіденційність якого ми маємо повне право. Дедалі частіше нас просять знайти баланс між кількістю персональних даних, які ми розкриваємо, та зручністю, яку пропонують додатки та послуги, засновані на використанні Біг Дати.
  • Захист даних — навіть якщо ми вирішуємо, що нас влаштовує те, що хтось має наші дані для певної мети, чи можемо ми довіряти йому збереження та безпеку наших даних?
  • Дискримінація даних — коли вся інформація буде відома, чи стане прийнятною дискримінація людей на основі даних із їхнього особистого життя? Ми вже використовуємо оцінки кредитоспроможності, щоб вирішити, хто може брати гроші, і страхування також значною мірою залежить від даних. Нам варто очікувати, що нас будуть аналізувати і оцінювати більш докладно, проте слід подбати про те, щоб це не ускладнювало життя тих людей, які мають менші ресурси і обмеженим доступомдо інформації.

Виконання цих завдань є важливою складовою Біг Дати і їх необхідно вирішувати організаціям, які хочуть використовувати такі дані. Нездатність здійснити це може зробити бізнес вразливим, причому не лише з погляду його репутації, але й з юридичної та фінансової сторони.

Дивлячись у майбутнє

Дані змінюють наш світ та наше життя небувалими темпами. Якщо Big-Data здатна на все це сьогодні, просто уявіть, на що вона буде здатна завтра. Обсяг доступних нам даних лише збільшиться, а технологія аналітики стане ще більш сучасною.

Для бізнесу здатність застосовувати Біг Дату ставатиме все більш вирішальною у найближчі роки. Тільки ті компанії, які розглядають дані як стратегічний актив, виживуть і процвітатимуть. Ті, хто ігнорує цю революцію, ризикують залишитися позаду.