Задача
Багато продуктів Babylon використовують машинне навчання та штучний інтелект, і в 2019 році не вистачало обчислювальних ресурсів для проведення певного експерименту. Компанія також активно розвивалася (від 100 до 1600 працівників за три роки) і планувала розширення в інші країни.
Рішення
Babylon перенесла свої застосунки для користувачів на платформу Kubernetes у 2018 році, тому команда інфраструктури звернулася до Kubeflow, інструментарію для машинного навчання на Kubernetes. "Ми спробували створити ядро сервера Kubernetes, розгорнули Kubeflow та організували весь експеримент, який виявився дуже успішним", каже керівник AI Infrastructure Жеремі Валле. Команда почала створювати платформу для самостійного навчання AI на основі Kubernetes.
Вплив
Замість того, щоб чекати години або дні на доступ до обчислювальних ресурсів, команди можуть отримати доступ миттєво. Клінічна валідація, яка раніше займала 10 годин, тепер виконується менше ніж за 20 хвилин. Мобільність хмарної платформи також дозволила Babylon розширитися в інші країни.
З моменту свого запуску у Великобританії у 2013 році, стартап сприяв проведенню мільйонів цифрових консультацій по всьому світу. У Великобританії пацієнти зазвичай чекали тиждень або два на прийом у лікаря. Завдяки службі Babylon NHS, GP at Hand, яка має понад 75 000 зареєстрованих пацієнтів, 39% отримують запрошення на прийом до лікаря телефоном протягом 30 хвилин, а 89% протягом 6 годин.
І це лише початок. "Ми намагаємося поєднувати різні технології з медичним досвідом, який ми маємо в компанії, щоб створювати продукти, які допоможуть пацієнтам керувати та розуміти стан свого здоровʼя, а також допоможуть лікарям бути більш ефективними в тому, що вони роблять", каже Жеремі Валле, керівник AI Infrastructure у Babylon.
Багато з цих продуктів використовують машинне навчання та штучний інтелект, і в 2019 році дослідники зіткнулися з проблемою. "У нас є кілька серверів в компанії, де наші дослідники проводили багато експериментів з AI та навчання моделей, і ми дійшли до того, що у нас не було достатньо обчислювальних ресурсів для проведення певного експерименту", каже Валле.
Babylon перенесла свої застосунки для обслуговування користувачів на платформу Kubernetes у 2018 році, "і ми отримали багато знань з Kubernetes завдяки міграції," додає він. Для оптимізації деяких моделей, які були створені, команда звернулася до Kubeflow, інструментарію для машинного навчання на Kubernetes. "Ми спробували створити ядро сервера Kubernetes, розгорнули Kubeflow і організували весь експеримент, який виявився дуже успішним", каже він.
На основі цього досвіду команді Валле було доручено створити самостійну платформу, щоб допомогти командам AI Babylon стати більш ефективними, а отже, допомогти продуктам швидше вийти на ринок. Основні вимоги: (1) можливість надати дослідникам та інженерам доступ до необхідних обчислювальних ресурсів, незалежно від розміру експериментів, які вони можуть проводити; (2) спосіб надання командам найкращих інструментів, які їм потрібні для виконання їхньої роботи, на вимогу та в централізованому вигляді; та (3) навчальна платформа повинна бути близько до даних, які управляються, через філіали компанії в різних країнах.
Kubernetes стала важливою частиною всього цього процесу. "Kubernetes — це чудова платформа для машинного навчання, оскільки вона забезпечує всі необхідні функції планування та масштабування," каже Валле. Необхідність зберігати дані в кожній країні, де працює Babylon, вимагає стратегії з кількома регіонами та хмарами, і деякі країни можуть взагалі не мати публічного хмарного провайдера. "Ми хотіли зробити цю платформу мобільною, щоб ми могли запускати завдання навчання де завгодно", каже він. "Kubernetes запропонувала базовий шар, який дозволяє розгорнути платформу за межами хмарного провайдера, а потім розгорнути будь-які інструменти, які потрібні. Це було дуже гарною перевагою для нас."
Після того, як команда вирішила створити платформу для досліджень AI Babylon на основі Kubernetes, вони звернулися до Cloud Native Landscape для побудови стека: Prometheus та Grafana для моніторингу; Istio для управління мережею на навчальній платформі та контролю доступу до робочих процесів; Helm для розгортання стека; та Flux для управління конвеєром GitOps.
Хмарна платформа AI мала величезний вплив на Babylon. Перші дослідницькі проєкти, які виконувалися на платформі, здебільшого включали машинне навчання та обробку природної мови. Ці експерименти потребували великої кількості обчислювальних ресурсів — 1600 CPU, 3,2 TB RAM, що було значно більше, ніж Babylon мала в компанії. Крім того, доступ до обчислювальних ресурсів займав години, а іноді навіть дні, залежно від того, наскільки була завантажена команда платформи. "Зараз, з Kubernetes і платформою самообслуговування, яку ми надаємо, це відбувається майже миттєво", каже Валле.
Ще один важливий вид роботи, що виконується на платформі, — це клінічна валідація нових застосунків, таких як Babylon's Symptom Checker, який розраховує ймовірність захворювання на основі введених користувачем даних. "Оскільки ми працюємо у сфері охорони здоровʼя, ми хочемо, щоб усі наші моделі були безпечними до того, як вони потраплять у промислову експлуатацію", — каже Валле. Використання Argo для GitOps "дозволило нам масово масштабувати процес."
Раніше дослідники чекали до 10 годин, щоб отримати результати нових версій своїх моделей. З Kubernetes цей час тепер скоротився до менш ніж 20 хвилин. Крім того, раніше вони могли проводити тільки одну клінічну валідацію одночасно, тепер вони можуть проводити багато паралельних валідацій, якщо це необхідно, що є величезною перевагою, враховуючи, що за останні три роки Babylon виросла з 100 до 1600 співробітників.
"Запровадження платформи самообслуговування, де користувачі можуть запускати власні завдання, дозволило нашій спільноті вчених з даних займатися гіперпараметричним налаштуванням та загальним розробленням алгоритмів без будь-яких навичок роботи з хмарою та без допомоги інженерів платформи, що прискорило нашу інновацію," каже головний технологічний офіцер Каролін Харгров.
Додає директор з операцій платформи Жан Марі Фердеге: "Надання платформи на основі Kubernetes нашим вченим з даних призвело до підвищення безпеки, збільшення інновацій через розширення можливостей, і до більш доступної медичної служби, оскільки наші хмарні інженери створюють досвід, який використовується сотнями людей щодня, замість підтримки специфічних індивідуальних випадків."
Крім того, з продовженням розширення Babylon, "буде дуже легко адаптувати нові країни," каже Валле. "Пʼятнадцять місяців тому, коли ми розгорнули цю платформу, у нас було одне велике середовище у Великобританії, але тепер у нас є одне в Канаді, одне в Азії та одне на підході в США. Це одна з речей, яку Kubernetes та інші хмарні проєкти дозволили нам зробити."
План дій Babylon для хмарних технологій включає залучення всіх AI-ініціатив компанії на платформу. Збільшується використання AI для надання медичних послуг. "Я думаю, що це буде цікавим напрямком, де AI та охорона здоровʼя зустрічаються", каже Валле. "Це досить складна проблема, і навколо цього є багато питань. Тому з нашою платформою ми хочемо запитати: 'Що ми можемо зробити, щоб полегшити це для наших розробників та інженерів з машинного навчання?'"