10 тис. годин, 6 порад. Як увійти у Data Science і не втекти у паніці
На початку 2009 року Wall Street Journal визначив 100 найкращих і найгірших професій на той час за показниками оплати та рівня стресу. Цікаво, що в епоху розвитку комп'ютерних наук та інженерних стартапів на перші місця вийшли зовсім не комп'ютерні інженери. У списку лідерами були математик, статистик та актуарій.
Актуарій — це людина, яка займається data science для страхових компаній. Свого часу це був умовний закритий клуб для елітних математиків. Щоб офіційно займатись актуарною роботою, необхідно було скласти безліч іспитів — від економіки та теорії ймовірності до вузькоспеціалізованих предметів, тісно пов'язаних з роботою страхових компаній та їхньою фінансовою звітністю. Усі три топові професії поєднує математичний бекграунд, і їхня робота була пов'язана або з аналізом даних, або з математичними алгоритмами (на той час, наприклад, для графіки чи 3D-моделювання).
Завдяки швидкому розвитку технологій в останні роки з'явилась нова професія, яка стерла межі між цими трьома і стала найбільш хайповою на планеті: датасаєнтист. Її завдання — за допомогою програмного коду аналізувати масиви даних, витягати з них необхідну інформацію і передавати бізнесу.
Причини популярності дата саєнсу зрозумілі. Кількість даних для аналізу зростає за експонентою, і бізнес розуміє користь отриманої з цих даних інформації. Складність та висока винагорода також принаджують кандидатів. Проте, оскільки сама професія дуже молода, а освітня система надто зашкарубла та негнучка, проблема хороших кадрів постає дуже гостро. Заповнити її натепер покликані світчери — люди з математичною або комп'ютерно-інженерною освітою, які «перевчилися» на датасаєнтистів.
Крім того що у самій професії ці люди можуть виконувати трохи різні ролі, їм однаково потрібно довчати сферу, в якій поки що бракує знань. Так, математикам зазвичай складно зрозуміти парадигми програмування навіть тих алгоритмів, формули до яких вони знають досконально, а також звикнути до CI/CD практик та фреймворків, з якими вони неодмінно матимуть справу. А інженерам невимовно болісно розбиратися з формулами центральної граничної теореми, методом найменших квадратів чи методом максимальної правдоподібності. Це все приходить з досвідом.
Є ще одна причина популярності дата саєнсу: він винагороджує, і йдеться не лише про фінанси. Для різнобічної людини кожен датасет може стати квест-кімнатою, адже у кожному масиві даних багато різних таємниць, і щоб розгадати деякі, потрібно діяти нетривіально. Крім того, попри повністю вивчену реалізацію алгоритмів аналізу даних, ти нечасто можеш передбачити результат роботи цих алгоритмів саме на твоєму датасеті. Тому кожна маленька перемога стає особистим тріумфом. І тому хочеться продовжувати знову, ставити тренування нейронної мережі на ніч, прокидатись і одразу дивитися результати. Суть цього феномену зрозуміла, постійні винагороди і досягнення легко породжують залежність, а тому хочеться ще і більше.
Однак варто наголосити, що не все так сонячно у цьому ремеслі: уже з'являються статті з викриттям професії як токсичної та надто складної. Наприклад, більшість часу датасаєнтист працює з нудними та монотонними завданнями — очищенням і підготовкою даних. Або якщо вам здається, що ви як інтроверт дуже добре справляєтеся з одноманітною роботою, то виявляється, що датасаєнтист має дуже багато спілкуватися з бізнесом і заводити друзів усередині компаній для успіху проєктів, тобто робити далеко не інтровертну роботу. Крім того, у проєктів дата саєнс дуже великий відсоток провалів, причиною яких може бути що завгодно — від поганих даних чи відсутності сигналу в них до нездатності датасаєнтиста чи його менеджера донести користь для бізнесу. А інколи трапляється, що проєкт, над яким ти працював більш ніж півроку, закривають чи відкладають до найкращих часів.
Для тих, хто однаково хоче потрапити у цей пантеон найкращих, ось порада від людини, що провела понад 50 співбесід кандидатів на позиції датасаєнтистів:
-
1
Визначте, який тип роботи вас заряджає — сидіння за складним кодом, дослідження та аналіз і візуалізація даних, моніторинг роботи алгоритму в реальному світі чи спілкування з бізнесом — і шукайте позицію у галузі, яка найкраще вам підходить. Якщо, наприклад, ви єдиний датасаєнтист у компанії, вам необхідно буде робити все, і в цьому є як хороший, так і поганий бік.
-
2
Дослідіть хоча б побіжно, які типи завдань ви хотіли б вирішувати. Зараз вирізняють три типи даних: Tabular (табличні), NLP (текстові) та Computer Vision (картинки). Для цього можна прослухати профільний курс, зробити свій маленький проєкт, взяти участь у змаганні на Kaggle або все це разом.
-
3
Подумайте, хочеться вам працювати над більш буденними і вже розв'язаними завданнями, які принесуть користь бізнесу вже сьогодні, чи над bleeding edge технологіями з високим шансом невдачі та, ймовірно, низькою зарплатою. Знову ж, маючи цю інформацію, можна шукати вигіднішу для вас роботу.
-
4
Пам'ятайте, що через відсутність хорошого офіційного освітнього підґрунтя, ваш диплом чи курси оцінюватимуть дуже слабко. Основний фокус має бути на вже виконані проєкти з кодом на Github або змагання, наприклад, на платформі Kaggle. Не варто недооцінювати цю пораду, адже перший проєкт вам дасть змогу осягнути, наскільки багато невеликих, проте важливих проблем вам доведеться вирішувати на шляху до фінального результату.
-
5
Спробуйте приєднатися до Data Science спільноти зі схожими інтересами, це допоможе продовжувати розвиватись у вашій сфері.
-
6
Пам'ятайте: буде складно.
Як і в будь-якому іншому ремеслі, у Data Science діє правило 10 тис. годин. Проте з появою дотичних тем, як-от MLOps, Interpretability та Bias & Fairness, навіть такої кількості бракуватиме, щоб охопити та досконально зрозуміти всі аспекти професії. Але якщо дійсно горіти справою, то всі ці години будуть не тягарем, а навпаки. Успіхів.