GeekUniversity запустил факультет аналитики Big Data (больших данных), и мы спешим рассказать о нем.
Наш сегодняшний собеседник — Сергей Ширкин — декан факультета и Data Scientist с опытом работы в таких компаниях, как Сбербанк, Росбанк, бюро кредитной истории Equifax. Он занимался автоматизацией финансовых технологий, строил финансовые модели на основе машинного обучения, прогнозировал просмотры рекламы с применением методов ИИ. Сейчас Сергей работает в компании Dentsu Aegis Network Russia, преподает в GeekBrains, возглавляет факультет искусственного интеллекта и новый факультет аналитики больших данных в GeekUniversity.
— Сергей, привет! Расскажи, пожалуйста, почему из направления Data Science в GeekUniversity выделился факультет аналитики Big Data.
— Привет! Дело в том, что крупным компаниям нужны специалисты, которые умеют работать не просто с искусственным интеллектом, но и с большими объемами данных. С объемами, которые не обработаешь на обычном офисном компьютере или сервере: тут требуются другие мощности, а главное — алгоритмы распределенных вычислений.
Следовательно, нужны и специалисты, с такими алгоритмами знакомые.
Системы обработки больших данных — это высоконагруженные системы. Они нуждаются в осторожной грамотной эксплуатации. Не все специалисты, которые работают с искусственным интеллектом, хотят заниматься большими данными и сталкиваться с трудностями на этом пути. Тем более, для многих аналитических задач большие данные не нужны. Миллионы и десятки миллионов наблюдений, зафиксированных в базе, — это еще не Big Data. Здесь мы имеем дело с малыми и средними данными.
Специалист Data Science обычно работает с датасетом в несколько гигабайт. А большие данные измеряются в терабайтах и даже петабайтах. Для их обработки нужны кластеры машин и такие технологии, как Hadoop, Spark.
— Насколько разных специалистов готовят факультеты искусственного интеллекта и анализа больших данных?
— У факультетов искусственного интеллекта и аналитики больших данных общий фундамент: и там и тут применяются статистика и машинное обучение. Но, когда у вас очень много данных, нужно знать специализированные библиотеки и технологии, прежде всего — экосферу Hadoop и парадигму MapReduce. Плюс понадобится технология Spark — более новая, чем MapReduce, и предназначенная для распределенных алгоритмов, в том числе для машинного обучения на больших данных.
— Учатся на обоих факультетах одинаково по времени?
— Да, по полтора года — три семестра. Но на факультете аналитики Big Data есть дополнительные курсы, на которых студенты знакомятся с инфраструктурой (теми же Hadoop и Spark), узнают особенности работы именно с большими данными.
— Получается, на факультете Big Data изучение аналитики глубже, а на Data Science — охват шире?
— Можно и так сказать. На факультете ИИ больше времени уделяется математике, компьютерному зрению, обработке естественного языка. Но, как я уже сказал, база одна.
— Приведи примеры задач, которые аналитики больших данных решают в разных сферах: в банках, торговле, IT, телекоме, логистике и транспорте, консалтинге.
— В банках можно в реальном времени анализировать транзакции и тут же строить сложные модели. Малые или средние данные можно было бы сначала агрегировать и обработать, а с большими часто приходится работать в реальном времени: анализировать миллиарды транзакций и реагировать на них.
У кого еще много данных? У операторов связи: они ежедневно получают информацию терабайтами, и для работы с ней нужны специальные инструменты. Мы можем посмотреть, сколько SMS человек отправляет в день, и предложить ему подходящий тариф. Это делается, чтобы не терять клиентов. Пользователей миллионы, они постоянно делают звонки, и в результате у оператора формируется, условно говоря, таблица с миллионами строк. Чтобы это обработать, нужен кластер Hadoop, Spark и так далее.
— С банками и операторами связи понятно. А другие примеры?
— В обработке Big Data может нуждаться сеть супермаркетов, которая делает свою рекомендательную систему.
Такая система составляет профиль клиента, где учитывает, какие покупки он делает. С ее помощью можно сообщать пользователю о подходящих акциях и скидках на интересные ему товары.
— Получается, аналитик не только обрабатывает данные постфактум, но пишет сценарии реагирования: как система будет отвечать на события?
— Можно и постфактум анализировать, но для работы с большими данными в любом случае нужно хорошо программировать. Потому что ты имеешь дело не с таблицей Excel, а с массивом, к которому без специальных инструментов не подступишься, — для его обработки нужны библиотеки на Python. И уже с их помощью ты можешь формировать отчеты, строить графики или выводить результаты еще в каком-то виде.
Главное — понимать, что у аналитика Big Data нет готового приложения, где можно что-то вычислить и получить результат нажатием одной кнопки.
— Python — это сейчас стандарт в области анализа больших данных?
— Да. В принципе, для этих задач можно использовать и Java, но по вакансиям в сфере аналитики данных видно, что работодатели в первую очередь требуют именно знание Python. Потому что под него больше популярных инструментов: библиотек для машинного обучения, просмотра данных и построения графиков.
Есть два подхода к анализу данных. Либо это Ad hoc — когда один раз смотришь нужный показатель на лету. Либо это система, которая работает и мониторит что-то ежедневно. Как правило, сначала аналитик делает множество запросов ad hoc, чтобы представить себе структуру данных и сориентироваться. А дальше он пишет приложение для регулярной работы с данными.
— Можно пример, который иллюстрирует эти два подхода?
— Допустим, ты анализируешь сообщения в Twitter. Ты можешь разово найти десять самых популярных твитов месяца и вывести на одну страницу. Либо ты создашь решение, которое будет каждый день анализировать посты и выявлять тенденции: смотреть, как меняется популярность бренда по месяцам, например. Владелец бренда сможет учитывать это при разработке рекламных кампаний.
Результаты анализа больших данных более репрезентативны, чем то, что дает опрос тысячи человек или фокус-группы. И обходится работа аналитика в итоге дешевле, чем регулярное проведение опросов.
А если система работает в режиме реального времени, анализировать данные можно мгновенно, что позволяет быстрее реагировать на ситуацию.
— Что такое предиктивная аналитика? Из названия ясно, что она связана с прогнозированием. Но как именно это работает?
— У нас есть данные, на основе которых мы строим прогноз: либо общий (пытаемся уловить тенденции), либо частный.
Пример частного прогноза в финансовой сфере — кредитный скоринг. Банки присваивают каждому клиенту балл «благонадежности»: насколько вероятно, что он вернет кредит. Для этого анализируют его историю поведения: какие кредиты брал, как отдавал, допускал ли просрочки по выплатам. Представь себе число клиентов крупного банка, и по каждому надо проанализировать множество транзакций.
— У транспортных и логистических компаний тоже есть большие данные. Какие решения нужны в этой сфере? Прогнозирование дорожной ситуации в конкретное время в конкретном месте?
— Есть сервис «Яндекс.Пробки», да. Он строит прогнозы, в том числе на основе прошлых данных по разным участкам дороги. Но я сейчас другой пример вспомнил.
Вдоль шоссе висят щиты-экраны, на которых можно показывать любые рекламные заставки. И есть программа, которая отслеживает номера телефонов в радиусе ста метров, например. То есть система знает, кто едет по шоссе.
Дальше она анализирует связанную с этими номерами информацию: историю покупок, посещения сайтов и интернет-магазинов. Быстрый подсчет позволяет выводить на щиты рекламу, более актуальную для проезжающей в данный момент аудитории.
— А откуда система берет информацию по телефонам, тем более с привязкой к магазинам и сайтам? Для этого нужно работать с какими-то специальными базами, магазинами данных?
— Интернет-сервисы обмениваются обезличенными данными в рамках закона. Системе управления рекламными щитами не нужны ваши имена и фамилии — ей достаточно знать ID, привязанный к SIM-карте. И она может получать от партнерских сервисов информацию по такому абстрактному пользователю. Купит ли владелец сервиса эти данные или обменяет «бартером» — второй вопрос. Это сложная тема, связанная с юридическими моментами, но в принципе организации у нас имеют право обмениваться неперсонифицированными данными.
— Как выглядит карьерная лестница аналитика данных? Какие в этой сфере перспективы развития?
— Рядовой аналитик вырастает в тимлида — руководителя отдела или его подразделения. Главу отдела аналитики зачастую называют директором направления R&D (Research and Development) или отдела Data Science.
Можно стать начальником аналитического департамента или управления, если такие подразделения в компании есть. Плюс, естественно, есть градация Junior, Middle, Senior.
— Какие проекты сделают студенты за время обучения? На странице факультета программа обучения есть, но интересно, как она будет раскрываться в реальных проектах.
— Из того, что уже утверждено, могу назвать четыре проекта:
- Предсказание цены на недвижимость (курс «Python для Data Science», первая четверть).
- Прогнозирование оттока клиентов сотового оператора (курс «BigData. Введение в экосистему Hadoop», вторая четверть).
- Построение модели кредитного скоринга для банка (курс «Машинное обучение. Часть 1», четвертая четверть).
- Рекомендательная система для интернет-магазина (курс «Машинное обучение. Часть 2», четвертая четверть).
— Про модель кредитного скоринга, телеком и рекомендательные системы мы уже говорили, а вот предсказание цены на недвижимость — это как будет выглядеть? Берется массив данных за некий период и постфактум анализируется?
— Берем квартиры за определенный период времени. Известны их характеристики: метраж, этажность, количество комнат, местоположение дома, экология в районе и так далее. Строим модель предсказания цен — и после этого для других квартир можем в автоматическом режиме вычислять наиболее вероятную стоимость.
— Для проектов готовые большие данные студентам предоставят?
— Да, студенты будут работать с готовыми датасетами.
— Сергей, спасибо, что рассказал о факультете и о работе аналитика Big Data. Я наконец поняла, чем на практике эта специальность отличается от смежных. Надеюсь, читатели тоже теперь лучше представляют себе профессию, о которой мы говорили.
Пройти обучение