Елена Булыгина предлагает Вам запомнить сайт «Ленусик»
Вы хотите запомнить сайт «Ленусик»?
Да Нет
×
Прогноз погоды

Основная статья: Big-data-analytics

От IT-рутины — к аналитике Big Data

— Вы работаете сетевым инженером в «Альфа-Банке». Почему решили сменить профессию, ведь вы уже в IT?

— Изначально эта работа была действительно интересной. Постоянно добавлялись новые задачи и обязанности. Но теперь обслуживание специфического сетевого оборудования превратилась для меня в рутину.

Более того, после мониторинга рынка я осознал, что мои нынешние знания и опыт не особо помогут продвинуться в профессии. Фактически я оказался в тупике развития. Это я осознал примерно через четыре года работы в компании. 

Все остальное нравится: адекватное руководство, отличный коллектив. Но я считаю, что в IT главное — развиваться.

— C вашей специальностью совсем не получилось бы продвигаться?

— Подобные вакансии есть и в других компаниях, но обязанности похожи везде. Уровень зарплаты тоже примерно равный. Если бы я перешел в другую компанию, делал бы то же самое и получал бы столько же.

— Почему вы решили изучать Python?

— Все решилось само собой. Мне понадобилось написать скрипт для выгрузки данных. А знаний для этого практически не было, так как последние занятия по программированию у меня были еще в вузе. Но я слышал и читал, что для таких задач идеально подходит Python.

Огромный плюс этого языка для меня — относительная простота в освоении. Я не хотел тратить месяцы на обучение, чтобы написать скрипт. Ну а поскольку Python используется также в других аспектах веб-разработки и для аналитики, то мой выбор был очевидным.

GeekBrains я выбрал потому, что двое моих друзей учились здесь. Я поступил на курс «Программист Python».

— Что дало вам обучение?

— Меня увлек мир разработки. Очень радовало, когда обычные строки кода превращались в рабочую программу, которая делала то, что я задумал. Программирование — это творчество, и я решил продолжать свой путь.

Кстати, тот самый скрипт, о котором шла речь выше, я написал и получил за это повышенную премию.

— Как планируете развиваться?

— Решил продолжать работу с Python и смежными сферами. Недавно поступил в Geek University на факультет аналитики Big Data. Сложновато совмещать работу и учебу, и с маленькой дочкой тоже хочется проводить время. Но я справляюсь.

— А что с работой, уже нашли новое место?

— Пока нет, но и к поискам приступил недавно. Ищу работу по специальности «аналитик Big Data» или Data Scientist. Это очень востребованное направление: спрос на таких специалистов велик, как и спектр задач, которые они решают.

Активно начну искать новое место после того, как закончу обучение. Помимо курсов в GU еще изучаю машинное обучение и анализ данных на Coursera. Подтягиваю математику и алгоритмы. Не хватает реальной практики — хотя и будет выпускной проект, который объединит все полученные знания в одну задачу.

Мне хотелось бы найти работу в крупной технокорпорации, которая специализируется на разработке и аналитике. Например, в Mail.ru или Яндексе. Хочу принимать участие в разработке проектов, которые будут полезны миллионам пользователей. Именно эта цель заставляет меня идти вперед, даже когда устал.

— Вы живете в Москве. Как считаете, подходит ли столица для представителей IT-сферы?

— Да, конечно, здесь множество IT-компаний, которым практически всегда нужны сотрудники в штат и на удаленку. Для себя я выбрал работу в офисе, другие форматы пока не интересуют. Кстати, часто сталкиваюсь с тем, что зарплата штатных сотрудников выше, чем у удаленщиков.

— Как считаете, чего обычно боятся те, кто только планирует уйти в IT или сменить специальность? 

— У меня много раз при смене работы появлялись мысли вроде «А вдруг на новом месте будет не так комфортно, как здесь?». Но в итоге все оказывалось хорошо и я понимал, что не стоило переживать. Главное — верить в свои силы. Лично мне здорово помогала мысль «Если кто-то смог, то почему я не смогу?». И медведей учат на мотоцикле кататься.

Смена сферы деятельности может многих отпугнуть тем, что все как бы приходится начинать с нуля. Но это не совсем верно. Если вы для смены работы закончили хорошие курсы, то при выпуске у вас есть рабочие проекты, юзкейсы, а не просто набор теоретических знаний.

Пройти обучение

23 сен 19, 16:18
0 0
Статистика 1
Показы: 1 Охват: 0 Прочтений: 0

Аналитика Big Data: о новом факультете GeekUniversity

GeekUniversity запустил факультет аналитики Big Data (больших данных), и мы спешим рассказать о нем.

Наш сегодняшний собеседник — Сергей Ширкин — декан факультета и Data Scientist с опытом работы в таких компаниях, как Сбербанк, Росбанк, бюро кредитной истории Equifax. Он занимался автоматизацией финансовых технологий, строил финансовые модели на основе машинного обучения, прогнозировал просмотры рекламы с применением методов ИИ. Сейчас Сергей работает в компании Dentsu Aegis Network Russia, преподает в GeekBrains, возглавляет факультет искусственного интеллекта и новый факультет аналитики больших данных в GeekUniversity.

Сергей, привет! Расскажи, пожалуйста, почему из направления Data Science в GeekUniversity выделился факультет аналитики Big Data.

— Привет! Дело в том, что крупным компаниям нужны специалисты, которые умеют работать не просто с искусственным интеллектом, но и с большими объемами данных. С объемами, которые не обработаешь на обычном офисном компьютере или сервере: тут требуются другие мощности, а главное — алгоритмы распределенных вычислений.

Следовательно, нужны и специалисты, с такими алгоритмами знакомые.

Системы обработки больших данных — это высоконагруженные системы. Они нуждаются в осторожной грамотной эксплуатации. Не все специалисты, которые работают с искусственным интеллектом, хотят заниматься большими данными и сталкиваться с трудностями на этом пути. Тем более, для многих аналитических задач большие данные не нужны. Миллионы и десятки миллионов наблюдений, зафиксированных в базе, — это еще не Big Data. Здесь мы имеем дело с малыми и средними данными.

Специалист Data Science обычно работает с датасетом в несколько гигабайт. А большие данные измеряются в терабайтах и даже петабайтах. Для их обработки нужны кластеры машин и такие технологии, как Hadoop, Spark.

Насколько разных специалистов готовят факультеты искусственного интеллекта и анализа больших данных?

— У факультетов искусственного интеллекта и аналитики больших данных общий фундамент: и там и тут применяются статистика и машинное обучение. Но, когда у вас очень много данных, нужно знать специализированные библиотеки и технологии, прежде всего — экосферу Hadoop и парадигму MapReduce. Плюс понадобится технология Spark — более новая, чем MapReduce, и предназначенная для распределенных алгоритмов, в том числе для машинного обучения на больших данных.

Учатся на обоих факультетах одинаково по времени?

— Да, по полтора года — три семестра. Но на факультете аналитики Big Data есть дополнительные курсы, на которых студенты знакомятся с инфраструктурой (теми же Hadoop и Spark), узнают особенности работы именно с большими данными.

Получается, на факультете Big Data изучение аналитики глубже, а на Data Science — охват шире?

— Можно и так сказать. На факультете ИИ больше времени уделяется математике, компьютерному зрению, обработке естественного языка. Но, как я уже сказал, база одна.

Приведи примеры задач, которые аналитики больших данных решают в разных сферах: в банках, торговле, IT, телекоме, логистике и транспорте, консалтинге.

— В банках можно в реальном времени анализировать транзакции и тут же строить сложные модели. Малые или средние данные можно было бы сначала агрегировать и обработать, а с большими часто приходится работать в реальном времени: анализировать миллиарды транзакций и реагировать на них.

У кого еще много данных? У операторов связи: они ежедневно получают информацию терабайтами, и для работы с ней нужны специальные инструменты. Мы можем посмотреть, сколько SMS человек отправляет в день, и предложить ему подходящий тариф. Это делается, чтобы не терять клиентов. Пользователей миллионы, они постоянно делают звонки, и в результате у оператора формируется, условно говоря, таблица с миллионами строк. Чтобы это обработать, нужен кластер Hadoop, Spark и так далее.

С банками и операторами связи понятно. А другие примеры?

— В обработке Big Data может нуждаться сеть супермаркетов, которая делает свою рекомендательную систему.

Такая система составляет профиль клиента, где учитывает, какие покупки он делает. С ее помощью можно сообщать пользователю о подходящих акциях и скидках на интересные ему товары.

Получается, аналитик не только обрабатывает данные постфактум, но пишет сценарии реагирования: как система будет отвечать на события?

— Можно и постфактум анализировать, но для работы с большими данными в любом случае нужно хорошо программировать. Потому что ты имеешь дело не с таблицей Excel, а с массивом, к которому без специальных инструментов не подступишься, — для его обработки нужны библиотеки на Python. И уже с их помощью ты можешь формировать отчеты, строить графики или выводить результаты еще в каком-то виде.

Главное — понимать, что у аналитика Big Data нет готового приложения, где можно что-то вычислить и получить результат нажатием одной кнопки.

Python — это сейчас стандарт в области анализа больших данных?

— Да. В принципе, для этих задач можно использовать и Java, но по вакансиям в сфере аналитики данных видно, что работодатели в первую очередь требуют именно знание Python. Потому что под него больше популярных инструментов: библиотек для машинного обучения, просмотра данных и построения графиков.

Есть два подхода к анализу данных. Либо это Ad hoc — когда один раз смотришь нужный показатель на лету. Либо это система, которая работает и мониторит что-то ежедневно. Как правило, сначала аналитик делает множество запросов ad hoc, чтобы представить себе структуру данных и сориентироваться. А дальше он пишет приложение для регулярной работы с данными.

Можно пример, который иллюстрирует эти два подхода?

— Допустим, ты анализируешь сообщения в Twitter. Ты можешь разово найти десять самых популярных твитов месяца и вывести на одну страницу. Либо ты создашь решение, которое будет каждый день анализировать посты и выявлять тенденции: смотреть, как меняется популярность бренда по месяцам, например. Владелец бренда сможет учитывать это при разработке рекламных кампаний.

Результаты анализа больших данных более репрезентативны, чем то, что дает опрос тысячи человек или фокус-группы. И обходится работа аналитика в итоге дешевле, чем регулярное проведение опросов.

А если система работает в режиме реального времени, анализировать данные можно мгновенно, что позволяет быстрее реагировать на ситуацию.

Что такое предиктивная аналитика? Из названия ясно, что она связана с прогнозированием. Но как именно это работает?

— У нас есть данные, на основе которых мы строим прогноз: либо общий (пытаемся уловить тенденции), либо частный.

Пример частного прогноза в финансовой сфере — кредитный скоринг. Банки присваивают каждому клиенту балл «благонадежности»: насколько вероятно, что он вернет кредит. Для этого анализируют его историю поведения: какие кредиты брал, как отдавал, допускал ли просрочки по выплатам. Представь себе число клиентов крупного банка, и по каждому надо проанализировать множество транзакций.

У транспортных и логистических компаний тоже есть большие данные. Какие решения нужны в этой сфере? Прогнозирование дорожной ситуации в конкретное время в конкретном месте?

— Есть сервис «Яндекс.Пробки», да. Он строит прогнозы, в том числе на основе прошлых данных по разным участкам дороги. Но я сейчас другой пример вспомнил.

Вдоль шоссе висят щиты-экраны, на которых можно показывать любые рекламные заставки. И есть программа, которая отслеживает номера телефонов в радиусе ста метров, например. То есть система знает, кто едет по шоссе.

Дальше она анализирует связанную с этими номерами информацию: историю покупок, посещения сайтов и интернет-магазинов. Быстрый подсчет позволяет выводить на щиты рекламу, более актуальную для проезжающей в данный момент аудитории.

А откуда система берет информацию по телефонам, тем более с привязкой к магазинам и сайтам? Для этого нужно работать с какими-то специальными базами, магазинами данных?

— Интернет-сервисы обмениваются обезличенными данными в рамках закона. Системе управления рекламными щитами не нужны ваши имена и фамилии — ей достаточно знать ID, привязанный к SIM-карте. И она может получать от партнерских сервисов информацию по такому абстрактному пользователю. Купит ли владелец сервиса эти данные или обменяет «бартером» — второй вопрос. Это сложная тема, связанная с юридическими моментами, но в принципе организации у нас имеют право обмениваться неперсонифицированными данными.

Как выглядит карьерная лестница аналитика данных? Какие в этой сфере перспективы развития?

— Рядовой аналитик вырастает в тимлида — руководителя отдела или его подразделения. Главу отдела аналитики зачастую называют директором направления R&D (Research and Development) или отдела Data Science.

Можно стать начальником аналитического департамента или управления, если такие подразделения в компании есть. Плюс, естественно, есть градация Junior, Middle, Senior.

Какие проекты сделают студенты за время обучения? На странице факультета программа обучения есть, но интересно, как она будет раскрываться в реальных проектах.

— Из того, что уже утверждено, могу назвать четыре проекта:

  1. Предсказание цены на недвижимость (курс «Python для Data Science», первая четверть).
  2. Прогнозирование оттока клиентов сотового оператора (курс «BigData. Введение в экосистему Hadoop», вторая четверть).
  3. Построение модели кредитного скоринга для банка (курс «Машинное обучение. Часть 1», четвертая четверть).
  4. Рекомендательная система для интернет-магазина (курс «Машинное обучение. Часть 2», четвертая четверть).

— Про модель кредитного скоринга, телеком и рекомендательные системы мы уже говорили, а вот предсказание цены на недвижимость — это как будет выглядеть? Берется массив данных за некий период и постфактум анализируется?

Берем квартиры за определенный период времени. Известны их характеристики: метраж, этажность, количество комнат, местоположение дома, экология в районе и так далее. Строим модель предсказания цен — и после этого для других квартир можем в автоматическом режиме вычислять наиболее вероятную стоимость.

— Для проектов готовые большие данные студентам предоставят?

Да, студенты будут работать с готовыми датасетами.

— Сергей, спасибо, что рассказал о факультете и о работе аналитика Big Data. Я наконец поняла, чем на практике эта специальность отличается от смежных. Надеюсь, читатели тоже теперь лучше представляют себе профессию, о которой мы говорили.

Пройти обучение

15 май 19, 16:26
0 0
Статистика 1
Показы: 1 Охват: 0 Прочтений: 0
Показаны все темы: 2

Последние комментарии

нет комментариев
Читать

Поиск по блогу

Люди

7 пользователям нравится сайт lena2018.mirtesen.ru