Data science — наука о данных, как стать data scientist с нуля

дата сайтинг

Ежемесячный научно-популярный журнал Harvard Business Review, издаваемый Гарвардской школой бизнеса, назвал Data Scientist «самой желанной профессией XXI века». Интерес к этому направлению в России растет с каждым годом. Людей привлекают разнообразие задач, решаемых сотрудниками этого профиля, и высокие зарплаты. Чаще становятся дата-сайентистами менеджеры, web-аналитики, программисты. Но бывает, что обработкой данных занимаются и доктора наук.

Что такое data science

Если переводить дословно, то data science – это наука о данных. Она позволяет обрабатывать большие объемы информации (Big Data), визуализировать результаты исследований, использовать сделанные выводы в дальнейшей работе.

Выделяют два этапа процесса:

  1. Data. На первом этапе происходит сбор, хранение, обработка данных с выделением из общего массива полезных сведений. На него уходит до 80% рабочего времени специалистов.
  2. Science. Применяя методы статистики, оптимизации, машинного обучения, информацию анализируют, формулируя полезные закономерности для последующего использования.
Решая реальные задачи на практике, дата сайентист должен найти решение, приносящее пользу конкретному проекту.

Data science, как прикладное исследование, включает:

  • выдвижение гипотезы;
  • планирование экспериментальных действий;
  • оценка полученного результата и его применимости к решению поставленной задачи.

Массивы информации для анализа неоднородны. Известны 3 вида данных:

  • структурированные;
  • полуструктурированные;
  • неструктурированные.

работа с данными

Наиболее сложен последний вид, так как для его цифровой обработки не подходят таблицы Exel, а требуются специальные программы.

Как научиться data science

Такую профессию нельзя получить в университетах и колледжах. Чтобы успешно работать в сфере data science, нужен набор практик и навыков.

Возможны 2 варианта обучения:

  • просмотр лекций в интернете;
  • онлайн-курсы.

После прохождения курсов обучающийся получает документ об их успешном окончании. Лекции не дают возможности подтвердить обучение новым навыкам.

Освоить Data science с нуля поможет специальная литература. Например, книга Кэти О’Нил «Data science. Инсайдерская информация для новичков. Включая язык R». В ней автор увлекательным языком вводит читателя в интересный мир аналитики, рассказывая об алгоритмах, финансовом моделировании, визуализации данных.

Какие специалисты работают с данными

На этапе обработки неструктурированной информации и преобразования ее в базы данных работают ELT-специалисты. К ним относят:

  • Data Engineer, задача которого заключается в обеспечении целостности и безопасного хранения информационных баз;
  • backend-разработчик — отвечает за поддержание баз данных в работоспособном виде;
  • архитектор БД планирует хранение собранных сведений.

При анализе массивов информации требуется извлечь максимум полезных данных. Эти цели реализуют:

  • data analyst (аналитик данных) – обрабатывает сведения для решения проблемы с помощью статистических методов, экспериментов, дает прогнозы на перспективу;
  • дата сайентист – получает информацию из разных источников для установления закономерностей и развития бизнеса;
  • Bl-аналитик – используя готовые решения, занимается их визуализацией;
  • Ml-специалист – зная языки программирования и выдвигая гипотезы, разрабатывает алгоритмы анализа.

Работники дата сайтист

Переквалифицироваться в работников дата-сайенс могут люди с экономическим, техническим, математическим образованием, программисты и статистики.

Специализация Дата-сайентист

Полный функционал Data scientist зависит от направления деятельности предприятия, на котором специалист трудится.

Основные должностные обязанности:

  • сбор сведений из разных каналов для дальнейшего анализа;
  • прогнозирование моделей базы клиентов, ее сегментация для продвижения конкретных продуктов;
  • изучение эффективности продаж;
  • анализ всевозможных рисков;
  • составление периодичных и разовых отчетов с визуализацией полученных результатов и прогнозирование показателей на перспективу;
  • обнаружение мошеннических схем по сомнительным операциям.

Хороший специалист этой отрасли отличается от новичка умением выявлять логические цепочки в общем массиве информации, предлагая руководству оптимальные бизнес-решения.

Основные навыки, без которых не обойтись дата-сайентисту

Профессия существует на стыке математики, физики и информатики. Кроме того, необходимы знания статистики и основ программирования.

Основы программирования

Требования к соискателям:

  1. Знание языка программирования для статистической обработки информации (R или Python), языка структурированных запросов (SQL) для работы с базами данных.
  2. Владение инструментами статистики (Tableau, MATLAB), применение статистических методов на практике.
  3. Знание линейной алгебры, математического анализа, теории вероятностей. Они пригодятся, если разработчики примут решение о создании собственных реализаций или дополнения имеющихся.
  4. Понимание методов машинного обучения, большинство из которых реализованы в Python или R.
  5. Умение обработать сведения в разрозненном виде (с пропусками, форматированием строк или даты) и преобразовать их в базы данных.
  6. Визуализация результатов и передача информации. Особенно этот навык актуален при доведении информации до широкой аудитории. Важно разобраться с принципами кодинга сведений и правилами трансляции данных.
  7. Знание специализации сферы деятельности компании. Например, в медицине надо разбираться с видами заболеваний, формами лечения, наименованиями лекарственных препаратов.
Условия приема на должность определяет работодатель. Предыдущий опыт работы также имеет значение.

Важные качества

При составлении резюме на должность дата-сайентиста соискатель делает акцент на личных чертах характера, которые могут пригодиться в дальнейшей работе. Среди них указывают:

  • аналитический склад ума;
  • упорство;
  • целеустремленность;
  • усидчивость;
  • сосредоточенность;
  • добросовестность;
  • стремление довести начатое до конца;
  • коммуникабельность;
  • способность простыми словами передать смысл сложных понятий и принципов.

Прохождение собеседования в компанию

Чтобы повысить шансы на трудоустройство в выбранной компании, при собеседовании постарайтесь убедить работодателя, что указанные в анкете качества вам действительно присущи.

Плюсы и минусы профессии

В каждой работе есть положительные и отрицательные стороны. Человек, решивший пройти обучение в сфере Data science, должен взвесить все «за» и «против», чтобы не пожалеть о своем выборе в дальнейшем.

Преимущества:

  • в России и за границей востребованность в специалистах по обработке данных постоянно растет, поэтому увеличивается количество различных курсов для подготовки профессионалов по данному направлению;
  • высокий уровень заработной платы;
  • возможность постоянного саморазвития, применение передовых технологий в области программирования.

При всех прелестях профессии есть ложка дегтя.

Недостатки:

  • профессия Data scientist требует аналитического склада ума, научиться ее азам дано не каждому;
  • применение общеизвестных методов не всегда срабатывает с первого раза, поиск решения может занять много времени и стоить долгого кропотливого труда.
Упорство в достижении цели и компетентность дата-сайентиста поможет преодолеть трудности и добиться результатов исследований.

Сколько стоит специалист по данным

Агентство New.HR в июне 2019 года опубликовало данные опроса специалистов по Data science. «Чистая» заработная плата работников этой профессии в Москве составила от 113 до 305 тысяч рублей в месяц, в зависимости от стажа работы.

Факторы, влияющие на уровень оплаты труда дата-сайентистов:

  • опыт трудовой деятельности по специальности;
  • глубина проводимых исследований;
  • территориальное расположение компании – в столице зарплата выше;
  • владение английским языком дает возможность устроиться в иностранную компанию, где зарплаты выше.

Человек, который только начинает работать дата-сайентистом, может хорошо зарабатывать, независимо от региона проживания.

Действия, увеличивающие ценность Data scientist

Дата-сайентист может повысить стоимость своих услуг, соблюдая ряд простых правил.

повышение зарплаты

5 шагов к повышению зарплаты:

  1. Следите за новостями в сфере аналитики данных, интересуйтесь трендовыми направлениями, восполняйте недостающие знания.
  2. Принимайте участие в семинарах, круглых столах, конференциях по профессиональной тематике. Не будьте пассивным слушателем. Озвучивайте новые идеи. Добивайтесь признания среди коллег.
  3. Повышайте квалификацию по своей узкой специализации. Эксперты в определенном направлении больше ценятся работодателями.
  4. Создавайте команду единомышленников. Опыт собственного стартапа приветствуется при приеме на работу.
  5. Учитесь говорить на языке, понятном для бизнеса.
Для пассивных аналитиков есть более простой путь – постоянно мониторить рынок труда, подавая резюме в компанию с более высоким уровнем оплаты труда.

Может ли ИИ оставить аналитиков без работы

Первоначально компьютеры воспринимались многими как куча железа. Но со временем машины научились думать, управлять процессами, освободили человека от рутинной работы. История искусственного интеллекта берет свое начало в 1950 году, но и сегодня в большинстве отраслей компьютер не может полностью заменить человека. Data science – одна из таких сфер.

Аналитикам надо изучать новые технологии, применять их в своей работе. Искусственный интеллект поможет им обрабатывать массивы информации, но не предложит альтернативные решения, учитывающее влияние различных факторов.

Где учиться на Data Scientist — специалиста по большим данным

Изучение науки о данных с нуля лучше начинать сразу после окончания школы. Немногие ВУЗы обучают дата-сайентистов. Профессиональных аналитиков готовят по специальным программам ряд учебных заведений. Среди них:

  • Высшая Школа Экономики (ВШЭ) – факультет компьютерных наук – магистерская программа на русском и английском языках;
  • Московский физико-технический институт (МФТИ) – факультет инноваций и высоких технологий – магистратура;
  • Московский государственный университет имени М.В.Ломоносова (МГУ) – факультет вычислительной математики и кибернетики – магистерская программа на 2 года;
  • Санкт-Петербургский государственный университет (СПбГУ) – 2-годовая программа магистратуры на английском языке «Бизнес аналитика и большие данные».

очная форма обучения

Ребята могут обучаться очно: на платной и бесплатной основе. Магистерская программа предполагает получение второго высшего образования.

Существуют некоммерческие курсы дополнительного образования для лиц любого возраста. Обучаться на них можно после сдачи вступительных экзаменов, преодолев необходимый порог по баллам. Срок обучения – 2 года.

Список курсов для подготовки специалистов в сфере Data science:

  • Школа Анализа Данных Яндекса;
  • Технопарк Mail.ru и МГТУ имени Баумана (упор на обучение системных инженеров);
  • Центр компьютерных наук (Яндекс с Jet Brains);
  • Петербургская школа данных (компания E-Contenta).

В интернете много коммерческих курсов по анализу данных. Их стоимость составляет 100-200 тысяч рублей. Срок обучения – от 2 до 8 месяцев. Перевод денег за учебу осуществляйте, убедившись, что выбранные курсы – не лохотрон, разводящий «чайников».

Удаленно обучиться анализу данных можно в институте интернет-профессий Нетология. В зависимости от раздела Data Science, стоимость курсов составляет от 25 до 200 тысяч рублей. Полная информация размещена на официальном сайте https://netology.ru/.

Компания Open Data Science обучает новичков и создает совместные аналитические проекты. Она организует бесплатные международные конференции по актуальным вопросам и направлениям развития, проводит конкурсы среди дата-сайентистов.

Чтобы получить онлайн-образование, человеку нужен ноутбук с выходом в интернет и желание учиться.

В сети доступны видео-уроки, книги, онлайн-лекции по этой тематике.

Программа обучения

Учебный план утверждается разработчиком курса. В нем определяется перечень дисциплин и время, отведенное на их изучение.

Будущие дата-сайентисты изучают:

  • основы программирования на Python;
  • линейную алгебру;
  • матанализ;
  • основы статистики и теории вероятностей;
  • машинное обучение;
  • нейронные сети;
  • Data Engineering;
  • менеджмент;
  • основы бизнеса.

изучение предметов

Учебные предметы зависят от будущей специализации обучающегося. Программа обучения нацелена не на теоретическое изучение учебников, а на приобретение практических навыков анализа данных, вхождение в профессию.

Требования к студентам

Условия поступления в высшие учебные заведения определяются локальными актами ВУЗа. Ограничений по возрасту нет. Надо выбрать ВУЗ, подать документы в установленные сроки, пройти вступительные испытания (тестирование, экзамены, собеседование).

Будущие студенты должны иметь базовые знания по математике и основам программирования.

Какие языки стоит изучить

Для работы в сфере научной обработки данных следует изучать языки программирования. Распространены среди новичков Python и R. Также аналитики используют языки Java, SQL, Scala.

Python

Язык создан в 1991 году, в русском языке распространено название питон. Имеет бесплатную лицензию.

Преимущества:

  • простота изучения;
  • надежность;
  • широкое распространение гарантирует поддержку разработчиков.

Среди недостатков пользователи отмечают появление сообщений об ошибках из-за динамичной типизации языка. Для узких целей статистического анализа уступает языку R.

R

Язык программирования R появился в 1995 году. Лицензия бесплатна.

Плюсы:

  • многообразие специализированных пакетов с открытым исходным кодом;
  • доступность большого числа статистических функций;
  • яркая визуализация данных.
Язык R не подходит для задач общего назначения из-за статистической специализации.

Ему присуща медлительность обработки информации.

Место работы

Data scientist востребован везде, где используются данные для решения конкретных задач. Это может быть финансовая структура, применяющая скоринговые системы при кредитовании физических лиц, или транспортная компания, составляющая расписание движения автобусов на основе анализа пассажиропотока.

работа после обучения

Типы работодателей для дата-сайентистов:

  1. Крупные интернет-компании. Устроившись в подобную фирму стажером, можно наработать опыт в области обработки данных для карьерного роста. Работникам обеспечена официальная занятость, полный соц. пакет, бонусы.
  2. Аналитические подразделения предприятий различных отраслей деятельности. В эту группу входят банки, аудиторские фирмы, телекоммуникационные операторы, ритейл-сети. Сбербанк, один из первых финансовых гигантов в стране, воспользовался услугами дата-сайентистов. Работая в исследовательском отделе крупной компании, опытный специалист может внести личный вклад в ее развитие, предложив на основе анализа данных пути решения застарелых проблем.
  3. Стартапы в сфере data science. Фирмы, работающие в сфере консалтинга, набирают в штат команду дата-сайентистов. Для качественного консультирования клиента важен всесторонний подход к анализу его деятельности, формулирование предложений по продвижению бизнеса.

Бизнес-сообщество нуждается в грамотных специалистах по анализу данных. Поэтому на рынке труда постоянно присутствует много вакансий аналитиков в сфере финансов, телекоммуникаций, маркетинга и других направлений.

Как работать в Data Science без ученой степени

По статистике, лишь 1% профессиональных аналитиков являются докторами наук. Совсем необязательно защитить докторскую диссертацию, чтобы выявить закономерности при анализе массива информации.

Специалистам важнее иметь практический опыт обработки данных и уметь доступно представить полученные результаты руководству.

Карьера и перспективы

Получить должность дата-сайентиста престижно само по себе, так как требует основательной теоретической подготовки и опыта трудовой деятельности по нескольким профессиям. С мнением аналитика считается руководство компании при принятии ключевых решений, что повышает весомость позиции в глазах коллег.

работать дата сайентистом

В ближайшие годы интерес к профессии только усилится, что в условиях дефицита специалистов данной отрасли приведет к росту зарплат и повышению престижа сотрудников аналитических отделов.

Интересные факты о профессии 

Профессия дата-сайентиста позволяет заглянуть за горизонт, не теряя связь с реальностью. За период 2015-2018 гг. потребность в таких специалистах возросла в России в 7 раз.

5 фактов о российских дата-сайентистах:

  1. Четыре человека из пяти практикующих Data scientist – мужчины.
  2. Женщины в возрасте от 18 до 24 лет составляют 40% от специалистов женского пола, занятых в этой сфере.
  3. Более 60% вакансий и соискателей находятся в Москве.
  4. 90% соискателей имеют высшее образование.
  5. Лишь 5 % вакансий содержат предложение о фрилансе.

Профессионалам в сфере Data science гарантирована интересная работа с высоким уровнем дохода.

future2day.ru