Data scientist как стать: Как стать Data Scientist в 2019 году / Хабр

Содержание

Как стать Data Scientist в 2019 году / Хабр

Data Scientist — это эксперт по аналитическим данным, который обладает техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить. Эти специалисты несут основную ответственность за преобразование данных в Результативные идеи с помощью самостоятельно созданных прогностических моделей и специального анализа в соответствии с требованиями компании.

Другими словами, быть Data Scientist — чрезвычайно важная работа в нынешнем веке данных. Настолько, что статья в Harvard Business Review даже назвала ее (и это побуждает стать одним из них!).«Самой сексуальной работой 21-го века»(и это побуждает стать одним из них!).

И также не повредит тому, что работа Data Scientist очень хорошо окупается при средней зарплате 1022 тыс. в год. Именно поэтому эта статья является полным руководством для того, чтобы стать Data Scientist в 2019 году. Это дорожная карта, которой вы можете следовать, если хотите узнать больше о Data Science.

Но все еще существует большая путаница между различиями в роли Data Analyst и Data Scientist, поэтому мы начнем с этой статьи и перейдем к другим темам, таким как требования к образованию и требования к навыкам, чтобы стать специалистом в этой области.

Разница между Data Analyst и Data Scientist

Очевидно, что и у Data Analyst, и у Data Scientist есть описание работы, связанное с данными. Но какие между ними есть различия? Это вопрос, который возникает у многих людей относительно различий между этими специальностями. Так что давайте проясним это сомнение здесь!

Data Analyst использует данные для решения различных проблем и получения полезных данных для компании. Это делается с помощью различных инструментов на четко определенных наборах данных, чтобы ответить на корпоративные вопросы, такие как «Почему маркетинговая кампания более эффективна в определенных регионах» или «Почему продажи продукта сократились в текущем квартале» и так далее. Для этого основными навыками, которыми обладает аналитик данных, являются Data Mining, R, SQL, статистический анализ, анализ данных и т. д. Фактически, многие Data Analysts получают дополнительные необходимые навыки и становятся Data Scientists.

С другой стороны, Data Scientist может разрабатывать новые процессы и алгоритмы для моделирования данных, создавать прогностические модели и выполнять пользовательский анализ данных в соответствии с требованиями компании. Таким образом, основное отличие заключается в том, что Data Scientist может использовать тяжелое кодирование для проектирования процессов моделирования данных, а не использовать уже существующие для получения ответов из данных, таких как Data Analyst. Для этого основными навыками, которыми обладает Data Scientist, являются Data Mining, R, SQL, Машинное обучение, Hadoop, Статистический анализ, Анализ данных, OOPS и т. д. Таким образом, причина, по которой ученым Data платят больше, чем аналитикам Data, заключается в их высокой уровни квалификации в сочетании с высоким спросом и низким предложением.

Требования к образованию, чтобы стать Data Scientist

Существует много путей достижения вашей цели, но имейте в виду, что большинство из этих путей проходят через колледж, поскольку четырехлетняя степень бакалавра является минимальным требованием.

Самый прямой путь заключается в том, что вы получаете степень бакалавра в области Data Science, поскольку она, несомненно, научит вас навыкам, необходимым для сбора, анализа и интерпретации больших объемов данных. Вы узнаете все о статистике, методах анализа, языках программирования и т. д.,, которые только помогут в вашей работе в качестве Data Scientist.

Другой обходной путь, который вы можете выбрать, — это получить любую техническую степень, которая поможет вам в роли Data Scientist. Некоторые из них — компьютерные науки, статистика, математика, экономика. После получения степени вы будете иметь навыки кодирования, обработки данных, количественного решения проблем. Которые можно применять в Data Science. Затем вы можете найти работу начального уровня или получить степень магистра и доктора наук для более специализированных знаний.

Требования к навыкам, чтобы стать Data Scientist

Для Data Scientist требуется несколько навыков, охватывающих различные области. Большинство из них упоминаются ниже:

1. Статистический анализ. Как специалист по обработке данных, ваша основная задача — собирать, анализировать и интерпретировать большие объемы данных и создавать полезные для компании идеи. Очевидно, что статистический анализ является большой частью описания работы.

Это означает, что вы должны быть знакомы хотя бы с основами статистического анализа, включая статистические тесты, распределения, линейную регрессию, теорию вероятностей, оценки максимального правдоподобия и т. д. И этого недостаточно! Немало важно иметь понятие о том, какие статистические методы являются подходящим подходом для данной проблемы данных, еще важнее понять, какие из них не являются. Кроме того, есть много аналитических инструментов, которые очень полезны в статистическом анализе для Data Scientist. Наиболее популярными из них являются SAS, Hadoop, Spark, Hive, Pig. Поэтому важно, чтобы вы хорошо их знали.

2. Навыки программирования. Навыки программирования являются необходимым инструментом в вашем арсенале. Это потому, что намного легче изучать и понимать данные, чтобы делать полезные выводы, если вы можете использовать определенные алгоритмы в соответствии со своими потребностями.

В общем, Python и R являются наиболее часто используемыми языками для этой цели. Python используется из-за его способности к статистическому анализу и его удобству к прочтению. Python также имеет различные пакеты для машинного обучения, визуализации данных, анализа данных и т. д. (Например, Scikit-learn), которые делают его подходящим для науки о данных. R также позволяет очень легко решить практически любую проблему в Data Science с помощью таких пакетов, как e1071, rpart и многих других.

3. Машинное обучение. Если вы каким-либо образом связаны с технологической отраслью, скорее всего, вы слышали о машинном обучении. Это в основном позволяет машинам изучать задачи из опыта, не программируя их специально. Это делается путем обучения машин с использованием различных моделей машинного обучения с использованием данных и различных алгоритмов.

Таким образом, вы должны быть знакомы с алгоритмами контролируемого и неконтролируемого обучения в машинном обучении, такими как Линейная регрессия, Логистическая регрессия, Кластеризация K-средних, Дерево решений, Ближайший сосед и прочее. К счастью, большинство алгоритмов машинного обучения могут быть реализованы с использованием R или Библиотеки Python (упомянутые выше), Поэтому вам не нужно быть экспертом по ним. В чем вы нуждаетесь, это в умении понять, какой алгоритм требуется, основываясь на типе данных, которые у вас есть, и на задаче, которую вы пытаетесь автоматизировать.

4. Управление данными и обработка данных. Данные играют большую роль в жизни Data Scientist. Таким образом, вы должны быть опытными в управлении данными, которое включает извлечение, преобразование и загрузку данных. Это означает, что вам нужно извлечь данные из различных источников, затем преобразовать их в необходимый формат для анализа и, наконец, загрузить их в хранилище данных. Для обработки этих данных существуют различные платформы, такие как Hadoop, Spark.

Теперь, когда вы завершили процесс управления данными, вы также должны быть знакомы с обработкой данных. Обработка данных — это в основном означает, что данные в хранилище должны быть очищены и унифицированы согласованным образом, прежде чем их можно будет проанализировать для получения каких-либо действенных данных.

5. Интуиция данных. Не стоит недооценивать силу интуиции данных. Фактически, это основной нетехнический навык, который отличает Data Scientist от Data Analyst. Интуиция данных в основном включает в себя поиск шаблонов в данных там, где их нет. Это почти то же самое, что найти иголку в стоге сена, которая является реальным потенциалом в огромной неисследованной куче данных.

Интуиция данных — это не тот навык, которому можно так просто научиться. Скорее это происходит из опыта и продолжающейся практики. А это, в свою очередь, делает вас гораздо более эффективным и ценным в своей роли Data Scientist.

6. Навыки общения.Вы должны хорошо владеть навыками общения, чтобы стать экспертом в области Data Scientist. Это потому, что, хоть вы и понимаете данные лучше, чем кто-либо другой, вам необходимо преобразовать полученные данные в количественную оценку, чтобы нетехническая команда смогла принять решение.

Это также может включать data storytelling! Таким образом, вы должны иметь возможность представлять свои данные в формате повествования с конкретными результатами и значениями, чтобы другие люди могли понять, что вы говорите. Это связано с тем, что в конечном итоге анализ данных становится менее важным, чем практические выводы, которые можно получить из данных, что, в свою очередь, приведет к росту бизнеса.

Как стать Data Scientist, не потратив ни копейки

Учёба на магистра Data Science в обычном офлайновом вузе США может стоить от $30 тысяч до $120 тысяч. Даже онлайн-курсы по этой специальности могут «влететь» минимум в $9 тысяч. DEV.BY опубликовал перевод статьи «How to Learn Data Science for Free» с сайта Towards Data Science — для тех, кто не желает тратиться или просто не может себе позволить такое удовольствие, но очень хочет стать дата-сайентистом. В этой статье Ребекка Викери (10 лет в сфере) поделилась программой обучения, по которой изучала DS сама.

План состоит из трех частей (технические навыки, теория, практика) и полностью построен на бесплатных материалах. Для тех, кто всё же готов немного инвестировать в самообразование, прикреплены ссылки на курсы, которые ускорят процесс.

Технические навыки

— Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.

Основы Python

В сети масса бесплатных вводных курсов, но лично я считаю, что лучшие — это курсы Codecademy: в них много практических заданий, все они выполняются в браузере.

Предлагаю пройти вот этот вводный курс по Python. Здесь изложены основы синтаксиса, функции, поток управления, циклы, модули и классы.

Python и анализ данных

Далее нужно очень хорошо разобраться с тем, как Python используют в анализе данных.

  1. Для начала пройдите хотя бы бесплатную часть материалов по анализу данных на dataquest.io. Этот ресурс предлагает полноценные учебные программы по подготовке дата-аналитиков, дата-сайентистов и дата-инженеров. 
  2. Очень много контента, особенно по анализу данных, находится в бесплатном доступе, но если вы захотите выучиться побыстрее и не пожалеете денег, то очень рекомендую оформить подписку на несколько месяцев. Этот курс заложит прочный фундамент для дальнейшего изучения DS. Я прошла программу для дата-сайентистов за полгода. Цены у Dataquest в диапазоне от $24,5 до $49 в месяц в зависимости от того, на какой срок покупать подписку (годовая — дешевле).

Dataquest — Learn Data Science

Missed our Black Friday sale? It’s back for a few more days for #CyberWeek. Now through Friday, save big when you make an investment in yourself.View plans: buff.ly/35T4IG8

Опубликовано Dataquest Вторник, 3 декабря 2019 г.

Python и машинное обучение
  1. По возможности не скупитесь на полный курс по DS на Dataquest: он даст вам крепкую базу по использованию Python в машинном обучении. В противном случае есть множество бесплатных источников. Начинайте со scikit-learn — это, пожалуй, самая популярная ML-библиотека для Python.
  2. Ещё мне повезло попасть на двухдневный воркшоп Андреаса Мюллера, одного из ключевых разработчиков scikit-learn. Материал того курса (и не только) он целиком выложил на GitHub. Здесь есть наглядная графика, конспекты и заметки, над которыми можно поработать самостоятельно, что я вам настоятельно рекомендую.
  3. Стоит ознакомиться с некоторыми туториалами из документации scikit-learn, после чего уже можно попробовать делать настоящие ML-приложения и разбираться с тем, как устроены ML-модели (но об этом позже).
SQL

SQL — обязательный навык для дата-сайентиста, так как одним из ключевых процессов моделирования данных является, прежде всего, их извлечение. В большинстве случаев вам будет нужно уметь запускать SQL-запросы к базам данных.

Вот пара бесплатных ресурсов для тех, кто решил не брать полный курс на Dataquest.

  1. Бесплатный вводный курс в SQL есть на Codecademy. Он очень удобный, кодить нужно не выходя из браузера.
  2. Тем, кто интересуется облачными базами данных и отправкой запросов в них, рекомендую заглянуть на Google Cloud BigQuery. Здесь есть пробная версия (можно потренироваться бесплатно), доступ к обширному массиву публичных датасетов и толковая документация.
R

Не ограничивайтесь Python: дата-сайентисту очень полезно владеть языком R, поэтому советую пройти вводный курс ещё и по нему.

Бесплатный вариант есть на Codecademy. Стоит отметить, что эта площадка тоже предлагает комплексную программу по подготовке дата-сайентистов, но только по подписке на тариф Pro. Стоит она от $15,99 до $ 31,99 в месяц — смотря на сколько месяцев вперёд платить. Лично мне курс Dataquest показался гораздо более содержательным, хотя здесь может получиться немного дешевле, если вы предпочитаете заниматься по одной платформе.

Разработка программного обеспечения

Дата-сайентисту будет нелишним освоить навыки и лучшие практики разработки софта: это улучшит читабельность вашего кода, и его будет проще дополнять — как вам самим, так и другим. Кроме того, чтобы выкатывать модели в продакшн, нужно научиться генерировать качественный, хорошо проверенный код и работать с такими инструментами, как системы контроля версий.

В помощь вам — два ресурса:

  1. Python like you mean it охватывает руководство PEP 8, которое описывает общепринятый стиль оформления кода на Python, документацию, и ещё в нём очень сильная часть про объектно-ориентированное программирование.
  2. Этот гайд — о том, как вносить вклад в разработку scikit-learn. Здесь здорово разобраны лучшие подходы и принципы, которые на самом деле универсальны и применимы не только к этой библиотеке. Затрагивается GitHub, юнит-тестирование и отладка кода, причём всё рассмотрено в контексте DS.
Глубокое обучение

Самое лучшее и развёрнутое введение в глубокое обучение дают авторы fast.ai — этот ресурс тоже бесплатный, и на нём совершенно нет рекламы.

Курс включает введение в машинное обучение, практические аспекты глубокого обучения, вычислительную линейную алгебру, а также введение в обработку естественного языка с акцентом на программирование. Все курсы на этом сайте объединяет прикладной подход, поэтому очень советую не проходить мимо.

Теория

По ходу изучения технических моментов вам неизбежно будет встречаться теория, которая стоит за кодом.

Призываю вас учить теорию без отрыва от практики.

Например, я изучаю код, чтобы научиться применять какую-то технику (скажем, метод k-средних, KMeans), а когда она сработает, начинаю глубже разбираться с понятиями, которые с ней связаны (например, с инертностью, Inertia).

  1. Все сопутствующие алгоритмам математические термины есть в той же документации scikit-learn.
  2. Ниже я перечислю главное, что нужно изучить из теории вместе с прикладными аспектами. Почти по всем этим вещам есть бесплатные уроки на khan academy. Во время регистрации или в профиле можно выбрать нужные вам дисциплины, и сайт выдаст пошаговый план по каждому предмету.

Математика

Математический анализ (Calculus)

В этом разделе математики рассматривается связь между функцией и её производной, из-за которой изменение одной переменной величины приводит к изменению другой. Матанализ позволяет, например, выявлять паттерны, понимать, как функция меняется с течением времени.

В машинном обучении матанализ помогает оптимизировать производительность алгоритмов. Один из примеров — метод градиентного спуска. Он состоит в том, что при обучении по одному изменяют весовые коэффициенты нейросети для поиска минимального значения функции потерь.

Что нужно знать.

Производные (Derivatives)

  • Геометрический смысл (Geometric definition)
  • Вычисление производной функции (Calculating the derivative of a function)
  • Нелинейные функции (Nonlinear functions)

Цепное правило (или Правило дифференцирования сложной функции, Chain rule)

  • Сложные функции (Composite functions)
  • Производные сложных функций (Composite function derivatives)
  • Множественные функции (Multiple functions)

Градиенты (Gradients)

  • Частные производные (Partial derivatives)
  • Производные по направлению (Directional derivatives)
  • Интегралы (Integrals)

Линейную алгебру (Linear Algebra)

Многие распространённые инструменты машинного обучения, в том числе XGBOOST, для хранения входных данных и обработки данных используют матрицы. Матрицы, наряду с векторными пространствами и линейными уравнениями, изучает линейная алгебра. Уверенное знание этого раздела математики очень важно для понимания механизма многих методов машинного обучения.

Что нужно знать

Векторы и пространства (Vectors and spaces)

  • Векторы (Vectors)
  • Линейные комбинации (Linear combinations)
  • Линейная зависимость и независимость (Linear dependence and independence)
  • Скалярное произведение и векторное произведение (Vector dot and cross products)

Матричные преобразования (Matrix transformations)

  • Функции и линейные преобразования (Functions and linear transformations)
  • Умножение матриц (Matrix multiplication)
  • Обратные функции (Inverse functions)
  • Транспонирование матрицы (Transpose of a matrix)

Статистика

Что нужно знать

Описательная/дескриптивная статистика (Descriptive/Summary statistics)

  • Описание выборки данных (How to summarise a sample of data) 
  • Типы распределений (Different types of distributions)
  • Асимметрия, эксцесс, меры центральной тенденции, например среднее арифметическое, медиана, мода (Skewness, kurtosis, central tendency, e.g. mean, median, mode)
  • Меры зависимости и взаимосвязь переменных величин, например корреляция и ковариация (Measures of dependence, and relationships between variables such as correlation and covariance)

Планирование эксперимента (Experiment design)

  • Проверка гипотез (Hypothesis testing)
  • Семплирование (Sampling)
  • Тесты на статистическую значимость (Significance tests)
  • Случайность (Randomness)
  • Вероятность (Probability)
  • Доверительные интервалы и статистический вывод по двум выборкам (Confidence intervals and two-sample inference)

Машинное обучение (Machine learning)

  • Вывод о наклоне линии регрессии (Inference about slope) 
  • Линейная и нелинейная регрессия (Linear and non-linear regression)
  • Классификация (Classification)

Практика

Теперь можно приступить к третьей части программы — практическому опыту. Чтобы отточить полученные скиллы, их нужно задействовать в проектах — желательно, чтобы они были похожи на какие-то уже существующие приложения. Попутно перед вами будут возникать разные сложности, но справляясь с ними, вы очень хорошо «прощупаете» предмет и прокачаете свои знания.

Андерс Эрикссон, «Максимум. Как достичь личного совершенства с помощью современных научных открытий»: «Чтобы научиться чему-то, чего вы не умели раньше, нужно постоянно выходить из состояния равновесия и заставлять мозг и тело адаптироваться к изменяющимся условиям».

Kaggle

Конкурсы по машинному обучению — отличная возможность потренироваться создавать модели. Там есть доступ к множеству датасетов, предназначенных для решения отдельных задач. По турнирной таблице можно сравнивать свои успехи с другими участниками. А ещё по результатам вам будет видно, в каких темах у вас пробелы и что нужно подтянуть.

Помимо Kaggle, есть разные другие платформы, где можно попробовать свои силы. Например Analytics Vidhya и DrivenData.

ML-репозиторий UCI

UCI Machine Learning Repository — огромный клад публичных датасетов, которые можно использовать в домашних ML-проектах. Создайте портфолио на GitHub и размещайте проекты в нём. Оно будет не только демонстрировать ваши способности и достижения, но и в дальнейшем может помочь найти работу.

Вклад в Open Source

Участвуйте в чужих проектах. Очень многие Python-библиотеки поддерживаются опенсорс-сообществом. В рамках митапов и конференций часто проводят хакатоны, куда приглашают даже новичков. Это хорошая возможность для взаимного «обмена премудростями»: здесь можно и чему-то научиться у других, и поделиться знаниями. Один из вариантов — хакатон, спонсируемый фондом NumFOCUS.

Практические ресурсы хорошо разнообразят книги по Data Science из этого списка. Все можно найти в открытых источниках.

Чем занимается специалист по Data Science и как начать работать в этой области?

Специалист в области Data Science строит на основе данных модели, которые помогают принимать решения в науке, бизнесе и повседневной жизни. Он может работать с неструктурированными массивами информации в разных сферах: от выявления элементарных частиц в экспериментах на БАК, анализа метеорологических факторов, анализа данных о перемещениях автотранспорта до исследования финансовых операций, поисковых запросов, поведения пользователей в Интернете.

В результате получаются модели, которые прогнозируют погоду, загруженность дорог, спрос на товары, находят снимки, где могут оказаться следы нужных элементарных частиц, выдают решения о предоставлении кредита, могут рекомендовать товар, книгу, фильм, музыку.

Анна Чувилина, автор и менеджер программы «Аналитик данных» Яндекс.Практикума, рассказала, какие задачи решает специалист в области Data Science или датасаентист, в чем состоит его работа и чем он отличается от аналитика данных.

Что такое Data Science?

Data Science — это применение научных методов при работе с данными, чтобы найти нужное решение. В широком смысле, естественные науки основаны на Data Science. Например, биолог проводит эксперименты и анализирует результаты для проверки своих гипотез. Он должен уметь обобщать частные наблюдения, исключать случайности и делать верные выводы. 

Датасаентист работает с данными так же, как ученый в любой другой сфере. Он использует математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат.

Сбор данных — это способ измерить процессы вокруг нас. А научные методы позволяют расшифровать большие массивы данных, найти в них закономерности и применить для решения конкретной задачи.

Кто такой специалист по Data Science?

Датасаентист обрабатывает массивы данных, находит в них новые связи и закономерности, используя алгоритмы машинного обучения, и строит модели. Модель — это алгоритм, который можно использовать для решения бизнес-задач. 

Например, в Яндекс.Такси модели прогнозируют спрос, подбирают оптимальный маршрут, контролируют усталость водителя. В результате стоимость поездки снижается, а качество растет. В банках модели помогают точнее принимать решения о выдаче кредита, в страховых компаниях — оценивают вероятность наступления страхового случая, в онлайн-коммерции — увеличивают конверсию маркетинговых предложений.

Глобальные поисковые системы, рекомендательные сервисы, голосовые помощники, автономные поезда и автомобили, сервисы распознавания лиц — все это создано с участием датасаентистов.

Анализ данных — это часть работы датасаентиста. Но результат его труда — это модель, код, написанный на основе анализа. В этом главное отличие между датасаентистом и аналитиком данных. Первый — это инженер, который решает задачу бизнеса как техническую. Второй — бизнес-аналитик, больше погруженный в бизнес-составляющую задачи. Он изучает потребности, анализирует данные, тестирует гипотезы и визуализирует результат.

«Датасаентист решает задачи с помощью машинного обучения, например распознавание изображений или предсказание расхода материала на производстве. Результат его работы — работающая модель по техническому заданию, которая будет решать бизнес-задачу», — Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикуме.

Специалист по Data Science проходит те же карьерные ступени, что и другие профессионалы в IT: джуниор, мидл, тимлид или сеньор. В среднем, каждая ступень занимает от года до двух. Более опытный специалист лучше понимает бизнес-задачи и может предложить лучшее решение для них. Чем выше уровень, тем меньше датасаентист сфокусирован только на технических задачах. Он может оценивать проект и его смысловую составляющую.

Задачи специалиста по Data Science

Задачи различаются от компании к компании. В крупных корпорациях датасаентист работает с несколькими направлениями. Например, для банка он может решать задачу кредитной оценки и заниматься процессами распознавания речи.

Этапы работы над задачей у датасаентистов из разных сфер похожи:

  • выяснение требований заказчика;
  • решение принципиального вопроса «Целесообразно ли решать задачу методами машинного обучения?»;
  • подготовка данных, их разметка;
  • принятие метрик оценки эффективности модели;
  • разработка и тренировка модели машинного обучения;
  • защита экономического эффекта от внедрения модели;
  • внедрение модели в производственные процессы и продукты;
  • сопровождение модели.

Каждая новая итерация позволяет лучше понять проблемы бизнеса, уточнить решение. Поэтому каждый этап повторяется снова и снова для развития модели и обновления данных.

Data Science работает и для стартапов, и для крупных корпораций. В первых специалисты работают в одиночку или небольшими командами над отдельными задачами, а во вторых — реализуют долгосрочные проекты в связке с бизнес-аналитиками, аналитиками данных, разработчиками, инфраструктурными администраторами, дизайнерами и менеджерами.

Руководитель проекта с аналитиками берёт на себя большую часть работы: общается с бизнесом, собирает требования, формирует техническое задание. В зависимости от уровня и принципов работы в компании, специалист по Data Science участвует в переговорах или получает задачи от руководителя проекта и аналитиков.

Следующий этап — сбор данных. Если в компании не налажены процессы для получения данных, датасаентист решает и эту задачу. Он внедряет инструменты, которые помогают автоматически получать и предварительно очищать, структурировать нужную информацию. 

Разметка данных — это тоже способ навести в них порядок. Каждой записи присваивается метка, по которой можно определять класс данных: это спам или нет, клиент платежеспособен или недостаточно. Для этой задачи редко используют алгоритмы, метки проставляют вручную. Качественно размеченные данные имеют большую ценность.

«Со стороны заказчика часто присылаются первые данные, которые не готовы для анализа. Специалист их изучает и пытается понять взаимосвязи внутри данных. Для этого часто используется пайплайн — стандартная последовательность действий для процесса анализа данных, которая у каждого своя. Во время ‘‘просмотра’’ у специалиста возникают гипотезы относительно данных, которые он потом будет проверять», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикум.

Во время обработки данные переводятся в формат, удобный для машинного обучения, чтобы запустить первое, «пробное» обучение. Оно должно подтвердить или опровергнуть гипотезы о данных, которые есть у специалиста по Data Science. Если гипотезы не подтверждаются, работа с этим набором данных прекращается. Если одна или несколько гипотез окажутся жизнеспособными — на выходе получается первая версии модели. Её можно назвать baseline-моделью или базовой, относительно которой на следующих итерациях можно искать улучшения в качестве работы модели. Это минимально работающий продукт, который можно показать, протестировать и развивать дальше.

Вместе с моделированием или перед ним выбирают метрики для оценки эффективности модели. Как правило, это две категории: метрики для бизнеса и технические. Бизнес-метрики отвечают на вопрос «каков экономический эффект от работы данной модели?» Технические определяют качество модели, например, точность предсказаний.

Модель оценивают на контролируемость и безопасность. Например, для задач медицинской диагностики это решающий фактор. Когда модель готова и протестирована, то её встраивают в производственный процесс (например, кредитный конвейер) или продукт (например, мобильное приложение). Она начинает приносить пользу в реальной жизни.

Ошибки в моделях могут дорого стоит компании. Например, неверная скоринговая модель создаст ситуацию, когда ненадежные заемщики массово не смогут возвращать кредиты. В результате банк понесёт убытки. 

Что нужно для старта

Знание математической статистики, базовые навыки программирования и анализа данных нужны для входа в любую сферу, где может быть занят датасаентист. Следующие этапы потребуют более глубоких знаний. Набор необходимых скиллов и инструментов будет во многом зависеть от задач конкретной компании.

«Для решения простых задач и попадания на уровень джуниора достаточно базовых знаний машинного обучения, математического аппарата и программирования. От специалиста уровня мидл и сеньор уже требуется умение тонко настраивать параметры, которые влияют на общее качество результата. Список разделов из высшей математики и понимание математической постановки каждой модели на этому уровне на порядок выше, чем для джуниора» — Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикум.

Как правило, в Data Science используют SQL, Python, для сложных вычислений — C/C++. Хороший уровень английского поможет быстрее расти за счет чтения профессиональной литературы и общения с другими профессионалами отрасли.

Бэкграунд разработчика хорошо подходит для переквалификации в датасаентисты. Разработчики знают языки программирования, разбираются в алгоритмах и имеют представление о принципах работы инструментов в ИТ. В таком случае переход в новую специальность займет несколько месяцев. Важные конкурентные преимущества, доступные профессионалам из других сфер: лучшее понимание предметной области, сильные коммуникативные навыки.

От начинающего специалиста по Data Science работодатель ждёт:

  • базовое знание математической статистики, алгоритмов машинного обучения;
  • навыки подготовки данных к анализу с помощью библиотек;
  • способность выбрать подходящий алгоритм под задачу и создать модель на его основе;
  • умение защитить эффективность модели;
  • способность успешно внедрить её в процесс или продукт.

Опыт работы с реальными бизнес-проектами для работодателя важнее, чем ученая степень или профильное высшее образование. Дипломы сильных вузов и тематические научные работы ценятся больше при выборе привлеченных консультантов на стратегические проекты. А по практическому опыту выбирают датасаентиста для решения ежедневных задач компании.

Перед датасаентистом не стоит задача охватить все области математического знания или освоить каждый программный инструмент, который можно применить для анализа данных и построения модели. Над масштабными и сложными проектами обычно работают группы специалистов. Здесь навыки и знания каждого дополняют общий инструментарий. Чтобы стартовать в профессии достаточно любить программирование, математику и не бояться сложных задач.

Станьте датасаентистом!

alt

12 шагов от новичка до профи

Область Data Science энергично развивается – массу примеров можно найти в нашем тесте «Правда или ложь: что умеют нейросети?». Но наука о данных это не только нейросети, но и классические алгоритмы машинного обучения (более понятные для бизнес-процессов), да и вообще всё, что связано с вопросами анализа, обработки и представления информации в цифровой форме.

Пока нельзя сказать, что в Data Science есть чёткое разделение труда — это неспециализированная профессия. Грубая аналогия: как в своё время были чистые Computer Scientists (информатики и программисты), разбирающиеся во всём, что связано с компьютерами, так теперь есть Data Scientists, занимающиеся всем, что связано с данными. Маркер первого движения к специализации труда – сфера онлайн-образования. К примеру, онлайн-университет Geekbrains, у которого уже есть факультеты Искусственного интеллекта и Аналитики Big Data, в июне 2020 г. открыл факультет Data Engineering. То есть одни люди в команде могут заниматься сбором, отслеживанием и хранением данных, а уже другие – их исследованием.

Так или иначе, специалист по анализу данных работает на пересечении нескольких областей: математики (включая алгоритмы машинного обучения), программирования и бизнес-задач. В зависимости от вашей роли в коллективе чем-то из этих вещей придётся заниматься больше. При выборе вектора развития отталкивайтесь от собственных интересов – обучение потребует значительных ресурсов, и без любви к делу вы быстро перегорите. Математическая база необходима, но вполне вероятно, что личный круг задач сведётся к применению имеющихся инструментов и знаний, а не изобретению чего-то нового:

Есть специалисты Data Science, которых мы готовим к тому, чтобы они были разработчиками новых методов. Они должны знать математику на том уровне, чтобы уметь разрабатывать новые алгоритмы. Но таких людей нужно немного, потому что огромное количество алгоритмов уже сделано. Если вы хотите сделать тысяча первый алгоритм, нужны веские, профессионально аргументированные соображения, чтобы доказать сообществу, что ваш алгоритм нужен.
Людей, умеющих пользоваться готовыми алгоритмами, нужно в 50-100-500 раз больше. Кажется, что проблема как преподавать Computer Science и проблема «больше математики или больше инженерии» имеет такой ответ: нужно и то, и другое, но математику вы должны преподавать тщательно отобранному множеству людей, осознавших себя как творцы, конструкторы новых методов. Основной же массе нужны навыки использования технологий. Им не придётся сталкиваться с проблемами сходимости, потому что подобные проблемы решены до них, и есть готовые «кубики», позволяющие настраивать нейронные сети правильно, в них встроены даже недавно созданные инструменты. Они должны знать что такое back propagation, градиентный спуск и т. д., но в объёме, необходимом для понимания.

К. В. Воронцов в интервью Юрию Кашницкому и Алексею Натекину (поланя текстовая расшифровка в нашей статье «Мнения экспертов индустрии Data Science о развитии отрасли»)

В приведённой ниже записи доклада создатель сообщества Open Data Science (о сообществе мы расскажем ниже) Алексей Натекин показывает, чем отличаются Data Analyst, Data Engineer и Data Scientist.

Для понимания алгоритмов машинного обучения нужно разбираться в линейной алгебре, математическом анализе функций многих переменных, теории вероятностей и математической статистике.

На Stepik есть подходящие бесплатные видеокурсы по каждой из областей с тестированием знаний:

Если иллюстраций, визуализации окажется недостаточно, обратите внимание на замечательный канал 3Blue1Brown. Канал англоязычный, но ко многим видеороликам сообщество поклонников подготовило русские субтитры. Есть плейлисты по линейной алгебре, анализу, дифференциальным уравнениям. Кстати, по многомерному математическому анализу есть подробный курс из 175 видео на канале Khan Academy.

Занимаясь по видеолекциям, не забывайте о возможности ускоренной перемотки. Чтобы задействовать моторную память и глубже проработать материал, ведите конспект.

Кроме математики, нужно уметь программировать. Обычно в качестве основного языка аналитики данных выбирают Python или R. На Stepik есть хорошие курсы по обоим языкам, в том числе с упором на анализ данных:

У новичков в Data Science часто возникает вопрос о том, какой язык выбрать основным – созданный специально для обработки данных R или универсальный Python. Соответствующую дискуссию мы осветили в статье «Python и R: что выбрать для Data Science».

Коротко: если вы планируете сделать карьеру в науке о данных, мы советуем освоить оба языка. Знание концепций и библиотек R позволит быть на шаг впереди тех, кто использует только Python, и наоборот. Вот как об этом пишет специалист по анализу данных Ирина Голощапова:

Совмещая наиболее мощные и стабильные библиотеки R и Python в некоторых случаях можно повысить эффективность расчётов или избежать изобретения велосипедов для реализации каких-либо статистических моделей.

Во вторую очередь, это повышение скорости и удобства выполнения проектов, в случае если разные люди в вашей команде (или вы сами) обладают хорошими знаниями разных языков. Здесь может помочь разумная комбинация имеющихся навыков программирования на R и Python.

Но если хочется идти пусть и не простым, но более лёгким путём, то достаточно одного Python — по нему вы найдете больше курсов и ответов на всевозможные вопросы.

Примечание

Нужно понимать, что на практике и Python, и R обычно используются лишь для прототипирования и проверки гипотез. Промышленные модели машинного обучения переписываются на более быстрых языках – например, C++ или Go. Проверять идеи на низкоуровневых языках не слишком удобно, но для стабильного производительного решения –самое то 👍.Соответствующий опыт разработки описан в переведённой нами публикации Калеба Кайзера «Почему мы пишем инфраструктуру машинного обучения на Go, а не на Python».

Одним из самых популярных инструментов для обмена результатами анализа данных стали блокноты Jupyter:

Блокноты Jupyter и платформа Jupyter Lab позволяют в одном документе соединять код, текст в разметке Markdown и формулы в LaTeX, средства тестирования и профилирования. Кроме того, над блокнотами можно работать совместно с помощью Google Colab или JupyterHub.

Пример использования JupyterHub

Научитесь пораньше пользоваться Git. В процессе работы вам придётся выбирать между множеством моделей и архитектурных решений – контроль версий здесь как нельзя кстати.

Кроме того, на GitHub вы найдёте множество прекрасных проектов в области Data Science. Помните, что open source — один из простейших способов приобрести необходимый опыт работы в команде и внести свой вклад в общее дело.

С прочими популярными инструментами вы естественным образом столкнётесь в ходе прохождения курсов. Например, в Python для скоростной обработки массивов данных потребуется знание NumPy, для табличного представления данных обычно используются датафреймы Pandas, для визуализации – MatplotLib или Plotly, готовые классы популярных моделей машинного обучения импортируются из Scikit-learn.

Немногие курсы заостряют на этом внимание, но на практике данные обычно хранятся в базах данных – SQL или NoSQL. Для дальнейшей работы потребуется научится с ними общаться:

Для глубокого обучения необходимо познакомиться с фреймворками – TensorFlow или PyTorch. Есть и другие – их мы сравнили в статье «Фреймворк глубокого обучения: выбираем из 10 лучших».

Курсы:

Англоязычные курсы:

В качестве дополнения к курсам на MOOC-платформах можно смотреть YouTube-курсы, приведённые нами в статье 30 YouTube-каналов и плейлистов о Data Science:

Не волнуйтесь, если вы проходите курсы быстрее (или медлее), чем это предполагали авторы. Интервал времени, необходимый для прохождения курса – вещь субъективная, тем более, что часть знаний в курсах пересекается.

Учебники на русском:

Учебники на английском:

Самым большим русскоязычным сообществом в сфере науки о данных является Open Data Science. Сообщество проводит конференции Data Fest, следит за соревнованиями по анализу данных ML trainings (в том числе делают разборы). Ещё ребята создали курсы по машинному обучению и нейронным сетям.

Но самое важное – это само сообщество, главной площадкой которого является Slack opendatascience. Ребята серьёзно относятся к тому, что они делают – чтобы «вступить в клуб», нужно получить приглашение.

В сообществе уже 49 тыс. участников и 300 каналов: вакансии, курсы, поиск коллег для коллаборации, каналы по отдельным темам, разбор научных статей, организации встреч в различных городах и странах. Есть даже обсуждение задач с собеседований – канал #gnomiki, задачи из которого мы приводили в статье «Собеседование и семь гномов».

Много интересного можно почерпнуть из англоязычных агрегаторов новостей из мира науки о данных:

Телеграм-каналы:

  • @dsproglib – канал Библиотеки программиста о Data Science
  • @deeplearning_ru – канал о глубоком обучении
  • @opendatascience – канал ODS.ai
  • @bigdata_ru – чат о Big Data, машинном обучении и искусственном интеллекте
  • @datasciencechat – чат о Data Science

Чтобы следить за мероприятиями в мире данных, заглядывайте время от времени на нашу страницу мероприятий или подпишитесь в телеграм-боте @event_listener_bot на тег Data Science.

Для чтения англоязычных блогов, загляните в подборку Data Science blogs. Если вы пользуетесь RSS, можно загрузить все ссылки через OPML-файл.

О твиттере

Многие специалисты в области IT предпочитают обычным блогам микроблоги в твиттер, как главное средство для обмена информацией. Есть там и множество специалистов по ML и анализу данных: Ilya Sutskever, Trent McConaghy, Andrej Karpathy, Andrew Trask, Pieter Abeel, Chris Olah, Nando de Freitas и др. Вы можете подписаться на составленный Ali Sohani список из более чем 100 людей, известных в области машинного обучения. Кроме того, на Quora есть обсуждение, включающее и другие аккаунты.

Зарегистрируйтесь на Kaggle. Это не только самая известная площадка соревнований по машинному обучению с денежными призами, но и крупное сообщество с реестром датасетов, блокнотов Jupyter, мини-курсами и дискуссиями. Участие в рейтинге Kaggle в вашем резюме может дать вам дополнительный балл для прохождения собеседования.

Мнения экспертов о Kaggle:

Основной минус то, что это не задачи, которые приходится решать в бизнес-сфере, но Kaggle для этого не создавался. Сейчас практически нет соревнований, которые бы моделировали реальные ситуации. Но на сайте не написано, что на нём решаются задачи, которые полезны обществу. Соревнования не предназначены быть полезными. Kaggle полезен конкретным участникам, потому что они набираются опыта. У них появляется чёткий критерий для оценки методов.
Что касается людей, участвующих в Kaggle – если человек активно участвует, то он может ещё и рабочие мощности приспособить для этих соревнований. Это как наркотик, и многие, кто на это попадает, не могут остановиться. Но я советовал бы тем, кто занимается машинным обучением, не подсаживаясь на Kaggle, всё-таки посвятить ему достаточный отрезок времени, то есть не Titanic порешать, а те задачи, что решает сейчас ограниченный круг лиц в режиме онлайн, то есть каждый только что начал, посмотрите на скрипты других, посмотреть что пишут люди на форуме, попробовать разные гипотезы. Так вы получите бесценный опыт.

До появления таких массовых соревнований методы ранжировались по типам задач, и создавалось много различных мифов, развенчанных в результате верификации на таких конкурсах, а другие методы становились популярны. Так был разрекламирован бустинг и глубокое обучение.

Александр Дьяконов в интервью Юрию Кашницкому и Алексею Натекину

Главный плюс Kaggle – есть механизм, где можно давать задачи на конкурс. Минус в том, что часто задача выхолащивается, придумывается искусственный функционал. Либо выборка не очень соответствует реальным данным и условиям применения.
С помощью Kaggle мы узнаём, кто лучший решатель задач и где есть центры компетенции. Но мы можем с грустью узнать, что все победители в лидер борде применяли что-то настолько замороченное, что мы не сможем строить на этом бизнес-процесс. При этом может существовать на два порядка более простое решение, дающее на полпроцента худший результат, но решающее бизнес-задачу.

Я смотрю на конкурсы анализа данных, как на новый механизм тендеров в том, что можно назвать цифровой экономикой. Это экономический механизм для того, чтобы понимать насколько эффективно та или иная задача сейчас может быть решена и найти быстро того, кто может решить эту задачу. Эффективность несопоставима с любыми открытыми или закрытыми тендерами, независимо от степени бюрократии.

Плюс конкурсов – это способ популяризации тех или иных задач в сообществе. Конкурсы анализа данных в ближайшие годы возьмут на себя социально значимую миссию – объяснить обществу, где нужен Data Science. Это может стать точкой входа в любую отрасль науки/ Чтобы, например, сделать эксперимент в области физики, нужно обучиться этой профессии, иметь доступ к экспериментальному оборудованию.

Выкладываются данные с Большого адронного коллайдера, и вы можете попытаться обработать их на своём рабочем компьютере. У вас нет физической установки, но есть данные с неё. То же самое с данными из биоинформатики, молекулярной биологии, геологии. Вы поймёте как добывают нефть, как залегают полезные ископаемые, станет понятно многое про астрономию, социологию. Мы сократили путь людям к познанию мира, дали возможность погрузиться в современную науку через анализ данных, открытые датасеты и конкурсы.

Константин Воронцов в интервью Юрию Кашницкому и Алексею Натекину

Однако соревнования проходят не только на Kaggle. Следите за календарём соревнований по анализу данных. Видеозаписи разборов кейсов публикуются на ML Trainings и Open Data Science Video. Там вы найдёте записи тренировок с соревнований по компьютерному зрению, распознаванию изображений, обработке естественного языка, AutoML, рекомендательным системам и др.

Наука о данных – невероятно обширная междисциплинарная область, и для решения конкретных задач потребуются специальные навыки. После знакомства с Kaggle вам станет понятнее, в каких востребованных знаниях у вас есть пробелы.

Обратите внимание на следующие курсы Stepik:

Также пригодятся YouTube-каналы:

  • На YouTube-канале Computer Science Center курсы по специальным разделам удобно организованы в плейлисты: машинное обучение (вторая часть), анализ изображений и видео (вторая часть), введение в обработку естественного языка, анализ данных на Python в примерах и задачах (продолжение), анализ данных на R, технологии хранения и обработки больших объемов данных, математическая статистика.
  • На YouTube-канале Факультета компьютерных наук ВШЭ есть плейлист с курсами Машинное обучение, Байесовские методы в машинном обучении, анализу сетевых структур (последний на английском).
  • На канале Лекториума разбросаны плейлисты курсов Сергея Николенко о машинном обучении, генеративных состязательных нейросетях, коммуникационной сложности, байесовском выводе. Ещё есть лекции Евгения Соколова о рекомендательных системах, Александра Дайняка о математических методах визуализации данных.

Не переставайте учиться. Просмотрите топ и сайдбар сабреддитов по темам, смежным машинному обучению:

Используйте новые знания в области Data Science на пользу себе и другим людям. Создайте что-то, что заставит других воскликнуть «вау»! Множество идей для проектов перечислено в списках awesome-ai-usecases, 51 toy data proble, practical-pandas-projects.

Можно отталкиваться не от проекта, а интересного датасета. Список популярных реестров:

Множество обсуждений с идеями проектов можной найти на Quora:

Для каждого проекта создавайте публичный репозиторий на GitHub. Доводите результат до ума, делитесь ими в своём блоге и сообществе. Вносите вклад в сторонние проекты, публикуйте свои идеи и мысли. Всё это поможет составить портфолио и познакомиться с людьми, работающими над родственными задачами.

Главные языки науки о данных это не Python или R, а английский язык и язык математики. Хотя появляется всё больше курсов на русском языке, самая актуальная информация — в последних международных статьях.

К академическому языку нелегко привыкнуть. Чтобы эффективно работать с научными публикациями, прочитайте наш материал «Как правильно искать и читать научные статьи?»

Препринты статей публикуются на сайте arXiv. Самые полезные для дата-сайентистов разделы:

Уследить за всеми публикациями просто невозможно. Вычленить самые важные тексты помогут перечисленные выше ветки Reddit, а также сайт Андрея Карпатого Arxiv Sanity Preserver (с тех пор, как автор стал главой отдела по ИИ в Tesla, сайт стал чаще ломаться, но всё равно это лучший инструмент). Ещё есть вот такой список статей с комментариями и записи вебинаров с YouTube-канала Kaggle с разбором научных статей, связанных с алгоритмами науки о данных.

Data Science – востребованная профессия с высокой конкуренцией. Но даже результаты собеседований участники сообщества превращают в данные. Существует множество списков вопросов для подготовки к интервью на позицию data scientist’а:

В этом году с этим труднее, но надеемся, что скоро вернутся летние школы и стажировки:

Обязательно воспользуйтесь своими навыками в майнинге данных для анализа рынка труда – проанализируйте, какие навыки встречаются в вакансиях чаще, чтобы их максимально отточить. Оцените, какой доход можно ожидать с учётом трат на месте, аренды жилья и переезда в другой город.

В следующем видео Валерий Бабушкин интересно рассказывает о карьере в Data Science и типичных ошибках на собеседованиях.

Как готовиться к собеседованиям? Каких навыков и знаний не хватает специалистам, приходящим на работу в индустрии Data Science?

По-моему опыту, сейчас людей не надо готовить. Многие понимают свой уровень подготовки. Тонкий вопрос – куда можно устроиться и как, если ты совсем новичок. Некоторые компании имеют программы стажировок, другие только нанимают. Многому можно научиться в домашних условиях.
Другое дело, вот пример самой странной ситуации на собеседовании. Мы нанимали парня из Новосибирска, неплохого учёного, с медалью Академии Наук за лучшую работу, преподавателя машинного обучения, который мог рассказать о любом из алгоритмов, то есть имеются необходимые математические знания. Но потом мы задали несколько простых вопросов на программирование: есть список на Python ['a', 'b', 'c', 'd']. Что нужно, сделать, чтобы получить ['d', 'c', 'b', 'a']? Элементарный вопрос на знание синтаксиса языка. Он говорит: я не могу так, на бумажке, мне нужен компьютер с доступом к интернету, я загуглю. Зачем мне сотрудник, который каждую строчку кода будет гуглить?

Александр Дьяконов в интервью Юрию Кашницкому и Алексею Натекину

Расскажите о своем проекте или находке с сообществом Data Science. Подготовьте доклад и выступите на локальном митапе – ближайшие можно найти среди каналов через поиск в Slack ODS. Заведите блог, в котором вы будете делиться находками, собственными идеями и репозиториями. Опубликуйте статью на Proglib. Мы помогаем нашим читателям распространить интересные идеи и полезные знания.

И последнее, но не менее важное – успевайте насладиться тем, как ваши навыки помогают делать мир лучше!

***

Данный материал мы подготовили совместно с компанией GeekBrains — нашим партнёром, предоставляющим помощь в освоении Data Science и машинном обучении. Если вы хотите получить знания, не тратя лишнее время и силы на поиск знаний, инструментов и привыкание к разному стилю чтения курсов, обратите внимание на факультет Искусственного интеллекта. Программа и преподаватели имеют высокие оценки учащихся, а при успешном прохождении курса онлайн-университет гарантирует не только диплом, но и трудоустройство.

Как стать датасайнтистом, если тебе за 40 и ты не программист

Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.


Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

Итак, обо всем по порядку.

О себе

Я экономист, довольно долго работал бизнес-консультантом. Моя специализация — разработка методологии бюджетирования и отчетности для последующей автоматизации. Если по-простому — это про то, чтобы сначала нормально выстроить процесс, чтобы потом от автоматизации был результат.

3 года назад, в 42 года, когда почувствовал, что от успехов в консалтинге я начинаю бронзоветь, и стал задумываться о необходимости перемен. О следующей карьере. У меня уже был опыт, как начать карьеру с нуля (в 30 лет я поменял спокойную жизнь экономиста на консалтинг), поэтому перемены меня не пугали.

Это не приходит в голову сразу, но когда задумываешься, становится очевидно, что несмотря на то, что я уже проработал 20 лет, впереди еще примерно 25 лет до пенсии (уже давно пришло понимание, что надо ориентироваться на пенсию в 70 лет или даже позже). В общем, впереди дорога, длиннее, чем та, что уже прошел, и хорошо бы ее пройти с актуальной специальностью. А значит, стоило поучиться. В тот период я фрилансил, и ради будущего я сократил число проектов и смог выделить достаточно времени на учёбу.

Пока я думал, куда дальше двигать, я открыл для себя Coursera. Западный подход к образованию, когда тебе в первую очередь объясняют смысл, общую идею, а уже потом детали, мне оказался близок. В отличие от брутальной советской системы образования, предполагающей, что выплывут только достойные, тут дают шанс таким, как я, у кого есть пробелы в базовом образовании.

Начинал я с курсов бизнес-аналитики. Это было крайне полезно для меня как консультанта. Эти же курсы помогли мне лучше понять роль AI-технологий для развития бизнеса и, самое главное, увидеть свою роль в этом. Это так же, как и с другими технологиями — совсем не обязательно, что те, кто разрабатывают новые технологии, будут лучшими в их применении. Чтобы технологии реально помогали бизнесу, важно этот бизнес понимать. Экспертиза в бизнес-процессах не менее важна, чем понимание самих технологий машинного обучения, обработки больших данных и тд.

И я погрузился в курсы по датасайнс, статистике, программированию.

С перерывами, я за год освоил более 30 курсов на Coursera и уже не чувствовал себя инопланетянином в мире бигдаты и машинного обучения.

Kaggle

Некоторые курсы рекомендовали Kaggle как отличную площадку для практики. Не повторяйте моей ошибки — я пришел туда, только когда уже чувствовал, что накопил достаточно знаний. А стоило сделать это на полгода раньше, когда появилось первое понимание, что и как. Был бы на полгода круче. Ведь это не просто одна из площадок для соревнований, это лучшая (в настоящее время) площадка для освоения машинного обучения на практике, которая полезна как начинающим, так и супергуру. И там ты растешь, что называется, день за два — только курсы без практики на дадут такого эффекта.

Моим первым соревнованием был конкурс от банка Santander — предсказание уровня удовлетворенности клиентов. Я был новичком и хотел проверить уровень своих знаний в деле. Я совместил свой опыт как клиента банка, навыки анализа бизнес-кейсов и технологии машинного обучения и сделал довольно неплохую модель, с которой я забрался в топ-50 на public leaderbord. Это было куда выше моих ожиданий от первого конкурса, учитывая, что в нем участвовало более 5 тысяч человек.

Но не все было так просто. На хэппиэнд я тогда не заработал. Есть такая распространенная среди новичков проблема, как «переобучение модели», с которой я познакомился на практике. Локальная валидация была организована слабо, я слишком сильно ориентировался на паблик, и как результат — на закрытой части теста я улетел на 500+ позиций вниз. Конечно, я был расстроен, но урок пошел впрок: хорошая валидация — основа машинного обучения, и ей надо заниматься серьезно. Сейчас этот компонент — одна из сильных сторон моих моделей.

Несмотря на слабый первый результат, появилась уверенность, что попасть в топ реально, надо больше практики и дополнительных знаний.

Для тех, кто не знает, чем хорош Кэггл — сообщество готово помогать новичкам с преодолением каких-то затыков, обсуждает идеи, делится примерами “как работает”. Ну и не менее важно — по окончании соревнований есть возможность изучить решения лидеров. Учась на чужом опыте, можно добиться быстрого прогресса. Не обязательно на все грабли наступать самому.

Тут же не могу не вспомнить об ОпенДатаСайнс (ods.ai) — русскоязычном сообществе датасайентистов. Тренировки по машинному обучению, которые организует ods — еще один способ глубже узнать предмет. Ну и как площадка для общения по любым вопросам также очень помогает. Если вы думаете о своем будущем в датасайнс, и вы еще не зарегались на ods — это серьезная ошибка.

Поскольку в вакансиях на позиции датасайентистов довольно часто упоминались ожидания высоких результатов на Кэггле, я увидел в этом для себя шанс — помимо того, что я набираюсь опыта, есть возможность заполнить пустое резюме более-менее релевантным опытом. Я стал относиться к Кэггл как к работе, где бонусом может стать начало карьеры.

Как только появлялось свободное время, я строил модели на Кэггле, и с каждым соревнованием результат становился лучше.

У меня было то, чего не было у большинства участников — умение анализировать бизнес-кейсы и мой опыт в консалтинге, это очень помогало при построении моделей. Через полгода я занял 7 место в очередном конкурсе от банка Santander и заработал свою первую золотую медаль.

Если настойчиво стремиться к определенной цели, ты ее достигнешь — в июне 2017 года, через год с небольшим моих битв на Кэггле, мы вместе с разработчиком из Латвии Агнисом Люкисом выиграли конкурс от Сбербанка по предсказанию цен на квартиры в Москве.

Нашими сильными сторонами было понимание кейса (это комплексная задача, к решению которой не стоило подходить в лоб, как делало большинство) и сильная локальная валидация. Мы закончили конкурс вторыми на паблике, но наша модель почти не пострадала от переобучения и не сильно просела на закрытых данных — в финале мы оказались первыми с гигантским отрывом.

Эта победа забросила меня в топ-50 глобального рейтинга Kaggle, что вылилось в предложения о работе. Изучив варианты, я выбрал банк, как место, где много задач, на которых можно прокачать скиллы, а также прочувствовать всю правду жизни при разработке моделей — все же в соревнованиях условия скорее тепличные.

Планы на карьерный рост у меня были амбициозными и вариант «не торопясь поработать несколько лет, чтобы дорасти до следующей ступени» не рассматривался. Надо было впахивать и на работе, и во вторую смену не забывать о Кэггле. Непросто, но кому нынче легко? И это дало результаты — еще 3 золотые медали и я заработал погоны Грандмастера на Кэггле плюс закрепился в глобальном топе (сейчас 23-й).

Как вишенка на торте — 3 призовое место в соревнованиях по банковскому скорингу, то, чем я профессионально занимался последний год. И, как видно, занимался хорошо.

Увы, но правда жизни в банке — это еще и очень консервативный и небыстрый процесс принятия решений. Внедрение моих моделей двигалось медленно. Перестраивать работу всего банка планов не было, поэтому проще было, хоть и с сожалением, но сменить работу.

Это оказалось совсем не сложно — благодаря результатам на Кэггле, поиск не занял много времени, и уже несколько месяцев я копаю миллиардные таблицы в QIWI. У нас куча интересных задач, уверен, что довольно скоро мы сможем превратить наши данные в прибыль для компании — бэкграунд экономиста в этом очень помогает. Кэгглоопыт здесь также оказался в кассу по нескольким кейсам.

А теперь о том, как добиться успеха в соревнованиях

Самая важная часть — понять задачу и найти все драйверы, которые могут влиять на результат. Чем лучше вы разберетесь в кейсе, тем больше шансов выступить круто. Нагенерить сотни или даже тысячи стат фич может каждый, а вот придумать такие, которые заточены именно под эту задачу и хорошо объясняют таргет, куда сложнее. Вложитесь в это, и быстро окажетесь в топе. Стоит применять любой релевантный опыт (бизнесовый, бытовой и тд) — это сильно помогает.

Затем — локальная валидация. Ваш главный враг — переообучение, особенно если вы используете такую сильную технологию, как градиентный бустинг. Знаю, насколько психологически сложно перестать ориентироваться на public leaderboard, но если не хотите разочарований, правильный ответ — используйте кросс-валидацию, скажите «Нет» отложенной выборке. Конечно, есть исключения, но даже в задачах с временными рядами можно прикрутить кросс-валидацию, сильно повысив надежность модели. Не всегда схема локальной валидации будет простой, но стоит потратить на нее время — и в соревнованиях, и в реальной жизни. Наградой будут стабильные модели.

Само собой, надо хорошо изучить основные инструменты. Зная принципы разных технологий, вы сможете адекватно выбирать наилучший инструмент для решения конкретной задачи. Для табличных данных сейчас лидер градиентный бустинг, а конкретно — Lightgbm. Но важно уметь использовать и другие методы, от логрега до нейросетей — и в жизни, и в соревнованиях лишними не будут.

Кстати, лучший способ понять, какие технологии рулят сейчас, когда все меняется стремительно — посмотреть, какие библиотеки используют лидеры соревнований. В последние годы многие стоящие технологии прорвались в мир через Кэггл.

Гиперпараметры. Важно знать ключевые гиперпараметры используемых инструментов. Обычно не так много параметров надо менять. Мое убеждение — не стоит тратить много времени на подбор гиперпараметров. Конечно, найти хорошие гиперпараметры необходимо, но зацикливаться на этом не стоит.

Обычно, когда модель обозначилась, я подбираю более или менее стабильный сет параметров и возвращаюсь к их тюнингу только ближе к концу, когда другие идеи иссякли. Здравый смысл подсказывает, что время, потраченное на создание и тестирование новых переменных, библиотек, нестандартных идей, может дать куда больший прирост модели, чем улучшение от перехода от хорошего набора гиперпараметров к идеальному.

Если вы делаете ставку на Kaggle как на фичу, которая прокачает ваше резюме — рассматривайте это именно как работу, не пожалеете. Мне это помогло, поможет и вам.

Ну и еще раз о конкуренции. Она тут очень высока, поэтому в одиночку побеждать весьма и весьма сложно. Командная работа очень полезна, синергия идей позволяет прыгнуть выше головы. Не стесняйтесь этим пользоваться.

Итого

Ну и немного мотивации под конец. В первую очередь я доказал сам себе, что могу стать датасайнтистом в свои 44 года. Рецепт оказался на удивление прост — онлайн-образование, бизнес-ориентированное мышление, работоспособность и целеустремленность.

Теперь я всячески подбиваю своих друзей проделать тот же путь. Новая цифровая экономика нуждается (и будет нуждаться) в высококлассных специалистах. Coursera + Kaggle — это просто отличные возможности для старта.

Когда-то ведь и Excel был новым и непонятным инструментом (я даже помню, как непросто проходили первые бои с традиционным калькулятором). А сейчас ведь ни у кого нет сомнений, что специалист, разбирающийся в своем бизнесе, может выжать из Excel куда больше реальной пользы, чем сами разработчики Excel.

Пройдет немного времени, и владение инструментами машинного обучения станет таким же обязательным, как владение Excel, так почему бы не подготовиться к этому заранее и выиграть конкуренцию на рынке труда уже сейчас?

Тем более, конкуренции бояться не стоит. Чем больше людей со стороны бизнеса придет в датасайнс — тем больше денег. Внедрение новых технологий в традиционных отраслях экономики может ускорить именно бизнес, а для этого бизнес должен начать понимать возможности, которые открывают новые технологии уже сегодня. По сути любой бизнес-аналитик, освоив несколько курсов, может оказаться на передовой прогресса и помочь своей компании обогнать консервативных конкурентов.

Надеюсь, мой опыт поможет кому-то принять важное решение.

Если у вас есть какие-то вопросы о Kaggle, пишите, я с радостью отвечу в комментариях.

8 навыков, необходимых в профессии Data Scientist / Блог компании Нетология / Хабр

Светлана Шаповалова, редактор блога «Нетологии», адаптировала статью Dave Holtz, в которой он рассказал о восьми навыках, которые помогут начать карьеру Data Scientist.

Интересна профессия Data Scientist? Самое время начать её изучать: Томас Дэвенпорт и Дж. Патил, известные лидеры области, в статье для Harvard Business Review назвали Data Scientist «самой желанной профессией XXI века».

Но как стать дата-сайентистом? Если верить большинству источников, создастся впечатление, что понадобится, как минимум, ученая степень в самых разных областях: от разработки программного обеспечения, обработки данных, работы с базами данных и статистики до машинного обучения и визуализации данных.


Не переживайте. Опыт показывает, что это не главное. Не надо как можно больше и быстрее изучать множество информации о данных и осваивать все навыки подряд — это может затянуться на полжизни. Вместо этого научитесь внимательно читать описание должностных обязанностей. Именно это позволяет претендовать на вакансии, для которых у вас уже есть необходимые умения, или развивать конкретные навыки работы с данными, чтобы получить желаемое место.

Я расскажу вам о восьми важных навыках для Data Scientist.

Базовый инструментарий

Не важно, в какую компанию вы собираетесь, от вас ожидаемо потребуют знание стандартных профессиональных инструментов: язык программирования для статистической обработки данных, например R или Python, а также язык запросов для работы с базами данных, например, SQL.

Базовые знания статистики

Базовое понимание статистики жизненно необходимо в Data Science. Один интервьюер пожаловался мне, что большинство кандидатов, которых он собеседовал, даже не смогли внятно сформулировать определение P-значения. Вы должны понимать, что такое статистические тесты, распределения, метод максимального правдоподобия и т. д.
Вспомните, чему вас учили на парах по статистике. Это также понадобится при работе с машинным обучением.

Однако, самое важное — это чтобы вы точно понимали, когда и какой подход необходимо использовать.

Знания статистики понадобятся для работы в любом месте, но особенно важными они будут в компаниях, полностью ориентированных на работу с данными, и где акционеры принимают решения в зависимости от тех данных, что им предоставляются.

Машинное обучение

Методы машинного обучения пригодятся в работе с большими объемами информации и в компаниях, чей продукт целиком основан на данных. Это значит, что придется узнать значение всех слов, которые на слуху в теме машинного обучения: k-ближайшие соседи, случайные леса, ансамблевые методы.

Многие из этих методов вполне реализуемы с помощью библиотек R или Python — именно поэтому вам не придется изобретать велосипед, если только вы не ведущий специалист с мировым именем.

Важнее умение видеть всю ситуацию целиком и понимать, когда уместно применять те или иные методы.

Многомерный анализ и линейная алгебра

Скорее всего, вас попросят привести примеры результатов, которые вы получили на прошлом месте работы, используя машинное обучение или статистику. Если их нет, интервьюер может задать вопросы, связанные с множеством переменных или линейной алгеброй, поскольку это — основа многих методов.

Вы можете спросить, зачем необходимо понимать этот материал, если есть куча встроенных реализаций в sklearn или R. Смысл в том, что если в какой-то момент команда разработчиков решит разработать собственную реализацию, эти знания вам очень пригодятся.

Понимание этих концепций особенно важно в компаниях, где продукт определяется данными, а небольшие улучшения в прогнозируемой производительности или оптимизации алгоритма могут привести к огромным выигрышам.

Обработка данных

Зачастую данные, которые вы анализируете, не организованы, поэтому с ними трудно работать. Поэтому важно знать, как бороться с их разрозненностью. Это могут быть пропущенные значения, непоследовательное форматирование строки (например, «нью-йорк» и «нй» вместо «Нью-Йорк») и форматирование даты (’01 / 01/2014′ вместо ‘2014-01-01’ и т.д.). Этот навык важен как для небольших компаний, где вы только начинаете работать с данными, так и для data-driven компаний.

Визуализация и передача данных

Визуализация и передача данных невероятно важны. Особенно в молодых компаниях, которые впервые принимают основанные на данных решения. Или в компаниях, где дата-сайентист — это человек, который помогает другим принимать решения, основываясь на данных.

Передача данных означает, что вам понадобится описывать свои выводы или методы работы как технической, так и нетехнической аудитории.

Что касается визуализации данных, будет полезно ознакомится с такими инструментами как ggplot и d3.js. Важно не просто узнать, как работать с инструментами визуализации данных, но и понять принципы кодирования данных и передачи информации.

Программная разработка

Если вы собеседуетесь в небольшую компанию и будете одним из первых специалистов по данным, вам однозначно пригодится опыт разработки программного обеспечения. Вы будете отвечать за обработку большого объема данных и, возможно, разработку продуктов, управляемых данными.

Мышление в мире данных

Компаниям важно знать, что вы умеете решать задачи, основываясь на данных.

Это означает, что в какой-то момент собеседования вас, возможно, могут спросить о проблеме более высокого уровня, чем ваш нынешний. Например, о тесте, который компания хочет запустить, или о продукте, который может потребоваться для разработки. Важно понимать, что в таком случае важно, а что нет. Как бы вы, в роли Data Scientist, взаимодействовали с разработчиками и менеджерами продукта? Какие методы использовали бы?

Наука данных только зарождается и еще не имеет четких границ. Чтобы получить работу, важнее найти компанию, чьи потребности соответствуют вашим навыкам, чем заниматься развитием этих навыков вхолостую. Конечно, это лишь мои личные впечатления.

Как стать более востребованным специалистом в сфере Data Science в 2019 / Хабр

Заголовок этой статьи может показаться немного странным. И вправду: если вы работаете в сфере Data Science в 2019, вы уже востребованы. Спрос на специалистов в этой области неуклонно растет: на момент написания этой статьи, на LinkedIn размещено 144,527 вакансий с ключевым словом «Data Science».

Тем не менее, следить за последними новостями и трендами в индустрии однозначно стоит. Чтобы помочь вам в этом, мы с командой CV Compiler проанализировали несколько сотен вакансий в сфере Data Science за июнь 2019 и определили, какие навыки ожидают от кандидатов работодатели чаще всего.

Самые востребованные навыки в сфере Data Science в 2019

Этот график показывает навыки, которые работодатели чаще всего упоминают в вакансиях в сфере Data Science в 2019:

Мы проанализировали примерно 300 вакансий со StackOverflow, AngelList, и похожих ресурсов. Некоторые термины могли повторяться более одного раза в пределах одной вакансии.

Важно: Этот рейтинг демонстрирует скорее предпочтения работодателей, чем самих специалистов в сфере Data Science.

Основные тренды в сфере Data Science

Очевидно, что Data Science — это в первую очередь не фреймворки и библиотеки, а фундаментальные знания. Тем не менее, некоторые тенденции и технологии все же стоит упомянуть.

Big Data

Согласно исследованиям рынка Big Data в 2018 году, применение Big Data на предприятиях возросло с 17% в 2015 до 59% в 2018. Соответственно, возросла и популярность инструментов для работы с большими данными. Если не учитывать Apache Spark и Hadoop (о последнем мы еще поговорим подробнее), самыми популярными инструментами являются MapReduce (36) и Redshift (29).

Hadoop

Несмотря на популярность Spark и облачных хранилищ, «эра» Hadoop еще не окончена. Поэтому некоторые компании ожидают от кандидатов знания Apache Pig (30), HBase (32), и похожих технологий. HDFS (20) также еще встречается в некоторых вакансиях.

Обработка данных в режиме реального времени

Учитывая повсеместное использование различных датчиков и мобильных устройств, а также популярность IoT (18), компании пытаются научиться обрабатывать данные в режиме реального времени. Поэтому платформы обработки потоков, такие как Apache Flink (21), популярны среди работодателей.

Feature Engineering и Hyperparameter Tuning

Подготовка данных и выбор параметров модели — важная часть работы любого специалиста в сфере Data Science. Поэтому термин Data Mining (128) довольно популярен среди работодателей. Некоторые компании также уделяют внимание Hyperparameter Tuning (21) (о таком термине как Feature Engineering тоже забывать не стоит). Подбор оптимальных параметров для модели — это важно, ведь от успеха этой операции зависит работоспособность модели в целом.

Визуализация данных

Умение правильно обработать данные и выводить необходимые закономерности — это важно. Тем не менее, визуализация данных (55) является не менее важным навыком. Необходимо уметь представить результаты своей работы в формате, понятном любому члену команды или клиенту. Что касается инструментов для визуализации данных, работодатели предпочитают Tableau (54).

Общие тренды

В вакансиях нам также встречались такие термины как AWS (86), Docker (36), а также Kubernetes (24). Можно сделать вывод, что общие тренды из сферы разработки ПО потихоньку перекочевали в сферу Data Science.

Мнение экспертов

Этот список технологий действительно отображает реальное положение вещей в мире Data Science. Тем не менее, есть вещи не менее важные, чем написание кода. Это способность правильно интерпретировать результаты своей работы, а также визуализировать и представлять их в понятной форме. Все зависит от аудитории — если вы рассказываете о своих достижениях кандидатам наук, говорите на их языке, но если вы представляете результаты заказчику, его не будет волновать код — только результат, которого вы достигли.

Карла Гентри,
Data Scientist, владелец Analytical Solution
LinkedIn | Twitter

Этот график показывает текущие тренды в области Data Science, но предсказать будущее, основываясь на него, довольно сложно. Я склонен считать, что популярность R будет снижаться (как и популярность MATLAB), в то время как популярность Python будет только расти. Hadoop и Big Data также оказались в списке по инерции: Hadoop вскоре исчезнет (никто больше не инвестирует в эту технологию всерьез), а Big Data перестало быть нарастающим трендом. Будущее Scala не совсем ясно: Google официально поддерживает Kotlin, который гораздо более прост для изучения. Я также скептически отношусь к будущему TensorFlow: научное сообщество предпочитает PyTorch, а влияние научного сообщества в сфере Data Science куда выше, чем во всех остальных сферах. (Это мое личное мнение, которое может не совпадать с мнением Gartner).

Андрей Бурков,
Director of Machine Learning в Gartner,
автор Hundred-Page Machine Learning Book.
LinkedIn

PyTorch — это движущая сила обучения с подкреплением, а также сильный фреймворк для параллельного выполнения кода на нескольких графических процессорах (чего не скажешь о TensorFlow). PyTorch также помогает строить динамические графы, которые эффективны при работе с рекуррентными нейронными сетями. TensorFlow оперирует статическими графами и более сложен для изучения, но его использует большее количество разработчиков и исследователей. Однако, PyTorch ближе к Python в плане отладки кода и библиотек для визуализации данных (matplotlib, seaborn). Большинство инструментов отладки кода на Python можно использовать для отладки кода на PyTorch. У TensorFlow же есть свой инструмент для отладки — tfdbg.

Ганапати Пулипака,
Chief Data Scientist в Accenture,
обладатель премии Top 50 Tech Leader.
LinkedIn | Twitter

По моему мнению, работа и карьера в Data Science — не одно и то же. Для работы вам понадобится вышеприведенный набор навыков, но для построения успешной карьеры в Data Science самый важный навык — это умение учиться. Data Science — непостоянная сфера, и вам придется научиться осваивать новые технологии, инструменты и подходы, чтобы шагать в ногу со временем. Постоянно ставьте перед собой новые вызовы и старайтесь не «довольствоваться малым».

Лон Ризберг,
Основатель/куратор Data Elixir,
ex-NASA.
Twitter | LinkedIn

Data Science — это быстро развивающаяся и сложная сфера, в которой фундаментальные знания важны настолько же, насколько и опыт работы с определенными инструментами. Надеемся, эта статья поможет вам определить, какие навыки необходимы, чтобы стать более востребованным специалистом в сфере Data Science в 2019. Удачи!

Эта статья была подготовлена командой CV Compiler — инструмента для улучшения резюме для специалистов в сфере Data Science и других отраслях IT.

Как стать специалистом по данным в 2020 году? [Полное руководство]

Data Science — один из ведущих вариантов карьеры в 21 веке. В современном мире, ориентированном на данные, огромные объемы данных хранятся организациями из всех слоев отрасли для обработки и выпуска решений в форме информации для ответов на самые разные вопросы.

От предприятий и государственных учреждений до некоммерческих организаций у всех есть большие данные, которые необходимо анализировать и обрабатывать для решения нескольких пугающих запросов.Вот здесь и появляется наука о данных.

Как стать специалистом по данным?

Специалисты по обработке данных — это профессионалы, отвечающие за работу с большими данными и помогающие своим работодателям узнать правильные ответы на их вопросы, будь то создание маркетингового плана или ориентация на правильные демографические данные продукта.

Хотя специалисты по обработке данных имеют разное образование, большинство из них имеют какое-то техническое образование. Наука о данных — это разнообразная область, которая требует знаний программирования наряду с пониманием математики (в частности, статистики).

По мере того, как общий объем информации, доступной человечеству, растет в геометрической прогрессии, растут и возможности специалистов по данным. Прежде чем углубляться в практические советы по работе с данными, давайте сначала кратко рассмотрим науку о данных и специалистов, имеющих к ней отношение, а затем рассмотрим основные навыки, требуемые профилем работы.

Data Science and Data Scientists

Наука о данных — это разнообразная область, требующая множества необходимых навыков. Как правило, специалист по данным — это тот, кто собирает и обрабатывает данные с целью сделать некоторые конкретные выводы, которые могут принести пользу их работодателю.

Специалисты по анализу данных используют несколько различных методов. Чтобы представить данные в визуальном контексте, существует нечто, известное как визуализация данных.

Визуализация данных — это способ, который позволяет пользователю определять различные закономерности, которые в противном случае не были бы столь очевидны, если бы информация была представлена ​​в форме простых чисел.

Специалисты по обработке данных создают сложные алгоритмы, предназначенные для определения закономерностей в больших объемах данных. Можно с уверенностью сказать, что наука о данных — это поиск смысла в огромных объемах данных.

Основные навыки, чтобы стать специалистом по данным

  • Адекватность в программировании — Анализ и обработка информации должны выполняться с помощью кода. Следовательно, умение программировать важно по крайней мере на одном языке программирования. Чем больше языков программирования знает специалист по данным, тем он лучше.
  • Clear Vision Специалисты по обработке данных должны разрабатывать эффективные и быстрые алгоритмы.Следовательно, для этого очень важен творческий подход. Наука о данных — это не только то, почему это должно быть сделано, но и то, как это должно быть сделано.
  • Любопытный подход к работе Любопытство, пожалуй, один из самых важных навыков, необходимых для карьеры в области науки о данных. Врожденное любопытство специалистов по обработке данных заставляет их искать интересные закономерности в больших наборах данных.
  • Математические способности Поскольку наука о данных требует обработки необработанных данных и чисел, математические способности являются обязательными.
  • Решимость Работа с непрерывным потоком данных временами может быть неприятной. Следовательно, твердая решимость поможет любому выдержать испытания, которые предлагает карьера ученого, и извлечь из этого огромную пользу.
  • Четкая концентрация, внимание к деталям и аналитические способности — это еще несколько важных навыков, которые могут быть полезны для специалистов по данным.

Без лишних слов, вот пошаговое руководство о том, как стать специалистом по данным:

Шаг 1. Убедитесь, что он вам подходит

Перво-наперво! Прежде чем вы отправитесь в путь, чтобы стать специалистом по обработке данных, важно еще раз убедиться, что это именно то, что вам нужно.Наука о данных — очень обширная отрасль общих исследований. Следовательно, вы должны быть уверены, прежде чем брать тяжелую нагрузку на свои плечи.

В Интернете есть несколько предварительных курсов по науке о данных, которые помогут понять, подходит ли то, что вы ищете, для вас или нет, а также то, что вы получите, продолжая карьерный путь, если наконец решите на него пойти.

Хотя некоторые из этих курсов являются платными, большинство из них можно пройти бесплатно. Вы также можете проконсультироваться по этому поводу на YouTube.Когда вы уверены, что хотите заниматься наукой о данных, пора переходить к следующему шагу.

Шаг 2 — Получите соответствующую степень бакалавра / высшую степень

Хотя это не невозможно, очень трудно получить все навыки, необходимые для конкретной работы, не получив соответствующей степени. Это может быть магистратура, бакалавр или даже кандидат наук. степень. Вот некоторые степени, которые полезны для специалистов по данным:

  • Прикладная математика
  • Компьютерные науки
  • Управление данными
  • Экономика
  • Информационные технологии
  • Математика
  • Физика
  • Статистика

Учебные лагеря — отличный способ ускорить работу наряду с вашей основной степенью.Еще одно полезное занятие, которым вы можете заниматься параллельно с основным учебным курсом, — это запись на MOOC.

Массовые открытые онлайн-курсы или МООК — это онлайн-курсы, которые позволяют неограниченное участие и открытый доступ к учебным материалам через Интернет. МООК предлагают Гарвард, Массачусетский технологический институт, Microsoft и ряд других признанных университетов и организаций со всего мира.

Шаг 3 — Выберите интересующую область

Есть несколько разных путей, которые сходятся к плодотворной карьере специалиста по данным.Как правило, специалисты по обработке данных начинают с уровня бакалавра компьютерных наук, математики, статистики и т. Д.

Они подходят для работы, например, специалиста по визуализации данных, аналитика управления и аналитика маркетинговых исследований. Тем не менее, некоторые получают специализированную концентрацию в программах магистратуры, таких как инженерия данных и машинное обучение.

Некоторые из них по-прежнему получают докторскую степень в таких областях, как бизнес-решения и корпоративная научная аналитика.Поэтому важно выбрать область интересов и получить в ней соответствующую степень.

Шаг 4. Получите сертификат

Сертификаты

— важная часть резюме любого современного профессионала, особенно работающего в IT-секторе.

Сертификация не только делает преследователя привлекательным кандидатом для выполнения конкретных требований к работе в области данных, но и может помочь в развитии новых, а также в улучшении существующих навыков.

Для тех, кто интересуется наукой о данных, доступно множество сертификатов.Более того, есть несколько отличных мест, где их можно найти. Вот некоторые из ведущих вариантов сертификации в области науки о данных:

  • Сертификация больших данных, выданная Калифорнийской школой расширения в Сан-Диего
  • Сертифицированный специалист по аналитике (CAP) несколькими учреждениями
  • Сертифицированный специалист Cloudera: специалист по обработке данных CCP от Cloudera
  • Сертификат по науке о данных Гарвардской школы повышения квалификации
  • Наука о данных для руководителей, Колумбийский университет
  • Сертифицированный эксперт по решениям Microsoft от Microsoft
  • Springboard Введение в науку о данных от Springboard
Шаг 5 — Получите роль

После того, как вы накопите все академические и образовательные реквизиты, пора проверить полученные навыки и получить свою роль в прибыльной области науки о данных.

Наука о данных — это очень разнообразная область. Таким образом, можно выбрать множество специализированных ролей. Кроме того, можно стать аналитиком данных без какого-либо предыдущего опыта, а затем продвинуться дальше.

Интернет-сайты, такие как iCrunchData и Kaggle, отлично подходят для поиска подходящей работы в области науки о данных. В связи с постоянным развитием ИТ и науки о данных время от времени появляются новые и лучшие варианты.

За и против того, чтобы стать специалистом по данным

Очевидно, что у специалиста по обработке данных есть много преимуществ.Однако, как и любой другой карьерный путь, у него есть свои недостатки.

Плюсы
  • Уникальный и сложный
  • Предлагает широкий спектр повседневных задач, обеспечивая удержание интереса со стороны участвующих профессионалов.
  • Возможность работы для самых разных организаций из всех сфер промышленности
  • Возможность предложить эффективные решения для удержания клиентов, общих бизнес-запросов, запуска новых продуктов, маркетинга и многого другого
Минусы
  • Чрезвычайное разнообразие предметов имеет обратную сторону, не позволяющую профессионалу углубляться в конкретную тему
  • Технологии, используемые в контексте науки о данных, постоянно развиваются.Следовательно, инструменты, которые эффективны сегодня, завтра могут устареть. Специалисты по анализу данных должны быть в напряжении, чтобы иметь дело с любыми изменениями

ВНИМАНИЕ! Наука о данных — это не статистика!

Очень легко принять науку о данных за статистику. Хотя у этих двоих есть несколько общих аспектов, каждый из них представляет собой отдельную область.

Статистика обычно полагается на установленные теории и больше фокусируется на проверке гипотез. Кроме того, это старая дисциплина по сравнению с наукой о данных, которая очень мало изменилась за последние несколько десятилетий.

Data Science, с другой стороны, относительно нова. В отличие от статистики, наука о данных во многом полагается на компьютеры и технологии. Более того, это постоянно развивающаяся область, в которой доступ к информации осуществляется через большие базы данных, а затем используется код для ее обработки и обработки.

Заключение

Итак, это все о том, как стать специалистом по данным. Область науки о данных постоянно растет, и нет никаких признаков того, что она утихнет в ближайшее время.

По крайней мере, до тех пор, пока мир не найдет что-то лучшее, чем данные и информация, для выполнения всего, что от них зависит, что, конечно, является очень непрактичной возможностью.Следовательно, сейчас отличное время для карьеры в области науки о данных.

Желаю вам всего наилучшего!

Читают тоже:

,

Как стать специалистом по данным ?. Введение: эта статья предоставляет… | Автор: Тэсун Ю

Taesun Yoo

Введение:

Я почти уверен, что многие из нас встречают статью из Harvard Business Review 2012 года. Специалист по анализу данных — профессионал, известный как самая сексуальная работа 21 века. Кроме того, исследование, проведенное McKinsey Global Institute еще в 2013 году, прогнозировало, что к 2018 году в Северной Америке будет примерно 425 000 и 475 000 незаполненных должностей аналитиков данных.Основная идея здесь состоит в том, что постоянный поток аналитических талантов будет требоваться во всех отраслях, где компании собирают и используют данные для достижения своих конкурентных преимуществ.

Что такое специалист по данным?

В упрощенном описании специалист по данным — это профессионал, который может работать с большим объемом данных и извлекать аналитические идеи. Они сообщают свои выводы заинтересованным сторонам (то есть высшему руководству, руководству и клиентам).Таким образом, компании могут извлечь выгоду из принятия наиболее обоснованных решений для стимулирования роста и прибыльности своего бизнеса (т. Е. В зависимости от контекста отраслей).

Почему так сложно стать специалистом по обработке данных?

По своей природе наука о данных представляет собой гибрид многих дисциплин. Там, где он состоит из разных предметных областей, таких как математика (например, статистика, вычисления и т. Д.), Управление базами данных, визуализация данных, программирование / разработка программного обеспечения, знание предметной области и т. Д. На мой взгляд, это может быть основной причиной, по которой люди заинтересованы в переходя на начальную карьеру в области науки о данных, вы часто чувствуете себя полностью потерянным.Большинство людей не знают, с чего начать, потому что вам может не хватать одной области, или несколько областей зависят от образования и опыта работы.

Тем не менее, хорошая новость в том, что вам не нужно слишком сильно об этом беспокоиться. В наши дни мы сталкиваемся с совершенно противоположной стороной вопроса. Просто есть слишком много ресурсов, чтобы их выбрать. Таким образом, вы не обязательно знаете, какой из них лучше всего подойдет вам. В этой статье я расскажу, как стать специалистом по данным с трех точек зрения.

Раздел 1. Где изучать науку о данных?

Рис. 1. Путь обучения в области науки о данных и коэффициент трудоустройства

Давайте начнем с того, где изучать науку о данных. Существует три основных способа получения образования в области науки о данных на массовых открытых онлайн-курсах (MOOC), университетской степени / сертификата и учебного лагеря.

Вот примерная цифра, которая демонстрирует предполагаемое время, затраченное на трудоустройство, в сравнении с коэффициентом успешности трудоустройства для каждого варианта. Это дает представление о том, что обучение в учебном лагере может дать вам преимущество в получении должности специалиста по обработке данных быстрее, чем два других варианта.

Вот сводная таблица, в которой представлена ​​более подробная информация о каждой образовательной траектории. По сути, у каждого варианта есть свои плюсы и минусы в отношении стоимости, гибкости и продолжительности программы. Однако лучший совет для принятия правильного решения — спросить себя, что для вас действительно важно. Например, у вас есть роскошь времени и вы хотите минимизировать инвестиционные затраты. Или вы можете быть человеком, который хочет получить работу как можно скорее, даже если первоначальные инвестиционные затраты высоки.

Таблица 1.Анализ разбивки сравнения путей обучения науке о данных

Раздел 2: Что изучать науку о данных?

Специалисту по обработке данных есть чему наверняка научиться. Давайте начнем с пяти основных шагов на пути образования в области науки о данных.

Рис. 2. Пути обучения науке о данных

Шаг 1, освоение основ математики, связанной со статистикой, исчислением и линейной алгеброй, — хорошее начало. Специалисту по обработке данных важно понимать механизмы, лежащие в основе работы различных алгоритмов.Он помогает понять, как настраивать или изменять алгоритмы решения уникальных бизнес-задач. Кроме того, знание статистики поможет вам преобразовать результаты тестов экспериментального дизайна (например, A / B-тестирования) в ключевые бизнес-показатели.

Шаг 2, специалисты по обработке данных должны быть знакомы с набором инструментов для работы с данными в различных средах. Набор инструментов содержит комбинацию SQL, командной строки, кода и облачного инструмента. Вот краткое описание того, как используется каждый инструмент. Для извлечения данных и управления ими из реляционных баз данных SQL является основным языком, который используется практически везде.Для общих целей программирования (т. Е. Функций, циклов, итераций и т. Д.) Python — хороший выбор, поскольку он уже упакован со многими библиотеками (т. Е. Визуализации, машинного обучения и т. Д.). Для дополнительного ускорения знание командных строк дает дополнительные преимущества, особенно при выполнении заданий в облачных средах.

Шаг 3, это лучшее время, чтобы освоить язык для создания основы науки о данных. Для коммерческого программного обеспечения у вас есть выбор между SAS или SPSS. Из платформ с открытым исходным кодом многие люди выбирают R или Python.Отсюда вы можете получить представление об изменении / обработке данных (например, об импорте данных, агрегации, сводных данных и обработке отсутствующих значений). После этого у вас будет самая интересная часть изучения данных с помощью визуализации данных (т. Е. Гистограмм, гистограмм, круговой диаграммы, тепловой карты и визуализации карт).

Шаг 4, у вас есть выбор между прикладным машинным обучением и экосистемой больших данных. Учтите, что вы всегда можете вернуться, чтобы освоить другой путь позже. В моем случае я предпочитаю сначала узнать о прикладном машинном обучении.По сути, он охватывает аспект построения модели машинного обучения от начала до конца (т. Е. Исследование данных для развертывания модели). Чтобы узнать о больших данных, я расскажу больше о том, где получить это образование (например, книги и курсы).

Шаг 5, это наиболее важный шаг для демонстрации вашего потенциала кандидата в специалисты по анализу данных. После того, как вы познакомитесь с наукой о данных, у вас должно быть портфолио проектов. Портфолио проектов — это лучшая возможность показать, чего вы добились благодаря обучению и опыту работы.Начиная со сбора данных (т. Е. Где собирать или очищать данные самостоятельно), сформулируйте свою гипотезу, выполните исследовательский анализ (т. Е. Извлеките некоторые интересные идеи), создайте свою модель (модели) машинного обучения и, наконец, поделитесь своими выводами. из записи или презентаций. В моем случае я сделал как рецензию, так и видеоподкаст, работая над завершающим проектом с назначенным наставником. Я никогда не могу переоценить важность наличия наставника, который может напрямую работать с вами один на один.Ваш наставник — лучший друг, который поможет вам и попросит о помощи, когда вы застрянете на некоторых проектных идеях, настроите свою модель, поделитесь своими результатами и т. Д. На самом деле, в некоторых исследованиях упоминалось, что наличие наставника может повысить вашу карьеру в пять раз больше, чем люди без наставника (ов).

Раздел 3. Как изучать науку о данных?

В этом разделе вы узнаете, как выбрать лучшие ресурсы, чтобы стать специалистом по данным. Я хочу дать рекомендации, основанные на моем опыте обучения.

Рис. 3. Рекомендуемый ресурс по обучению науке о данных. Обучение

. Для обучения SQL курс DAT201x, предлагаемый Microsoft от Edx, является одним из лучших вариантов. Курс охватывает следующие аспекты SQL, включая типы данных, фильтрацию, объединения, агрегирование (группирование), оконные функции и дополнительные концепции (например, хранимые процедуры). Курс дает вам возможность много практиковаться, используя лучшее хранилище образцов данных (например, AdventureWorks). Кроме того, вы можете использовать платформу Mode Analytics, чтобы попрактиковаться и улучшить свои навыки SQL.Самое лучшее в Mode Analytics — это то, что на вашем компьютере не нужно устанавливать сервер SQL и образец хранилища данных. Все, что вам нужно, это иметь бесплатную учетную запись и подключение к Интернету, чтобы получать удовольствие от обучения.

Я хотел бы порекомендовать два варианта обучения машинному обучению. Первый курс хорошо известен любому практикующему специалисту в области науки о данных. Курс Эндрю Нг по машинному обучению от Coursera. Я использовал этот курс, чтобы понять основные концепции и советы по настройке моих моделей машинного обучения.С точки зрения опыта программирования я настоятельно рекомендую эту книгу Себастьяна Рашки под названием «Машинное обучение Python 2-е издание». Я действительно считаю, что это лучшая книга по машинному обучению. Эта книга поможет вам понять основные механизмы каждого алгоритма, множество примеров кодирования и дополнительные ссылки (например, исследовательские статьи). Лучшее в этой книге — то, что он поэтапно описывает, как реализовать каждый алгоритм машинного обучения, с подробными объяснениями. Это очень важно, как отмечают многие специалисты по данным, нужно уметь писать код с нуля и знать, как его реализовать.В наши дни существует множество сложных проблем, которые нельзя решить напрямую, используя существующие библиотеки Python.

Вот полный список ресурсов, на которые вы можете ссылаться для изучения каждого строительного блока образования в области науки о данных.

1. Математика:

· Khan Academy Math Track

· Открытый курс MIT: линейная алгебра и исчисление

· Udacity: вводная и логическая статистика

2. Набор инструментов для науки о данных:

· SQL

o Edx: DAT201x — запросы с помощью Transact SQL (*)

o Mode Analytics: SQL Tutorial (Intro to Advanced)

o WiseOwl: SQL Tutorial (Intro to Advanced) (*)

· Command Line

o Book : Data Science в командной строке

· Python Coding

o Udemy: Complete Python Bootcamp

o Книга: Learn Python the Hard Way (3-е издание)

o Книга: Автоматизация скучной работы с Python

3.Машинное обучение:

· Coursera: Машинное обучение Эндрю Нг (*)

· Coursera: Прикладное машинное обучение (U Michigan)

· Гарвард: CS109 — Введение в науку о данных (*)

· Книга: Python Machine Обучение (2-е издание) Себастьяна Рашки (*)

· Книга: Машинное обучение Python на примере

· Книга: Введение в машинное обучение с Python

4. Большие данные:

· Hadoop

o Книга: Hadoop The Definitive Guide

o Udacity: Введение в Hadoop и MapReduce

o IBM: Значок обучения основам Hadoop

· Spark

o Edx: UC Berkeley Spark Courses (CS105, CS120)

o DatacSamppark, Intro to Datac Создание механизма рекомендаций в PySpark

o Книга: изучение PySpark, расширенная аналитика с помощью Spark

Бонусный раздел: обращение за помощью и создание сети

Теперь я хотел бы завершить эту статью, предоставив еще несколько дополнительных советов.Вначале, как новичку-энтузиасту науки о данных, вам не обязательно иметь наставника, который поможет вам в обучении. Таким образом, вам нужно место, где можно узнать мнение и обратную связь от сообщества специалистов по науке о данных. Что ж, хорошая новость заключается в том, что есть несколько форумов, на которых вы можете попросить помощи с вашими проблемами. Некоторые веб-сайты, такие как StackOverflow, Quora и т. Д., Позволяют публиковать вопросы и получать ответы на свои сообщения.

Еще один совет связан с сетью. Это действительно относится ко всем, кто действительно ищет новые возможности и налаживает связи.В Торонто проводится множество местных встреч и крупных конференций, связанных с наукой о данных. Постарайтесь посещать как можно больше мероприятий и представиться (например, мотивация, цель, страсть). Кроме того, если у вас есть возможность общаться с докладчиками и организаторами мероприятий, постарайтесь установить с ними конструктивные связи. Я думаю, что одна из полезных тактик, которую я усвоил на собственном опыте, — это поиск возможностей представить свой портфель проектов на любом доступном носителе. Я имел в виду либо возможность выступить на местных встречах, либо даже видео-веб-трансляцию через час удаленного офиса по анализу данных.Благодаря этому опыту я смог извлечь уроки из своих глупых ошибок и улучшить от одной презентации к другой. Это дает большую ценность кандидату в аналитики данных, так как он дает эффективную презентацию и может четко передавать аналитические идеи.

Спасибо за чтение этой статьи. Я надеюсь поделиться более интересной и полезной информацией по мере того, как я набираюсь опыта в своем пути, чтобы стать специалистом по данным.

.

Как стать специалистом по данным — Полное руководство

Если вы ищете профиль работы с высоким качеством оплаты в ИТ-индустрии. Data Scientist появляется в вашем списке желаний. Когда я начал искать, как стать специалистом по данным. Я получил так много информативных статей в Интернете. Эта статья была полна информации, но довольно обширна и распространена.

Итак, в этой статье я упомянул лучший способ изучения науки о данных очень компактным и последовательным способом. Если вы последуете всем этим советам, вы станете специалистом по данным с меньшими усилиями.На самом деле наука о данных — это комбинация множества взаимосвязанных областей, таких как машинное обучение, визуализация данных и программирование. Он также включает принципы математики и статистики. Эта комбинация и ее сложность создают массивность и замешательство в сознании читателя.

Существует так много разновидностей вспомогательных навыков в области науки о данных, как язык программирования (python vs r), алгоритмы машинного обучения (контролируемое машинное обучение против неконтролируемого машинного обучения). Какой навык должен получить более высокий приоритет для обучения, является основной проблемой для изучающих науку о данных.Если вы испытываете то же самое, это подходящее место для решения всех ваших проблем. Мы создали прямую дорожную карту, чтобы помочь вам в затруднении относительно того, как стать специалистом по данным .

Как стать специалистом по данным image

Как стать специалистом по данным — Полное руководство

Согласно описанию должности специалиста по данным, доступному в отрасли, мы можем разделить набор навыков на пять основных классов. Я расположил эти пять навыков в порядке приоритета.Мы также создали дорожную карту в виде информационной графики для вашего лучшего понимания. Эти пять шагов — лучший способ изучить науку о данных.

1. Обновите основы математики и статистики для науки о данных —

Вероятность и статистика — фундаментальные инструменты, необходимые для любой прогнозной аналитики. Он плохо используется во всех областях науки о данных. В частности, интеллектуальный анализ данных машинного обучения — это та область, в которой нельзя сделать ни один шаг, не имея грязных рук в математике и статистике.

Вы можете найти бесплатную электронную книгу по статистике для науки о данных, просто нажав на ссылку ниже. Вопрос о вероятности и статистике собеседования для науки о данных должен быть охвачен темой в этом разделе, а также для повышения эффективности вашего собеседования. В каждой должности специалиста по анализу данных есть отдельная колонка, в которой «Понимание вероятности» является обязательным навыком. Вы можете прочитать статью о лучших способах изучения вероятности для специалиста по данным. Он охватывает три этапа изучения вероятности для науки о данных.

2. Изучите программирование | Python для науки о данных —

Вы должны выбрать один язык программирования в каждом проекте по науке о данных. Возможные комбинации для обучения —

  1. Обучение программированию
  2. Python для науки о данных
  3. java для науки о данных.

Это второй шаг в серии лучших способов изучения науки о данных. Если вы занимаетесь каким-либо проектом в области науки о данных, вам нужны данные. Data Analyst может использовать или создавать данные из внешнего источника файла, такого как excel, или вам нужно получить данные через некоторый вызов API с использованием какого-либо языка программирования.Наконец, вы должны использовать по крайней мере любой язык программирования для выполнения этой задачи. Я рекомендую вам обратиться к нашей статье Почему Python для анализа данных. Эта статья посвящена Python, но после прочтения вы можете связать ее с другим языком программирования.

Если вы хотите испачкать руки питоном и ищете

— это краткая обзорная статья. Основы Python за 5 минут — лучшая статья для вас.

3. Изучите прикладные алгоритмы машинного обучения для науки о данных

Алгоритмы машинного обучения и обученный инструмент необходимы для науки о данных.Существует множество инструментов, с помощью которых вы можете тренировать свою модель машинного обучения. Эта модель будет интегрирована в ваш существующий проект по науке о данных. Проект по науке о данных. Давайте разберемся с этим на примере. Предположим, нам нужно создать алгоритмы прогнозирования цен для любой финансовой фирмы, и у нас есть данные только за 10 лет. Мы построим модель, используя некоторую рыночную логику для прогноза на следующий год. Если мы хоть немного сможем сделать автоматическую систему обратной связи в нашей существующей системе, чтобы добавить текущий реальный результат в качестве опыта.Так что в следующий раз у нас будут данные об обучении за 11 лет. Точно так же, как время идет, наша система будет более точной в прогнозной аналитике. Этот подход называется машинным обучением, когда машина начинает учиться самостоятельно, опираясь на свой прошлый опыт.

Я предлагаю вам взять на себя функцию библиотеки машинного обучения. Это улучшит ваше понимание.

4. Изучите инструмент визуализации данных для науки о данных

Data Scientist анализирует данные и извлекает из них значимый результат.Этим результатом может быть любой паттерн, любой индикатор или что-то еще. Чтобы понять скрытую информацию из огромных необработанных данных, вам нужно использовать какой-то инструмент визуализации данных. Фактически, у нас есть так много возможностей для визуализации данных, доступных повсюду. Эти инструменты очень часто используют компании из разных отраслей. Некоторые из них очень популярны и часто нравятся-

  1. Qlik Sense и QlikView
  2. D3.js
  3. Таблица

5. Изучите технологии больших данных для науки о данных —

, это последнее, но довольно эффективное.Особенно, если вы хотите стать специалистом по обработке данных. Существует так много инструментов и технологий для работы с большими данными. Hadoop — это платформа с открытым исходным кодом для больших данных. Spark с java и Scala также довольно часто используется. Существует полный список необходимых инструментов для работы с большими данными в науке о данных. Для начинающих я предлагаю сначала изучить Hadoop.

Наконец, если вы изучите все эти технологии, вы сможете начать свою карьеру в качестве специалиста по данным. Я имею в виду, что все эти навыки необходимы для специалиста по данным.Наряду с этим, если вы имеете дело с текстовой аналитикой, вы можете использовать обработку естественного языка. Обработка естественного языка вкратце — это НЛП. НЛП как короткое и модное слово в области технологий. Все крупные инновационные компании работают над НЛП. Facebook и Google также входят в этот список.

Давайте увеличим масштаб интеллектуального анализа данных машинного обучения. Machine Leaning сам по себе является ветвью искусственного интеллекта. Программисты и конструкторы приложений используют интеллектуальный анализ данных машинного обучения, науку о данных, AI в своих существующих приложениях.Эта интеграция переносит их технологии в новую эру. В тренде так много инструментов, как Amazon Machine Leaning, Azure ML Studio, Apache singa.

В любом случае, давайте подведем итоги. Data Scientist — это тот, кто хорошо разбирается в математике, программировании и аналитике. Эти три направления сами по себе являются основными. Их сочетание создает значимые данные. Неструктурированные данные в основном доступны вокруг нас. Большую часть времени мы создаем неструктурированные данные неосознанно. Например, видео нашей деятельности само по себе является неструктурированными данными.Разобраться с этим — основная проблема в области науки о данных. Итак, если вы изучаете технологии неструктурированных данных с помощью науки о данных, вы — продукт, готовый к будущему.

Конечные ноты

Я думаю, мы достаточно обсудили тему «Как стать специалистом по данным». Если вы хотите узнать больше о машинном обучении, прочтите нашу статью Что такое машинное обучение? .

5 вещей, которым нужно научиться, чтобы стать специалистом по анализу данных Инфографика

Поделитесь этим изображением на своем сайте

Укажите ссылку на https: // www.datasciencelearner.com с этим изображением.

 Как стать специалистом по данным Полное руководство

5 Things to learn to becom data scientist

Присоединяйтесь к нашему списку

Подпишитесь на наш список рассылки и получайте интересные материалы и обновления на свой почтовый ящик.

Мы уважаем вашу конфиденциальность и серьезно относимся к ее защите

Спасибо за регистрацию. Письмо с подтверждением было отправлено на ваш адрес электронной почты.

Что-то пошло не так.

,

Станьте специалистом по данным за 8 шагов: Инфографика

Этот пост был написан командой DataCamp, онлайн-платформы интерактивного обучения для науки о данных.

После того, как журнал Harvard Business Review назвал эту работу «самой сексуальной работой 21 века», специалисты по анализу данных вызвали интерес широкой публики. Многих людей эта работа заинтриговала именно потому, что в названии есть интересное звучание. Но именно название тоже вызывает массу вопросов.Потому что , кто такой специалист по данным и чем конкретно занимаются специалисты по данным? Многие из нас, кто посвящает свою жизнь науке о данных, часто сталкиваются с подобными вопросами.

Ответы на эти вопросы в большинстве случаев не так однозначны, как можно было бы ожидать: короткий поиск в Google со строкой слов «Как стать специалистом по данным» показывает, что концепция имеет разное значение для разных людей . Кроме того, во многих статьях действительно предлагаются различные инструменты, курсы и приложения, чтобы люди могли стать специалистами по данным, и на это есть веская причина: варианты безграничны.Но давайте посмотрим правде в глаза: для человека, не знакомого с этой областью, этот совет иногда может показаться кладезью информации. Более того, они могут демотивировать: описания иногда бывают ужасно длинными, а многие детали часто обрушиваются на читателей огромной лавиной.

Руководство DataCamp, чтобы стать специалистом по данным

Помня об этом, DataCamp решил помочь тем, кто не видит леса за деревьями: мы разработали пошаговую инфографику, в которой четко показано, как стать специалистом по данным за 8 простых шагов.Это визуальное руководство предназначено для всех, кто заинтересован в изучении науки о данных, или для всех, кто уже стал специалистом по данным, но хочет получить дополнительные ресурсы для дальнейшего совершенствования. Инфографика называется «Станьте специалистом по данным за 8 простых шагов». Посмотри на это!

How to become a data scientist

Источник: blog.datacamp.com

Если вы думаете о том, чтобы стать специалистом по данным, не удивляйтесь восьми шагам, представленным в инфографике.Мы хотели бы подчеркнуть, что для того, чтобы стать специалистом по данным, нужно время и личные вложения, но этот путь совсем не скучный! И не забывайте, есть множество курсов, которые помогут вам встать на правильный путь.

Если вы уже являетесь специалистом по обработке данных, напишите нам по адресу [email protected], если вы думаете о других шагах, которые вы предприняли на своем профессиональном пути.

Не стесняйтесь делиться!

.

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *