Data scientist это: что это, чем занимаются и что делают, зарплата и как стать — CheckROI

Содержание

Как стать Data Scientist с нуля — что должен знать дата-сайентист

Подробный план со ссылками на бесплатные учебные ресурсы.

Учёба на магистра Data Science в обычном офлайновом вузе США может стоить от $30 тысяч до $120 тысяч. Даже онлайн-курсы по этой специальности могут «влететь» минимум в $9 тысяч. Перевод этой статьи с сайта Towards Data Science — для тех, кто не желает тратиться или просто не может себе позволить такое удовольствие, но очень хочет стать дата-сайентистом. Ребекка Викери (10 лет в сфере) делится программой, по которой изучала DS сама.

План состоит из трех частей (технические навыки, теория, практика) и полностью построен на бесплатных материалах. Для тех, кто всё же готов немного инвестировать в самообразование, прикреплены ссылки на курсы, которые ускорят процесс.

Технические навыки специалиста в области Data Science

— Советую начинать именно с них, чтобы вы сразу ориентировались на практику, а не уходили в математическую теорию. Самый популярный язык программирования в DS — Python. По опросу Kaggle, который площадка проводила внутри своего сообщества специалистов по обработке данных и машинному обучению в 2018 году, 83% респондентов используют Python ежедневно. Поэтому в первую очередь изучите его, но немного внимания нужно будет уделить кое-каким другим языкам. Например, R.

Основы Python

В сети масса бесплатных вводных курсов, но лично я считаю, что лучшие — это курсы Codecademy: в них много практических заданий, все они выполняются в браузере.

Предлагаю пройти вот этот вводный курс по Python. Здесь изложены основы синтаксиса, функции, поток управления, циклы, модули и классы.

Python и анализ данных

Далее нужно очень хорошо разобраться с тем, как Python используют в анализе данных.

  1. Для начала пройдите хотя бы бесплатную часть материалов по анализу данных на dataquest.io. Этот ресурс предлагает полноценные учебные программы по подготовке дата-аналитиков, дата-сайентистов и дата-инженеров. 
  2. Очень много контента, особенно по анализу данных, находится в бесплатном доступе, но если вы захотите выучиться побыстрее и не пожалеете денег, то очень рекомендую оформить подписку на несколько месяцев. Этот курс заложит прочный фундамент для дальнейшего изучения DS. Я прошла программу для дата-сайентистов за полгода. Цены у Dataquest в диапазоне от $24,5 до $49 в месяц в зависимости от того, на какой срок покупать подписку (годовая — дешевле).

Python и машинное обучение

  1. По возможности не скупитесь на полный курс по DS на Dataquest: он даст вам крепкую базу по использованию Python в машинном обучении. В противном случае есть множество бесплатных источников. Начинайте со scikit-learn — это, пожалуй, самая популярная ML-библиотека для Python.
  2. Ещё мне повезло попасть на двухдневный воркшоп Андреаса Мюллера, одного из ключевых разработчиков scikit-learn. Материал того курса (и не только) он целиком выложил на GitHub. Здесь есть наглядная графика, конспекты и заметки, над которыми можно поработать самостоятельно, что я вам настоятельно рекомендую.
  3. Стоит ознакомиться с некоторыми туториалами из документации scikit-learn, после чего уже можно попробовать делать настоящие ML-приложения и разбираться с тем, как устроены ML-модели (но об этом позже).

SQL

SQL — обязательный навык для дата-сайентиста, так как одним из ключевых процессов моделирования данных является, прежде всего, их извлечение. В большинстве случаев вам будет нужно уметь запускать SQL-запросы к базам данных.

Вот пара бесплатных ресурсов для тех, кто решил не брать полный курс на Dataquest.

  1. Бесплатный вводный курс в SQL есть на Codecademy. Он очень удобный, кодить нужно не выходя из браузера.
  2. Тем, кто интересуется облачными базами данных и отправкой запросов в них, рекомендую заглянуть на Google Cloud BigQuery. Здесь есть пробная версия (можно потренироваться бесплатно), доступ к обширному массиву публичных датасетов и толковая документация.

R

Не ограничивайтесь Python: дата-сайентисту очень полезно владеть языком R, поэтому советую пройти вводный курс ещё и по нему.

Бесплатный вариант есть на Codecademy. Стоит отметить, что эта площадка тоже предлагает комплексную программу по подготовке дата-сайентистов, но только по подписке на тариф Pro. Стоит она от $15,99 до $ 31,99 в месяц — смотря на сколько месяцев вперёд платить. Лично мне курс Dataquest показался гораздо более содержательным, хотя здесь может получиться немного дешевле, если вы предпочитаете заниматься по одной платформе.

Разработка программного обеспечения

Дата-сайентисту будет нелишним освоить навыки и лучшие практики разработки софта: это улучшит читабельность вашего кода, и его будет проще дополнять — как вам самим, так и другим. Кроме того, чтобы выкатывать модели в продакшн, нужно научиться генерировать качественный, хорошо проверенный код и работать с такими инструментами, как системы контроля версий.

В помощь вам — два ресурса:

  1. Python like you mean it охватывает руководство PEP 8, которое описывает общепринятый стиль оформления кода на Python, документацию, и ещё в нём очень сильная часть про объектно-ориентированное программирование.
  2. Этот гайд — о том, как вносить вклад в разработку scikit-learn. Здесь здорово разобраны лучшие подходы и принципы, которые на самом деле универсальны и применимы не только к этой библиотеке. Затрагивается GitHub, юнит-тестирование и отладка кода, причём всё рассмотрено в контексте DS.

Глубокое обучение

Самое лучшее и развёрнутое введение в глубокое обучение дают авторы fast.ai — этот ресурс тоже бесплатный, и на нём совершенно нет рекламы.

Курс включает введение в машинное обучение, практические аспекты глубокого обучения, вычислительную линейную алгебру, а также введение в обработку естественного языка с акцентом на программирование. Все курсы на этом сайте объединяет прикладной подход, поэтому очень советую не проходить мимо.

Теория

По ходу изучения технических моментов вам неизбежно будет встречаться теория, которая стоит за кодом.

Призываю вас учить теорию без отрыва от практики.

Например, я изучаю код, чтобы научиться применять какую-то технику (скажем, метод k-средних, KMeans), а когда она сработает, начинаю глубже разбираться с понятиями, которые с ней связаны (например, с инертностью, Inertia).

  1. Все сопутствующие алгоритмам математические термины есть в той же документации scikit-learn.
  2. Ниже я перечислю главное, что нужно изучить из теории вместе с прикладными аспектами. Почти по всем этим вещам есть бесплатные уроки на khan academy. Во время регистрации или в профиле можно выбрать нужные вам дисциплины, и сайт выдаст пошаговый план по каждому предмету.

Математика

Математический анализ (Calculus)

В этом разделе математики рассматривается связь между функцией и её производной, из-за которой изменение одной переменной величины приводит к изменению другой. Матанализ позволяет, например, выявлять паттерны, понимать, как функция меняется с течением времени.

В машинном обучении матанализ помогает оптимизировать производительность алгоритмов. Один из примеров — метод градиентного спуска. Он состоит в том, что при обучении по одному изменяют весовые коэффициенты нейросети для поиска минимального значения функции потерь.

Что нужно знать.

Производные (Derivatives)

  • Геометрический смысл (Geometric definition)
  • Вычисление производной функции (Calculating the derivative of a function)
  • Нелинейные функции (Nonlinear functions)

Цепное правило (или Правило дифференцирования сложной функции, Chain rule)

  • Сложные функции (Composite functions)
  • Производные сложных функций (Composite function derivatives)
  • Множественные функции (Multiple functions)

Градиенты (Gradients)

  • Частные производные (Partial derivatives)
  • Производные по направлению (Directional derivatives)
  • Интегралы (Integrals)

Линейную алгебру (Linear Algebra)

Многие распространённые инструменты машинного обучения, в том числе XGBOOST, для хранения входных данных и обработки данных используют матрицы. Матрицы, наряду с векторными пространствами и линейными уравнениями, изучает линейная алгебра. Уверенное знание этого раздела математики очень важно для понимания механизма многих методов машинного обучения.

Что нужно знать

Векторы и пространства (Vectors and spaces)

  • Векторы (Vectors)
  • Линейные комбинации (Linear combinations)
  • Линейная зависимость и независимость (Linear dependence and independence)
  • Скалярное произведение и векторное произведение (Vector dot and cross products)

Матричные преобразования (Matrix transformations)

  • Функции и линейные преобразования (Functions and linear transformations)
  • Умножение матриц (Matrix multiplication)
  • Обратные функции (Inverse functions)
  • Транспонирование матрицы (Transpose of a matrix)

Статистика для Data Scientist

Что нужно знать

Описательная/дескриптивная статистика (Descriptive/Summary statistics)

  • Описание выборки данных (How to summarise a sample of data) 
  • Типы распределений (Different types of distributions)
  • Асимметрия, эксцесс, меры центральной тенденции, например среднее арифметическое, медиана, мода (Skewness, kurtosis, central tendency, e.g. mean, median, mode)
  • Меры зависимости и взаимосвязь переменных величин, например корреляция и ковариация (Measures of dependence, and relationships between variables such as correlation and covariance)

Планирование эксперимента (Experiment design)

  • Проверка гипотез (Hypothesis testing)
  • Семплирование (Sampling)
  • Тесты на статистическую значимость (Significance tests)
  • Случайность (Randomness)
  • Вероятность (Probability)
  • Доверительные интервалы и статистический вывод по двум выборкам (Confidence intervals and two-sample inference)

Машинное обучение (Machine learning)

  • Вывод о наклоне линии регрессии (Inference about slope) 
  • Линейная и нелинейная регрессия (Linear and non-linear regression)
  • Классификация (Classification)

Практика

Теперь можно приступить к третьей части программы — практическому опыту. Чтобы отточить полученные скиллы, их нужно задействовать в проектах — желательно, чтобы они были похожи на какие-то уже существующие приложения. Попутно перед вами будут возникать разные сложности, но справляясь с ними, вы очень хорошо «прощупаете» предмет и прокачаете свои знания.

Андерс Эрикссон, «Максимум. Как достичь личного совершенства с помощью современных научных открытий»

«Чтобы научиться чему-то, чего вы не умели раньше, нужно постоянно выходить из состояния равновесия и заставлять мозг и тело адаптироваться к изменяющимся условиям».

Kaggle

Конкурсы по машинному обучению — отличная возможность потренироваться создавать модели. Там есть доступ к множеству датасетов, предназначенных для решения отдельных задач. По турнирной таблице можно сравнивать свои успехи с другими участниками. А ещё по результатам вам будет видно, в каких темах у вас пробелы и что нужно подтянуть.

Помимо Kaggle, есть разные другие платформы, где можно попробовать свои силы. Например Analytics Vidhya и DrivenData.

ML-репозиторий UCI

UCI Machine Learning Repository — огромный клад публичных датасетов, которые можно использовать в домашних ML-проектах. Создайте портфолио на GitHub и размещайте проекты в нём. Оно будет не только демонстрировать ваши способности и достижения, но и в дальнейшем может помочь найти работу.

Вклад в Open Source

Участвуйте в чужих проектах. Очень многие Python-библиотеки поддерживаются опенсорс-сообществом. В рамках митапов и конференций часто проводят хакатоны, куда приглашают даже новичков. Это хорошая возможность для взаимного «обмена премудростями»: здесь можно и чему-то научиться у других, и поделиться знаниями. Один из вариантов — хакатон, спонсируемый фондом NumFOCUS.

Практические ресурсы хорошо разнообразят книги по Data Science из этого списка. Все можно найти в открытых источниках.


А также платные занятия по Data Science 



2038$ — средняя зарплата в Data Science в Беларуси​ за 2019 год.
11 вакансий для Data Scientist.


что такое «data» / Блог компании SkillFactory / Хабр

Размышления об информации, памяти, аналитике и распределениях

Все, что воспринимают наши чувства, — это данные, хотя их хранение в наших черепушках оставляет желать лучшего. Записать это немного надежнее, особенно когда мы записываем это на компьютере. Когда эти записи хорошо организованы, мы называем их данными… хотя я видел, как некоторые ужасно организованные электронные каракули получают то же имя. Я не уверен, почему некоторые люди произносят слово data так, как будто оно имеет заглавную букву D.

Почему мы произносим data с большой буквы?

Нам нужно научиться быть непочтительно прагматичными в отношении данных, поэтому эта статья поможет новичкам заглянуть за кулисы и помочь практикующим объяснить основы новичкам, у которых проявляются симптомы поклонения данным.

Смысл и смыслы

Если вы начнете свое путешествие с покупки наборов данных в Интернете, вы рискуете забыть, откуда они берутся. Я начну с нуля, чтобы показать вам, что вы можете делать данные в любое время и в любом месте.

Вот несколько постоянных обитателей моей кладовой, расставленных на полу.

Эта фотография представляет собой данные — она хранится как информация, которую ваше устройство использует для отображения красивых цветов.

Давайте разберемся в том, на что мы смотрим. У нас есть бесконечные варианты того, на что обращать внимание и помнить. Вот что я вижу, когда смотрю на продукты.

Если вы закрываете глаза, вы помните каждую деталь того, что вы только что видели? Нет? И я нет. Вот почему мы собираем данные. Если бы мы могли помнить и обрабатывать это безупречно в наших головах, в этом не было бы необходимости. Интернет мог быть одним отшельником в пещере, рассказывая обо всех твитах человечества и прекрасно передавая каждую из наших миллиардов фотографий кошек.

Письмо и долговечность

Поскольку человеческая память — это дырявое ведро, было бы лучше записать информацию так, как мы делали это раньше, когда я училась в школе статистики, еще в далекие года. Вот именно, друзья мои, у меня все еще где-то здесь есть бумага! Давайте запишем эти 27 данных.

Что хорошего в этой версии — относительно того, что находится в моем гиппокампе или на моем полу — то, что она более долговечна и надежна.

Человеческая память — дырявое ведро.

Мы считаем революцию памяти само собой разумеющейся, так как она началась тысячелетия назад с торговцев, нуждающихся в надежном учете того, кто кому продал, сколько бушелей чего. Потратьте немного времени, чтобы понять, как прекрасно иметь универсальную систему письма, которая хранит цифры лучше, чем наш мозг. Когда мы записываем данные, мы производим неверное искажение наших богато воспринимаемых реалий, но после этого мы можем передавать нетленные копии результата другим представителям нашего вида с идеальной точностью. Писать потрясающе! Маленькие кусочки ума и памяти, которые живут вне нашего тела.

Когда мы анализируем данные, мы получаем доступ к чужим воспоминаниям.

Беспокоитесь о машинах, превосходящих наш мозг? Даже бумага может сделать это! Эти 27 маленьких цифр — большой объем для вашего мозга, но долговечность гарантирована, если у вас есть пишущий инструмент под рукой.

Хотя это и выигрыш в долговечности, но работа с бумагой раздражает. Например, что, если мне вдруг взбредет в голову переставить их от большего к меньшему? Абракадабра, бумага, покажи мне лучший порядок! — Нет? Черт.

Компьютеры и магические заклинания

Вы знаете, что удивительного в программном обеспечении? Абракадабра на самом деле работает! Итак, давайте перейдем с бумаги на компьютер.

Электронные таблицы оставляют меня равнодушным. Они очень ограничены по сравнению с современными инструментами обработки данных. Я предпочитаю колебаться между R и Python, так что давайте на этот раз возьмем R. Вы можете повторять за мной в вашем браузере с помощью Jupyter: выберите вкладку «with R», затем несколько раз нажмите значок ножниц, пока все не будет удалено. Поздравляю, это заняло 5 секунд, и вы готовы вставить мои фрагменты кода и запустить его [Shift + Enter].

weight <- c(50, 946, 454, 454, 110, 100, 340, 454, 200, 148, 355, 907, 454, 822, 127, 750, 255, 500, 500, 500, 8, 125, 284, 118, 227, 148, 125)

weight <- weight[order(weight, decreasing = TRUE)]

print(weight)

Вы заметите, что абракадабра R для сортировки ваших данных не очевидна, если вы новичок в этом.

Ну, это верно для самого слова «абракадабра», а также для меню в программном обеспечении электронных таблиц. Вы знаете эти вещи только потому, что были подвержены им, а не потому, что они являются универсальными законами. Чтобы что-то сделать с компьютером, вам нужно попросить своего местного мудреца о волшебных словах/жестах, а затем попрактиковаться в их использовании. Мой любимый мудрец называется Интернет и знает все на свете.

Чтобы ускорить обучение, не просто вставляйте волшебные слова — попробуйте изменить их и посмотреть, что произойдет. Например, что изменится, если вы превратите TRUE в FALSE во фрагменте выше?

Разве не удивительно, как быстро вы получаете ответ? Одна из причин, по которой я люблю программирование, заключается в том, что это нечто среднее между магическими заклинаниями и LEGO.

Если вы когда-нибудь хотели, чтобы вы могли творить чудеса, просто научитесь писать код.

Вот вкратце о программировании: спросите Интернет, как сделать что-то, возьмите волшебные слова, которые вы только что выучили, посмотрите, что произойдет, когда вы их отрегулируете, а затем соедините их вместе, как блоки LEGO, чтобы выполнить ваш код.

Аналитика и обобщение

Проблема с этими 27 числами состоит в том, что даже если они отсортированы, они мало что значат для нас. Читая их, мы забываем то, что читали секунду назад. Это человеческий мозг для вас; попросите нас прочитать отсортированный список из миллиона номеров, и в лучшем случае мы запомним последние несколько. Нам нужен быстрый способ сортировки и суммирования, чтобы мы могли понять, на что мы смотрим.

Вот для чего нужна аналитика!

median(weight)

При правильном заклинании мы можем мгновенно узнать, каков средний вес. (Медиана означает «среднее».)

Оказывается, ответ 284г. Кто не любит мгновенного удовлетворения? Существуют всевозможные варианты сводки: min(), max(), mean(), median(), mode(), variance()… попробуйте все! Или попробуйте это волшебное слово, чтобы узнать, что происходит.

summary(weight)

Кстати, эти вещи называются статистикой. Статистика — это любой способ собрать ваши данные. Это не то, что представляет собой область статистики — вот 8-минутное введение в академическую дисциплину.

Построение и визуализация

Этот раздел не о типе заговора, который включает мировое господство (следите за новостями этой статьи). Речь идет о суммировании данных с помощью изображений. Оказывается, картинка может быть информативнее тысячи слов.

Если мы хотим знать, как распределяются веса в наших данных — например, есть ли еще пункты между 0 и 200 г или между 600 и 800 г? — гистограмма — наш лучший друг.

Гистограммы являются одним из способов (среди многих) суммирования и отображения наших выборочных данных. Более высокие блоки для более популярных значений данных.

Думайте о гистограммах как о конкурсах популярности.

Чтобы создать приложение для работы с электронными таблицами, волшебное заклинание представляет собой долгий ряд нажатий на различные меню. В R это быстрее:

Вот что мы получили с помощью одной строки:

hist(weight)

На что мы смотрим?

На горизонтальной оси у нас есть столбцы. По умолчанию они установлены с шагом 200г, но мы изменим это через мгновение. На вертикальной оси находятся отсчеты: сколько раз мы видели вес от 0 до 200 г? График говорит 11. Как насчет между 600 г и 800 г? Только один (это поваренная соль, если память не изменяет).

Мы можем выбрать размер наших столбцов — по умолчанию, которую мы получили без возни с кодом, — 200 г, но, возможно, мы хотим использовать 100 г, вместо этого. Нет проблем! Маги в процессе обучения могут переделать мое заклинание, чтобы узнать, как оно работает.

hist(weight, col = "salmon2", breaks = seq(0, 1000, 100))

Вот результат:

Теперь мы можем ясно видеть, что двумя наиболее распространенными категориями являются 100–200 и 400–500. Кому-нибудь интересно? Возможно нет. Мы сделали это только потому, что могли. Настоящий аналитик, с другой стороны, преуспевает в науке быстрого просмотра данных и искусстве смотреть, где лежат интересные самородки. Если они хороши в своем ремесле, они на вес золота.

Что такое распределение

Если эти 27 пунктов — это все, что нас волнует, то приведенная мною выборочная гистограмма также отражает распределение совокупности.

Это почти то же самое, что и распределение: это гистограмма, которую вы получили бы, если бы применили Hist() ко всей совокупности (ко всей информации, которая вас интересует), а не только к выборке (данным, которые у вас есть под рукой). Есть несколько сносок, например, шкала по оси Y, но мы оставим их для другого поста в блоге — пожалуйста, не бейте меня, математики!

Если бы наше население когда-либо упаковывало все продукты питания, распределение было бы в форме гистограммы всех их весов. Такое распределение существует только в нашем воображении как теоретическая идея — некоторые упакованные продукты питания теряются в глубине веков. Мы не можем сделать этот набор данных, даже если бы захотели, поэтому лучшее, что мы можем сделать, — это угадать, используя хороший пример.

Что такое Data Science

Существует множество мнений, но я предпочитаю следующее определение: «Наука о данных — это дисциплина, которая делает данные полезными». Три ее подраздела включают анализ большого количества информации для поиска инсайтов (аналитика), разумное принятие решений на основе ограниченной информации (статистика) и использование шаблонов в данных для автоматизации задач (ML/AI).

Вся наука о данных сводится к следующему: знание это сила.

Вселенная полна информации, ожидающей сбора и использования. Хотя наш мозг прекрасно разбирается в наших реалиях, он не так хорош в хранении и обработке некоторых видов очень полезной информации.

Вот почему человечество обратилось сначала к глиняным табличкам, затем к бумаге и, в конечном итоге, к кремнию за помощью. Мы разработали программное обеспечение для быстрого просмотра информации, и в наши дни люди, которые знают, как ее использовать, называют себя учеными или аналитиками данных. Настоящие герои — это те, кто создает инструменты, которые позволяют этим практикующим лучше и быстрее овладеть информацией. Кстати, даже интернет — это аналитический инструмент — мы просто редко думаем об этом, потому что даже дети могут проводить такой анализ данных.

Апгрейд памяти для всех

Все, что мы воспринимаем, хранится где-то, по крайней мере, временно. В данных нет ничего волшебного, кроме того, что они записаны более надежно, чем мозг. Некоторая информация полезна, часть вводит в заблуждение, остальное посередине. То же самое касается данных.

Мы все аналитики данных и всегда ими были.

Мы принимаем наши удивительные биологические возможности как должное и преувеличиваем разницу между нашей врожденной обработкой информации и автоматическим разнообразием. Разница заключается в долговечности, скорости и масштабе… но в обоих случаях применяются одни и те же правила здравого смысла. Почему эти правила выходят в окно при первом знаке уравнения?

Я рада, что мы называем информацию топливом для прогресса, но поклоняться данным как чему-то мистическому для меня не имеет смысла. Лучше просто говорить о данных, так как мы все аналитики данных, и так было всегда. Давайте дадим возможность каждому увидеть себя такими.

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

Читать еще

«Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике» — Кирилл Данилюк, Data Scientist

Привет, Хабр! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, об отличии ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.

— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.

— С какими трудностями ты сталкивался в профессиональном плане, какие вызовы были в начале и в дальнейшем?

— Снова напомню, что я изначально был проджектом, то есть, смена карьеры была довольно серьезной. Трудностей было очень много. В первую очередь, это неверие в себя. Ты видишь вокруг себя всех этих умных парней, которые что-то там пишут, разговаривают на непонятном тебе языке. Ты видишь огромную пропасть между собой и ими. При этом, твое окружение тоже не поощряет перехода — людям начинает казаться, что ты «занимаешься фигней и вообще прокрастинируешь». Это очень угнетает. Сейчас, конечно, сложилось сообщество датасайнтистов, тебе помогут и подбодрят, но раньше было сложнее. Так что сделать этот первый шаг — сказать, что я буду датасаентистом и действительно планомерно идти в эту сторону, несмотря на прошлую карьеру — это было очень сложно.

Переломный момент был, когда я прочитал книжку “So Good They Can’t Ignore You”, ее, кстати, советует, Эндрю Ын, создатель Google Brain, Coursera, знаменитого курса ML. Книжка именно про мой случай: не важен твой бэкграунд и история. Если ты можешь показать на деле, что ты действительно настолько хорош, что тебя просто нельзя игнорировать, тебя заметят. Я сильно впечатлился от этой книги и решил не бросать data science. Очень всем советую почитать.

— Какими лайфхаками ты можешь поделиться с начинающими специалистами в работе с данными как в плане изучения области, так и в плане построения карьеры?

— Все приходят в data science из разных сфер, в разные части и с разными целями — нет какого-то одного оптимального пути. Но есть несколько советов.

Data science может показаться на первый взгляд сложным — и так оно и есть! Однако, удивительный факт в том, что data science можно сравнить с луковицей: надо изучать слой за слоем. Это называется top-down approach, когда ты сначала на примитивном уровне смотришь, как работают алгоритмы, как за пару строк можно натренировать нейросеть — без фактического знания процессов — просто задаешь входные данные, пару строк кода, и все. Первый слой луковицы снят. Дальше больше. Тебе становится интересно, ты хочешь уже узнать — как. Как оно работает? Ты погружаешься глубже, смотришь на код, реализацию. Потом тебе становится интересно, почему этот код написан так. Оказывается, что есть теоретические обоснования. И так далее. Поддерживайте в себе интерес. Начинайте с верхней части, она вдохновляет. Почитайте Ричарда Фейнмана, он много писал про такой подход.

Другой совет: как можно быстрее вливайтесь в тусовку data scientist’ов. Даже если вы ничего еще не понимаете, но твердо решили развиваться в этой области. Когда я учился, ODS еще не было, тебя никто так не подбадривал, не было никакой организованной дата-саенс тусовки. И я пошел на программу Newprolab в том числе, чтобы получить такую тусовку. Ключ к развитию именно в социализации. Ни в коем случае не варитесь в собственном соку, иначе вы будете двигаться очень медленно.

Третий совет (он же продолжение второго): начинайте как можно раньше участвовать в соревнованиях. К kaggle можно относиться по-разному, но он минимум дает еще один повод к социализации — примыкайте к команде. Старшие коллеги будут рады вам подсказать и помочь. Плюс, kaggle дает хороший пинок в плане вашего портфолио, выступлений и постов в блоги. Крутые data scientist’ы именно так и стали крутыми, кстати.

— Помимо прохождения двух программ в Newprolab, где ты еще учился и учишься? Какие программы можешь порекомендовать новичкам и продвинутым?

— Я стараюсь учиться все время, потому что задачи, особенно у нас, постоянно меняются. Я прошел более-менее базовые онлайн-курсы, такие как яндексовая специализация по DS на Coursera, ML-nanodegree на Udacity, их же курс по беспилотникам. Для начинающих я очень рекомендую специализацию DS на Coursera — это, наверное, наиболее структурированный курс для понимания подходов и задач в целом. Я был также доволен “Специалистом по большим данным”, я с него, в общем-то, и начал вход в data science, мне он очень помог. Еще раз — в начале делайте то, что кажется интересным.

Для более продвинутых есть потрясающий калтековский курс Learning From Data — относительно короткий, но очень по делу. Очень хорошо ставит мозги. Также есть замечательный ШАДовский курс от Воронцова — в открытом доступе лекции и учебник. Я также очень советую гарвардский курс по теорверу Stat 110, там принципиальные основы теории вероятностей и матстата, которые обязательно надо знать. Плюс, есть открытая библиотека курсов MIT, посмотрите там курс про алгоритмы, он очень хорош.

— Из твоих наблюдений: каких soft и hard skills зачастую не хватает как начинающим, так и опытным data scientist-ам, чтобы стать действительно высококлассными специалистами?

— Начнем с soft skills — потому что их и не хватает. Несмотря на то, что data scientist — техническая профессия, крайне важно уметь правильно / красиво подать результат своей работы. Грубо говоря, как айфон — у него хороша не только начинка, но и внешний вид, упаковка, история. Людям надо научиться презентовать свои результаты: писать посты в блоге, выступать, делиться кодом. Лучшие data scientist’ы это отлично понимают, и так и делают. Иначе можно застрять в своей норе, и даже с классным результатом остаться незамеченным.

Про hard skills говорить можно долго, но есть одна вещь, которой не хватает очень многим data scientist’ам — навыка написания грамотного, структурированного, красивого кода. Это прямо бич профессии. Нужно учиться писать красивый читабельный код. Если вы посмотрите на kaggle, то большая часть кода там ужасна. Я понимаю, с чем это связано: люди один раз пишут код и дальше его не используют, это стандартная практика среди data scientist, особенно начинающих. Я и сам раньше так делал, но это плохо, потому что, во-первых, вы никому не можете его расшарить (люди хотят читать красивый читабельный код), во-вторых, вы плохой код не можете использовать в других проектах.

Еще один принципиальный скилл — это знание матчасти: линейной алгебры, аппарата статистики, дискретки, оптимизации. И, честно говоря, нужна еще просто любовь к математике. Мне сложно понять мотивацию data scientist’а, который не видит красоты в математике. При этом, надо отметить, что математика в анализе данных довольно доступная, на уровне первого-второго курса университета.

— После прохождения программы «Специалист по большим данным», ты ушел из корпоративного мира и вместе с одногруппниками открыл консалтинговую компанию. Почему не хочется быть сотрудником какой-то крупной компании с кучей плюшек? Ведь спрос на рынке труда сильно больше имеющихся предложений, а ты классный специалист.

— Здесь довольно интересная причина: изначально цель была в том, чтобы набрать себе консалтингом проектов, которые уже можно показать серьезной компании и устроиться в нее. Ведь раз ты говоришь, что ты data scientist, то покажи, что умеешь.

Сначала мы брали совершенно любые проекты по data science за любые деньги, просто чтобы показать, что мы это можем сделать. Кучу ошибок сделали, на все грабли, на которые можно наступить, наступили. В первый год был просто кошмар, очень тяжело. Если смотреть сейчас назад, то не факт, что консалтинг был хорошим вариантом для старта. Может, надо было пойти на junior’а, и этот год поработать над каким-то проектом.

Мы все преодолели. Проекты стали появляться, уверенность в себе крепла, в какой-то момент появилось понимание, что можно ведь работать и не внутри большой корпорации с ее затянутыми проектами, согласованиями и бюрократией. Так получается, что наши проекты сейчас намного интереснее и разнообразнее, чем большинство крупных компаний смогло бы мне дать: их много, они часто меняются и ты постоянно учишься. Разумеется, сейчас переходить в большую компанию уже не очень-то и хочется.

— Давай немного затронем тему разметки данных. У вас в RnD Lab небольшая команда, вряд ли можете тратить много времени на разметку данных и вручную сами все делать. Как вы размечаете данные?

— О разметке данных можно очень долго говорить! Для работы алгоритмов машинного обучения нужны данные. Причем не просто какие-то данные, а качественно размеченные. И очень много. Например, у нас был проект по определению качества яичницы по фотографии. Для работы алгоритмов нужно каждую фотографию разметить, обвести каждый из ингредиентов — белок, желток, бекон — вручную. Вы представляете, какая это работа — разметить тысячу, десять тысяч таких фотографий? И это лишь для того, чтобы были готовы данные. После этого работа лишь начинается.

Сейчас есть множество компаний, которые продают разметку — они нанимают армию дешевых разметчиков, чтобы те вручную обводили границы объектов. Какая ирония — в век ИИ именно низкооплачиваемые, низкоквалифицированные и немотивированные люди и стоят за ним.

Хочется сделать этот процесс технологичнее. Например, в нашем проекте мы написали нейросеть, которая в полуавтоматическом режиме размечает данные. Ты ей сначала даешь 20 вручную размеченных фоток яичниц и 20 неразмеченных — она обучается на первых двадцати и размечает, пусть и не очень хорошо, вторые двадцать. Ты исправляешь ошибки вручную и даешь эти исправленные 20 авторазмеченных фотографий на дообучение. Теперь модель уже обучается на 40 фотографиях с разметкой. Подаешь на разметку еще 20 других фотографий, исправляешь ошибки, дообучаешь модель на исправленной разметке. Через несколько итераций ошибок почти не остается. Кстати, именно по этой технике я прямо сейчас пишу пост в блог на Medium.

Есть и другие варианты: можно использовать симулятор, грубо говоря, 3D-редактор, чтобы нагенерировать много уже авторазмеченных изображений. Располагаешь нужные объекты, рендеришь их под разными углами вместе с разметкой — и все. Но не совсем: такие изображения все равно не будут похожи для модели на настоящие, реальные. Чтобы подвести эти изображения к многообразию реальных, надо использовать технику под названием domain adaptation — на GAN’ах. Это сейчас настоящий передний край исследований, такие вещи захватывают. Вы только представьте: вы симулируете целый мир и любые датасеты генерируются буквально из ничего. А теперь представьте, что и модель обучается просто в симуляторе, а затем работает в реальном мире. Это просто будущее!

— Можешь назвать команды \ отдельных людей, чья работа в области больших данных тебя восхищает и вдохновляет?

— Да, конечно! Мне очень нравится не сам research, а его применение в продуктах. Говорю про тех, кого сам знаю — просто топовых специалистов можно загуглить, да и они и так на слуху.

Если говорить про команды, то это, без вопросов, команда беспилотника Яндекса. Ребята делают свою технологию с нуля, в российских условиях, начали тестировать ее зимой — гуглу такое не снилось. Они большие молодцы, и я за ними внимательно слежу. В том числе и за их публикациями и курсами. Количество технологий, которые они применяют на практике — огромно, мало кому везет использовать столько разных вещей сразу.

Команда connectome.ai — ребята делают систему компьютерного зрения для производства. Это челленджевая задача, и то, что и как у них получается, классно.

Ребята из supervise.ly. Они изначально были консалтерами, как и мы в RnD Lab, но потом сделали систему полуавтоматической разметки и сейчас развивают именно ее.

В плане людей, во-первых, это Эрик Бернхардссон, бывший руководитель рекомендательной системы Spotify. Он ведет потрясающий блог о data science, всем и каждому его рекомендую.

Во-вторых, это Володя Игловиков, он же ternaus на ODS. Он пришел из физиков, его путь развития очень любопытен и крайне мотивирует поднять задницу и начать работать. Он на своем примере показал, как серьезная работа и грамотный маркетинг помогают себя двигать по карьере.

— Ты был координатором группы на программе «Специалист по большим данным» и на корп. программе в Люксембурге, а осенью будешь менторить мини-группы на нашей новой онлайн-программе. Скажи, зачем тебе это все надо? Потому что больших денег тут не заработаешь)))

— Не заработаешь, это точно. Смысл в другом — в социализации. Как я уже говорил, именно социализация — это ключ к прокачиванию себя, не говоря уже просто о полезных для бизнеса знакомствах. Через мое координаторство мы нашли несколько банально прибыльных для себя заказов. Во-вторых, мне просто нравится передавать людям свои знания и опыт и обучать работе с данными. Кроме этого, в процессе подготовки я и сам узнаю много нового. Я многое изучал сам и отлично понимаю, ценой скольких часов достаются некоторые вещи. Плюс, конечно же, координаторство и менторство — это челлендж, выход из зоны комфорта и возможность прокачки себя.

— Data Scientist и ML Engineer: в чем отличие?

— На эту тему есть доклад в рамках яндексового Data & Science. Идея в том, что дата-индустрия породила целый набор пересекающихся профессий. При этом разные компании трактуют их по-разному. Data Scientist и MLE — как раз пример таких.

Считается, что data scientist может и не уметь писать продакшен-код, а должен создавать или адаптировать теории (например, научные статьи) и строить модели. А собственно кодом занимаются ML инженеры — профессиональные программисты, которые менее погружены в теоретическую часть и больше — в инженерию.

Такое разделение классно работает, например, в Google. Конечно, есть сильные PhD’шники, которые, строго говоря, могут вообще не программировать, но сильны в теории. И есть высококлассные программисты, которые оборачивают прототипы этих PhD’шников в красивый код. Но если говорить про небольшие команды, типа нашей или даже яндексовых команд, то на чистые исследования с нуля времени нет, но зато есть возможность брать результаты исследований других (в виде статей или кода) и на основе этих статей писать боевой код.

Лично я не верю в практическую ценность data scientist’а, который не пишет код — именно код и является результатом работы датасаентиста. Если ты не пишешь код, ты, скорее всего, дата-аналитик. Это тоже неплохо, но это другая специализация. Кстати, многие компании под соусом data scientist’а продают как раз аналитика. Потому что аналитик — это эксель и скукота, а data scientist — “самая сексуальная профессия 21 века”.

Так что я за ML Engineer.

— Какие мысли и планы на будущее? Куда хочется двигаться в профессиональном и географическом (а вдруг!) плане?

— Мы, RnD Lab, начинали как data science-консалтинг в общем смысле. Но быстро поняли, что невозможно эффективно заниматься всем сразу, надо фокусироваться. Сейчас наш фокус — проекты по компьютерному зрению, такие, как наш проект по распознаванию качества еды. Представьте, что вы можете смотреть футбольный матч на своем столе в 3D. Представьте, что вы, как владелец крупного магазина, видите все кражи с витрин. Представьте, что ваши старые бумажные черно-белые фотографии можно сконвертировать в цветные и добавить им деталей. Мы занимаемся именно такими проектами. Прямо сейчас у нас в разработке два новых невероятно интересных проекта, по сложности не уступают проектам в Яндексе, мы их через некоторое время анонсируем. Сейчас мы сделали прототип, с очень большой вероятностью мы будем продолжать этот проект дальше, масштаб там будет другой и мы будем расширять команду. Мне понадобятся и data engineer’ы, и computer vision engineer в первую очередь, которые подхватят прототип и сделают из него систему. Заказчик большой классный, система большая интересная, и это отличная возможность прокачки себя как специалиста. Для любого портфолио такой проект будет просто отличным!

Поэтому компьютерное зрение и его применение — в AR/VR, GANы, генерация изображений и видео, улучшение изображений и видео, видеоаналитика — мы фокусируемся именно на этом. И здесь у нас уже есть отличная экспертиза и инструменты.

А насчет географии: один из моих важных принципов — возможность 100% удаленной работы откуда угодно. Никто из крупных компаний вам такого не предложит. Если вам хочется путешествовать круглый год, и вы взрослый организованный человек, зачем вас привязывать к офису? Почитайте ребят из Basecamp, они целую книгу про удаленную работу написали. Мы хотим быть как они, у нас очень схожие принципы.

— И напоследок блиц-опрос:

Яичница или омлет?


-Омлет.

— Быстро, но так себе или долго, но идеально?

— Быстро, но так себе.

— Бизнес с друзьями или дружба по бизнесу?

— Дружба по бизнесу.

— Я думала, ты выберешь “долго, но идеально”.

— “Долго, но идеально” не работает, к сожалению. Это была и моя ошибка тоже, у многих перфекционистов такой подход, чтобы все было супер и классно. Такой подход у меня был в ZeptoLab: я хотел сделать идеально и делал долго, дольше, чем надо было, такого уровня качества от меня не требовалось. Надо всегда исходить из задачи.

Сейчас у нас подход прототипирования, когда ты можешь показать результат уже через неделю-две и получить обратную связь. Ты говоришь: “Вот смотрите, все готово, но на 5% на коленке: весь пайплайн работает, датка есть, процессится, идет обучение модели, есть веб интерфейс с кнопочками…” И все видно, никто не спорит, что это на коленке сделано. И заказчики понимают, что, дай они тебе еще 3 месяца, ты это все улучшишь. Такой подход работает, он эффективен, и мы сторонники именно такого подхода.


А в Newprolab 20 сентября стартует 9-ая программа «Специалист по большим данным», приходите в data science.

почему так раздражают дата-сайентисты — Офтоп на vc.ru

Руководитель департамента Data Science холдинга ID Finance Андрей Атрашкевич за два года проинтервьюировал более сотни специалистов и рассказал, что с ними не так.

Когда-то элитой финансовой сферы в России были программисты. Их воспринимали как незаменимых, уникальных людей — примерно так они изображены в книге Стругацких «Понедельник начинается в субботу».

На какие только ухищрения не идут персонажи книги, чтобы доставить главного героя — программиста — в НИИЧАВО. Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелёгким, рутинным и, в общем-то, скучным трудом. Теперь элитой стали data scientists (DS или дата-сайентисты). Они — белая кость и голубая кровь финтеха, их зарплата — выше, чем общая по рынку, но ещё выше их самомнение.

Мы постоянно набираем риск-аналитиков, продуктологов, DS и так далее: финтех-холдинг ID Finance работает с колоссальными объёмами данных из семи стран (включая Бразилию, Мексику, Испанию и прочее).

Для сферы финтеха, где все бизнес-процессы завязаны на обработке данных, поиск нужных людей превращается в настоящую головную боль. Чтобы найти последнего DS я провёл 14 собеседований. За два года я проинтервьюировал более сотни людей. Теперь я могу объяснить, почему они всех так раздражают.

Снобизм

Karma police, arrest this man: he talks in math, he buzzes like a fridge. Я умею писать такие алгоритмы, что не каждый и поймёт. Если мой алгоритм не приняли — значит, они дураки. Очень часто именно так рассуждают многие DS. Хуже, когда на это накладывается снобизм академических институций.

Кто не оканчивал кафедру интеллектуального анализа данных Физтеха (или Школу анализа данных «Яндекса») — тот ничтожество и гордо называться «data scientist» не может. Это ещё один частый аргумент DS. По большому счёту, регалии ничего не стоят. Есть только два варианта: либо твой алгоритм приносит пользу, либо нет. И не важно, какое у тебя образование и как правильно называется твоя профессия.

Низкая квалификация

Профессия DS находится на этапе становления, попасть в неё можно буквально с улицы (например, простым инженером просто так не станешь — необходимо системное образование). Сложно даже представить, насколько легко перейти в эту профессию. Есть много инструментов для самообразования: Coursera, edX, Kaggle и прочее.

Большинство отличных data scientists — это самоучки, я это говорю с колоссальным уважением. Но эта доступность инструментов создаёт иллюзию лёгкого обучения. В какой-то момент вокруг DS возник хайп. В итоге на рынке труда с одной сто

Что такое наука о данных? Что такое специалист по данным? Что такое аналитика?

«У нас много данных — что теперь?»

(Как мы можем извлечь реальную пользу из наших данных?)

Наука о данных — это междисциплинарная смесь вывода данных, разработки алгоритмов и технологии для решения аналитически сложных задач.

В основе лежат данные.Клады необработанной информации, передаваемой и хранящейся в корпоративных хранилищах данных. Многому можно научиться, добывая его. Расширенные возможности, которые мы можем создать с его помощью. В конечном итоге наука о данных использует эти данные творчески для создания ценности для бизнеса:

Открытие Data Insight

Количественный анализ данных для помощи в управлении

стратегических бизнес-решений

Разработка информационного продукта

Решения алгоритмов в производстве, работающие в большом масштабе

(e.грамм. рекомендательные механизмы)

Этот аспект науки о данных — это открытие результатов на основе данных. Погружение на детализированном уровне для поиска и понимания сложного поведения, тенденций и выводов. Речь идет о выявлении скрытых идей, которые могут помочь компаниям принимать более разумные бизнес-решения. Например:

  • Данные Netflix анализируют шаблоны просмотра фильмов, чтобы понять, что вызывает интерес у пользователей, и используют их для принятия решения о том, какие оригинальные сериалы Netflix выпускать.
  • Target определяет основные клиентские сегменты в своей базе и уникальное поведение покупателей в этих сегментах, что помогает направлять сообщения для различных рыночных аудиторий.
  • Proctor & Gamble использует модели временных рядов для более четкого понимания будущего спроса, что помогает более оптимально планировать уровни производства.

Как аналитики данных добывают идеи? Все начинается с исследования данных.Когда задают сложный вопрос, специалисты по обработке данных становятся детективами. Они исследуют потенциальных клиентов и пытаются понять закономерности или характеристики в данных. Это требует большого аналитического творчества.

Затем, при необходимости, специалисты по данным могут применить количественный метод, чтобы получить более глубокий уровень — например, логические модели, анализ сегментации, прогнозирование временных рядов, синтетические контрольные эксперименты и т. д. Цель состоит в том, чтобы с научной точки зрения собрать воедино криминалистический взгляд на то, что на самом деле говорят данные.

Это понимание, основанное на данных, играет центральную роль в обеспечении стратегического руководства. В этом смысле специалисты по анализу данных действуют как консультанты, помогая заинтересованным сторонам бизнеса действовать в соответствии с результатами.

«Информационный продукт» — это технический актив, который: (1) использует данные в качестве входных и (2) обрабатывает эти данные для получения результатов, сгенерированных алгоритмически. Классическим примером продукта данных является механизм рекомендаций, который принимает данные пользователей и на их основе дает персонализированные рекомендации.Вот несколько примеров информационных продуктов:

  • Системы рекомендаций Amazon предлагают вам товары для покупки в соответствии с их алгоритмами. Netflix рекомендует вам фильмы. Spotify рекомендует вам музыку.
  • Спам-фильтр

  • Gmail — это продукт данных — скрытый алгоритм обрабатывает входящую почту и определяет, является ли сообщение спамом или нет.
  • Компьютерное зрение, используемое для беспилотных автомобилей, также является продуктом данных — алгоритмы машинного обучения способны распознавать светофоры, другие автомобили на дороге, пешеходов и т. Д.

Это отличается от раздела «Анализ данных» выше, где результатом, возможно, является предоставление руководителю совета по принятию более разумного бизнес-решения. Напротив, информационный продукт — это техническая функция, которая инкапсулирует алгоритм и предназначена для непосредственной интеграции в основные приложения. Соответствующие примеры приложений, которые негласно включают информационный продукт: домашняя страница Amazon, почтовый ящик Gmail и программное обеспечение для автономного вождения.

Специалисты по обработке данных играют центральную роль в разработке продуктов данных. Это включает в себя создание алгоритмов, а также тестирование, уточнение и техническое развертывание в производственных системах. В этом смысле специалисты по обработке данных выступают в качестве технических разработчиков, создавая активы, которые можно использовать в широком масштабе.


Наука о данных — это сочетание навыков в трех основных областях:

What is data science?

В основе анализа данных интеллектуального анализа данных и создания продукта данных лежит возможность просматривать данные через количественную призму.В данных есть текстуры, размеры и корреляции, которые можно выразить математически. Поиск решений с использованием данных превращается в головоломку с эвристикой и количественными методами. Решения многих бизнес-проблем включают построение аналитических моделей, основанных на сложной математике, где способность понять лежащую в основе механику этих моделей является ключом к успеху в их построении.

Кроме того, заблуждение состоит в том, что наука о данных — это все о статистике. Хотя статистика важна, это не единственный используемый вид математики.Во-первых, есть две ветви статистики — классическая статистика и байесовская статистика. Когда большинство людей ссылаются на статистику , они обычно имеют в виду классическую статистику , но знание обоих типов полезно. Кроме того, многие методы вывода и алгоритмы машинного обучения основаны на знаниях линейной алгебры. Например, популярным методом обнаружения скрытых характеристик в наборе данных является SVD, который основан на матричной математике и имеет гораздо меньшее отношение к классической статистике.В целом, специалистам по обработке данных полезно иметь обширные и глубокие познания в математике.

Во-первых, давайте проясним, что мы , а не , говорим о взломе, как о взломе компьютеров. Мы имеем в виду субкультуру технических программистов, означающую взлом, то есть креативность и изобретательность в использовании технических навыков для создания вещей и поиска умных решений проблем.

Почему так важны хакерские способности? Потому что специалисты по обработке данных используют технологию для обработки огромных наборов данных и работы со сложными алгоритмами, а для этого требуются инструменты, гораздо более сложные, чем Excel.Специалистам по обработке данных необходимо уметь кодировать — создавать прототипы быстрых решений, а также интегрироваться со сложными системами данных. Основные языки, связанные с наукой о данных, включают SQL, Python, R и SAS. На периферии — Java, Scala, Julia и другие. Но это не просто знание основ языка. Хакер — это технический ниндзя, способный творчески решать технические проблемы, чтобы заставить свой код работать.

Таким образом, хакер, занимающийся наукой о данных, является твердым мыслителем алгоритмов, способным разбирать беспорядочные проблемы и перекомпоновывать их таким образом, чтобы их можно было решить.Это очень важно, потому что специалисты по обработке данных работают с очень сложными алгоритмами. Им необходимо хорошо понимать многомерные данные и сложные потоки управления данными. Полная ясность в том, как все части соединяются, чтобы сформировать единое решение.

Специалисту по анализу данных важно быть тактическим бизнес-консультантом . Работая так тесно с данными, специалисты по обработке данных могут извлекать уроки из данных так, как никто другой.Это создает ответственность за преобразование наблюдений в общие знания и внесение вклада в стратегию решения основных бизнес-проблем. Это означает, что ключевая компетенция науки о данных — использовать данные для убедительного рассказа истории. Никаких рвотных данных — скорее, представьте связное повествование о проблеме и решении, используя понимание данных в качестве опорных столпов, ведущих к руководству.

Такая деловая хватка так же важна, как и сообразительность в технологиях и алгоритмах.Необходимо четкое соответствие между проектами в области науки о данных и бизнес-целями. В конечном итоге ценность исходит не от самих данных, математики и технологий. Это происходит от использования всего вышеперечисленного для создания ценных возможностей и сильного влияния на бизнес.


Общей чертой личности специалистов по данным является то, что они — глубокие мыслители с 9 066 глубоким интеллектуальным любопытством. В науке о данных нужно проявлять любознательность — задавать новые вопросы, делать новые открытия и изучать новые вещи.Спросите ученых, которые больше всего увлечены своей работой, чем они руководствуются в своей работе, и они не скажут «деньги». Настоящий мотиватор — это способность использовать свои творческие способности и изобретательность для решения сложных проблем и постоянно проявлять свое любопытство. Получение сложных операций чтения из данных — это не просто наблюдение, это открытие «истины», которая скрыта под поверхностью. Решение проблем — это не задача, а интеллектуально стимулирующее путешествие к решению. Специалисты по обработке данных увлечены своей работой и получают огромное удовлетворение, принимая вызов.

Существует вопиющее заблуждение, что вам нужна докторская степень по математике или естествознанию, чтобы стать законным специалистом по данным. Эта точка зрения упускает из виду то, что наука о данных является междисциплинарной. Целенаправленное обучение в академических кругах, безусловно, полезно, но не гарантирует, что выпускники обладают полным набором опыта и способностей для достижения успеха. Например. Статистику со степенью доктора философии, возможно, еще потребуется овладеть навыками программирования и получить деловой опыт, чтобы завершить тройной анализ.

Фактически, наука о данных — это относительно новая и развивающаяся дисциплина, что университеты еще не догнали его в разработке всеобъемлющих программ на получение степени по науке о данных, а это означает, что никто не может действительно утверждать, что «прошел все обучение», чтобы стать специалистом по данным. Откуда берутся тренинги? Непоколебимое интеллектуальное любопытство специалистов по анализу данных подталкивает их к тому, чтобы они становились мотивированными самоучками, стремящимися к самообучению нужным навыкам, руководствуясь собственной решимостью.


Есть множество терминов, тесно связанных с наукой о данных, которые мы надеемся внести ясность.

В последние несколько лет аналитика быстро стала популярным бизнес-языком; этот термин используется в широком смысле, но обычно предназначен для описания критического мышления, которое носит количественный характер. Технически аналитика — это «наука анализа», иначе говоря, практика анализа информации для принятия решений.

«Аналитика» — это то же самое, что и наука о данных? Зависит от контекста. Иногда это синоним определения науки о данных, которое мы описали, а иногда — что-то еще. Специалист по обработке данных, использующий необработанные данные для построения алгоритма прогнозирования, входит в сферу аналитики. В то же время нетехнический бизнес-пользователь, интерпретирующий предварительно созданные отчеты панели мониторинга (например, GA), также относится к сфере аналитики, но не входит в набор навыков, необходимых в науке о данных.Аналитика приобрела довольно широкое значение. В конце концов, до тех пор, пока вы понимаете не на уровне модных слов, точная семантика не имеет большого значения.

«Аналитик» — это своего рода неоднозначное название должности, которое может представлять множество различных типов ролей (аналитик данных, маркетинговый аналитик, операционный аналитик, финансовый аналитик и т. Д.). Что это значит по сравнению с аналитиком данных?

  • Data Scientist: Специальная роль со способностями в математике, технологиях и деловой хваткой.Специалисты по обработке данных работают на уровне необработанной базы данных, чтобы получить информацию и создать продукт данных.
  • Аналитик: Это может означать многое. Обычно аналитики смотрят на данные, чтобы понять. Аналитики могут взаимодействовать с данными как на уровне базы данных, так и на уровне сводного отчета.

Таким образом, «аналитик» и «специалист по данным» не совсем синонимы, но и не исключают друг друга. Вот наша интерпретация того, как эти должности соотносятся с навыками и объемом обязанностей:

What is data science?

Машинное обучение — это термин, тесно связанный с наукой о данных.Он относится к широкому классу методов, которые вращаются вокруг моделирования данных, чтобы (1) алгоритмически делать прогнозы и (2) алгоритмически расшифровывать шаблоны в данных.

  • Машинное обучение для прогнозирования — Основная концепция заключается в использовании данных с тегами для обучения прогнозных моделей. Данные с тегами означают наблюдения, где достоверная информация уже известна. Обучающие модели означает автоматическое определение характеристик помеченных данных с целью прогнозирования тегов для неизвестных точек данных.Например. модель обнаружения мошенничества с кредитными картами можно обучить, используя исторические записи помеченных мошеннических покупок. Полученная модель оценивает вероятность того, что любая новая покупка является мошеннической. Общие методы обучения моделей варьируются от базовых регрессий до сложных нейронных сетей. Все они следуют одной и той же парадигме, известной как контролируемое обучение .
  • Машинное обучение для обнаружения паттернов — Другая парадигма моделирования, известная как неконтролируемое обучение пытается выявить лежащие в основе закономерности и ассоциации в данных, когда нет достоверных данных (т.е.е. никакие наблюдения не помечены). В этой широкой категории методов наиболее часто используются методы кластеризации, которые алгоритмически определяют, какие естественные группировки существуют в наборе данных. Например, кластеризацию можно использовать для программного изучения естественных клиентских сегментов в пользовательской базе компании. Другие методы неконтролируемого анализа базовых характеристик включают: анализ главных компонентов, скрытые модели Маркова, тематические модели и многое другое.

Не все методы машинного обучения точно подходят к двум вышеуказанным категориям.Например, совместная фильтрация — это тип алгоритма рекомендаций с элементами, относящимися как к контролируемому, так и неконтролируемому обучению. Контекстные бандиты — это разновидность контролируемого обучения, при котором прогнозы адаптивно модифицируются на лету с использованием обратной связи.

Этот широкий спектр методов машинного обучения составляет важную часть набора инструментов для анализа данных. Специалист по анализу данных должен выяснить, какой инструмент использовать в различных обстоятельствах (а также как правильно использовать инструмент) для решения аналитически открытых проблем.

Необработанные данные могут быть неструктурированными и беспорядочными, с информацией, поступающей из разрозненных источников данных, несогласованными или отсутствующими записями и множеством других сложных проблем. Обращение с данными — это термин для описания обработки данных с целью объединения данных в единое представление, а также вспомогательной работы по очистке данных, чтобы они были отшлифованы и готовы к последующему использованию. Это требует хорошего распознавания образов и умных хакерских навыков для объединения и преобразования большого количества информации на уровне базы данных.Если это не сделано должным образом, грязные данные могут скрыть «правду», скрытую в наборе данных, и полностью ввести в заблуждение результаты. Таким образом, любой специалист по анализу данных должен обладать навыками и ловкостью в обработке данных, чтобы иметь точные и пригодные для использования данные, прежде чем применять более изощренные аналитические методы.

Для любой компании, которая хочет улучшить свой бизнес за счет большей управляемости данными, наука о данных является секретом. Проекты в области науки о данных могут иметь мультипликативную отдачу от инвестиций, как за счет руководства через анализ данных, так и за счет разработки продукта данных.Однако легче сказать, чем нанять людей, обладающих этим мощным сочетанием различных навыков. На рынке просто не хватает специалистов по анализу данных, чтобы удовлетворить спрос (зарплата специалистов по данным заоблачно высока). Таким образом, когда вам удастся нанять специалистов по данным, взращивайте их. Держите их занятыми. Предоставьте им автономию, чтобы они сами сами могли решать проблемы. Это делает их в компании высокомотивированными специалистами по решению проблем, способными решать самые сложные аналитические задачи.

.

Что такое специалист по данным?

Магистр наук о данных

  • Лучшие школы
    • 23 великие школы с магистерскими программами в области науки о данных
    • 22 лучших школы со степенью магистра информационных систем
    • 25 лучших школ с магистерскими программами бизнес-аналитики
  • Онлайн-программы
    • Дипломные программы онлайн-науки о данных
    • Онлайн-бакалавриат компьютерных наук
    • Интернет-мастера программ бизнес-аналитики
    • Магистр программ в области информационных систем онлайн
    • Интернет-мастера компьютерной инженерии
    • Магистр компьютерных наук онлайн
    • Интернет-мастера по кибербезопасности
    • Программы онлайн-сертификатов в аналитике
  • по штату
    • Алабама
    • Аризона
    • Арканзас
    • Калифорния
    • Колорадо
    • Коннектикут
    • Делавэр
    • Флорида
    • Грузия
    • Гавайи
    • Айдахо
    • Иллинойс
    • Индиана
    • Айова
    • Канзас
    • Кентукки
    • Луизиана
    • Мэн
    • Мэриленд
    • Массачусетс
    • Мичиган
    • Миннесота
    • Миссисипи
    • Миссури
    • Монтана
    • Небраска
    • Невада
    • Нью-Гэмпшир
    • Нью-Джерси
    • Нью-Мексико
    • Нью-Йорк
    • Северная Каролина
    • Северная Дакота
    • Огайо
    • Оклахома
    • Орегон
    • Пенсильвания
    • Род-Айленд
    • Южная Каролина
    • Южная Дакота
    • Теннесси
    • Техас
    • Юта
    • Вермонт
    • Вирджиния
    • Вашингтон
    • Вашингтон, Д.С.
    • Западная Вирджиния
    • Висконсин
  • Связанные степени
    • Степень бакалавра наук о данных
    • Сертификационные программы по науке о данных от 2020 года
    • Магистр бухгалтерской аналитики
    • Магистр прикладной статистики
    • Магистр бизнес-аналитики
    • Магистр бизнес-аналитики в Интернете
    • Магистр бизнес-аналитики
    • Магистр геопространственных наук и ГИС
    • Магистр информатики здравоохранения
    • Магистр информационных систем
    • Магистр библиотековедения
    • Магистр аналитики данных государственной политики
    • MBA в области аналитики / Data Science
    • Кандидат программ в области науки о данных
    • Программы за пределами США
  • Карьера
    • Бизнес-аналитик
    • Справочник по заработной плате бизнес-аналитика
    • Инженер-компьютерщик
    • Ученый-компьютерщик
    • Аналитик данных
    • Архитектор данных
    • Инженер данных
    • Специалист по данным
    • Маркетинговый аналитик
    • Количественный аналитик
    • Аналитик по информационной безопасности
    • Статист
    • Data Analyst vs Data Scientist
    • Компьютерные науки vs.Компьютерная инженерия
    • Кибербезопасность против компьютерных наук

.

Кто такой специалист по данным? Как стать специалистом по данным?

Кто такой специалист по данным?

На днях я прочитал статью на сайте venturebeat.com, в которой рассказывалось, как продвинутая аналитика данных помогла Обаме победить на президентских выборах 2012 года! Эта и другие истории, такие как Bank of America, извлекающий выгоду из своих технологий, требующих обработки больших объемов данных, или Wipro, вкладывающий 30 миллионов долларов в американскую фирму по обработке данных, или Paypal, нанимающий специалистов по обработке данных, ясно показывают, что специалист по анализу данных — самая привлекательная работа из 21 . st века по данным Гарварда.

Услышав так много о Data Science, давайте перейдем к основам!

Что такое Data Science?

Некоторые называют это Гражданское строительство данных, а другие называют его Дисциплина сама по себе; в конце концов, что такое Data Science ?

Наука о данных — это термин, который стал популярным благодаря EMC 2 . Это процесс извлечения ценной информации из «данных».

Вы можете просмотреть запись вебинара «Кто такой специалист по данным», где наш эксперт подробно объяснил темы.

Кто такой специалист по данным? Как стать специалистом по данным? Edureka

Это видео Edureka на тему «Кто такой специалист по данным» поможет вам понять, чем занимается специалист по данным, их роли и обязанности, а также о том, что такое профиль в области науки о данных.

Поскольку мы живем в эпоху Big Data , Data Science становится очень многообещающей областью для использования и обработки огромных объемов данных, генерируемых из различных источников.Наука о данных сама по себе является обширной дисциплиной, состоящей из специализированных наборов навыков, таких как статистика, математика, программирование, информатика и так далее. Наука о данных состоит из нескольких элементов, методов и теорий, включая математику, статистику, прогнозный анализ, моделирование данных, инженерию данных, имитацию данных и визуализацию.

Наука о данных эволюционировала не в одночасье. Фактически, он существовал в течение многих лет в форме бизнес-аналитики или конкурентной разведки, но только сейчас его истинный потенциал был реализован.Основная цель Data Science — эффективно извлекать и интерпретировать данные и представлять их конечным пользователям простым, нетехническим языком.

Таким образом, Data Science — это создание полезной информации и ее преобразование в
продуктов, управляемых данными!

Кто такой специалист по данным?

Кто-то борется с данными днем ​​и ночью или экспериментирует со сложной математикой в ​​своей лаборатории? В конце концов, «Кто такой специалист по данным»?

На сайте Data Scientists доступно несколько определений.Проще говоря, Data Scientist — это тот, кто практикует искусство Data Science. Очень популярный термин « Data Ученый» был придуман DJ Патил и Джеффом Хаммербахером . Специалисты по обработке данных — это те, кто решает сложные проблемы с данными, имея большой опыт в определенных научных дисциплинах. Они работают с несколькими элементами, связанными с математикой, статистикой, информатикой и т.д. (хотя они могут не быть экспертами во всех этих областях).

Специалисты по анализу данных — это бизнес-аналитики или аналитики данных, причем особые!

Хотя начальная подготовка или базовые требования одинаковы для всех этих дисциплин, специалистам по данным требуется:

Хотите ли ученый-агроном узнать процент увеличения урожайности пшеницы в этом году по сравнению с прошлым год (и связанные с этим причины), или если финансовая компания хочет классифицировать своих клиентов на основе их кредитоспособности (перед предоставлением ссуд) или хочет ли розничная организация вознаграждать своих лояльных клиентов дополнительными баллами, всем нужны специалисты по обработке данных для обработки больших объем как структурированных, так и неструктурированных данных для принятия важных бизнес-решений.

Основная задача, с которой сталкиваются современные специалисты по данным, заключается не в том, чтобы найти решения существующих бизнес-проблем, а в том, чтобы определить проблемы, которые наиболее важны для организации и ее успеха.

Почему специалистов по обработке данных называют «специалистами по данным»?

Термин «специалист по данным» был введен с учетом того факта, что специалист по данным получает много информации из научных областей и приложений, будь то статистика или математика.Они широко используют новейшие технологии для поиска решений и выводов, которые имеют решающее значение для роста и развития организации. Специалисты по обработке данных представляют данные в гораздо более удобной форме по сравнению с необработанными данными, доступными им как в структурированных, так и в неструктурированных формах.

Как и в любой другой научной дисциплине, специалистам по данным всегда нужно спрашивать и находить ответы What , How , Who и Почему данных, доступных им.От них требуется составить четко определенный план и работать над достижением результатов в рамках ограниченного времени, усилий и денег.

Три компонента Data Science:

Наука о данных состоит из трех компонентов, а именно: организация, упаковка и доставка данных (OPD данных). Давайте кратко рассмотрим эти:

1. Организация данных:
Организация — это место, где планирование и выполнение физического хранения и структуры данных происходит после применения передовых методов обработки данных.

2. Упаковка данных:
Упаковка — это место, где создаются прототипы, применяется статистика и разрабатывается визуализация. Он включает в себя как логическое, так и эстетическое изменение и объединение данных в презентабельной форме.

3. Доставка данных:
Доставка — это место, где рассказывается история и получено значение. Это гарантирует, что окончательный результат был доставлен заинтересованным людям.

Какими навыками обладает специалист по анализу данных?

Роль специалиста по данным действительно непростая! Хотя набор навыков и компетенций, которые используют специалисты по анализу данных, сильно различаются, чтобы быть эффективным специалистом по данным, он должен:

  1. быть очень новаторским и отличаться своим подходом в разумном применении различных методов для извлечения данных и получения полезной информации. в решении бизнес-задач и задач.
  2. Иметь возможность находить и создавать расширенных источников данных .
  3. Иметь практический опыт работы с методами интеллектуального анализа данных , такими как анализ графов, обнаружение закономерностей, деревья решений, кластеризация или статистический анализ.
  4. Разработка операционных моделей , систем и инструментов путем применения экспериментальных и итерационных методов и приемов.
  5. Анализируйте данные из различных источников и точек зрения и обнаруживайте скрытые идеи.
  6. Выполнение кондиционирования данных — то есть преобразование данных в полезную форму с применением статистических, математических инструментов и прогнозного анализа.
  7. Исследуйте , анализируйте, выполняйте и представляйте статистические методы для получения практических сведений.
  8. Управляйте большими объемами данных даже при ограничениях оборудования, программного обеспечения и полосы пропускания.
  9. Создание визуализаций , которые помогут любому с легкостью понять тенденции в анализе данных.
  10. Станьте лидером группы и эффективно общайтесь с другими бизнес-аналитиками, менеджерами по продуктам и инженерами.

Короче говоря, специалист по анализу данных должен быть очень сильным в любом из этих навыков (программирование, статистика, математика, бизнес-навыки) и в то же время иметь практическое знание соответствующих наборов навыков. Например, человек с большим опытом работы в статистике может стать специалистом по данным, приобретя при этом значительные навыки в кодировании и бизнесе.

Data Scientist подобен веб-мастеру, которому необходимо не только быть мастером на все руки, но и мастером хотя бы в одной из вышеперечисленных областей.

Итак, что делает специалист по данным?

Специалист по обработке данных выполняет двойную роль — роль « Analyst » и « Artist »! Специалисты по данным очень любопытны, им нравятся большие объемы данных, и более того, они любят играть с такими огромными данными, чтобы делать важные выводы и выявлять тенденции! Это то, что отличает специалиста по анализу данных от традиционного аналитика данных.Специалист по данным не только ссылается на один конкретный источник, такой как сайт в социальной сети или файл журнала, но и на различные другие источники с целью выяснить скрытое понимание, которое может оказаться очень важным для организации. Они проводят анализ « а что, если », задают вопросы и рассматривают данные с разных сторон и превращают большие данные в следующую большую идею!

Диаграмма Конвея:

Это диаграмма Конвея Венна по науке о данных, проиллюстрированная известным специалистом по данным Дрю Конвей.На этой диаграмме наука о данных представлена ​​как комбинация столь востребованных навыков, как хакерские навыки, математические навыки и знания статистики, включая существенный опыт.

Наука о данных — это тоже искусство!

Наука о данных — это не только наука или техника, это еще и «искусство». Наука о данных — это искусство прислушиваться к своей интуиции, сталкиваясь с огромным объемом данных, классифицировать их, оценивать и делать выводы. Не всем это искусство повезло! Специалистам по обработке данных необходимо проявлять творческий подход к визуализации данных в различных графических формах и представлять очень сложные данные очень простым и понятным способом! Если специалист по данным может конвертировать ужасающие петабайты структурированных, а также неструктурированных данных (изображения, видео, файлы журналов и т. Д.) В очень простой и простой формат, он — «художник»!

В конце концов, только опытный специалист по данным может управлять базой данных McDonald’s или видео, загруженными на Youtube, огромным объемом данных Tesco или данными GE Healthcare или управлять данными, относящимися к тысячам образцов крови пациентов в Apollo, или неструктурированными данными генерируется из рентгеновских лучей!

Data Scientist Jobs

«США сталкиваются с нехваткой от 140 000 до 190 000 человек» с глубокими аналитическими навыками, а также 1.5 миллионов менеджеров и аналитиков, обладающих ноу-хау, чтобы использовать анализ больших данных для принятия эффективных решений ».
— Глобальный институт Маккинси

Поскольку наука о данных является развивающейся областью, существует множество возможностей, доступных во всем мире.
Просто просмотрите любой из порталов вакансий; вы будете поражены количеством вакансий, доступных для специалистов по обработке данных в различных отраслях, будь то ИТ или здравоохранение, розничная торговля или государственные учреждения или академические круги, науки о жизни, океанография и т. д.Венчурные капиталисты никогда не проявляли такого энтузиазма в отношении вложения денег, как в случае стартапов, основанных на данных.

Data Scientist Зарплата:

Ниже вы можете найти очень прибыльные платежные пакеты, предлагаемые специалистам по данным!

Назовете ли вы их специалистами по данным или гуру данных или каким-нибудь другим модным именем, основы остаются неизменными! Мир остро нуждается в умных и творческих людях, которые могут глубоко погрузиться в океан больших данных и спасти мир от невежества, дать ценную информацию о бизнесе и помочь мировой экономике расти!

В Edureka есть специально подобранный курс Data Science , который поможет вам получить опыт в алгоритмах машинного обучения, таких как кластеризация K-средних, деревья решений, случайный лес, наивный байесовский метод.Вы познакомитесь с концепциями статистики, временных рядов, интеллектуального анализа текста, а также познакомитесь с глубоким обучением. Новые партии для этого курса скоро начнутся !!

.

Что такое определение науки о данных

Что такое наука о данных?

Наука о данных — это область исследования, которая сочетает в себе опыт в предметной области, навыки программирования, а также знания математики и статистики для извлечения значимой информации из данных. Специалисты в области науки о данных применяют алгоритмы машинного обучения к числам, тексту, изображениям, видео, аудио и т. Д. Для создания систем искусственного интеллекта (ИИ) для выполнения задач, которые обычно требуют человеческого интеллекта.В свою очередь, эти системы генерируют идеи, которые аналитики и бизнес-пользователи могут преобразовать в реальную ценность для бизнеса.

Почему важна наука о данных?

Все больше и больше компаний осознают важность науки о данных, искусственного интеллекта и машинного обучения. Независимо от отрасли или размера организациям, которые хотят оставаться конкурентоспособными в эпоху больших данных, необходимо эффективно разрабатывать и внедрять возможности науки о данных, иначе они рискнут остаться позади.

Data Science + DataRobot

Наращивать усилия в области науки о данных сложно даже компаниям с почти неограниченными ресурсами.Платформа автоматизированного машинного обучения DataRobot демократизирует науку о данных и искусственный интеллект, позволяя аналитикам, бизнес-пользователям и другим техническим специалистам становиться гражданскими специалистами по данным и инженерами в области искусственного интеллекта, а также повышает продуктивность специалистов по данным. Он автоматизирует повторяющиеся задачи моделирования, которые когда-то занимали большую часть времени и умственных способностей специалистов по данным. DataRobot устраняет разрыв между специалистами по обработке данных и остальной частью организации, делая машинное обучение на предприятии более доступным, чем когда-либо.

What is data science

Ведущий эксперт в области науки о данных. Доступно любому

.

Leave a Comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *