Дата сайентист: Кто такой дата-сайентист

Содержание

Кто такой Data Scientist — глазами работодателя / Блог компании Нетология / Хабр

Ксения Суворова, директор по развитию Фонтанки.ру, и Андрей Мирошниченко, координатор офлайн-программы «Data Scientist», специально для блога Нетологии рассказали о профессии Data Scientist со стороны работодателя: какие специалисты требуются рынку, каких компетенций от них ждут и как происходит найм на работу.

Сейчас всё сложилось таким образом, как когда-то история с продакт- и проджект-менеджментом: специалисты есть на рынке, у них уже достаточно устоявшаяся рыночная стоимость, существуют вакансии, но при этом не каждый знает, кто это такой и зачем этот человек вообще нужен бизнесу. Поэтому мы решили поговорить с компанией «Авито», HR-агентством «Spice IT» и компанией Storia.me, чтобы понять, каково развитие профессии на самом деле.

Взгляд компании Avito с позиции прямого нанимателя — рассказывает Александра Головина

«Потребность в специалистах data science очень велика и в дальнейшем будет только расти. Однако, возможностей для обучения тоже много: любой человек, который понимает, что ему не хватает академического образования, может пройти курсы и получить необходимую базу.

Вопрос, скорее, в том, кто и почему приходит в профессию. На собеседовании соискатели говорят, что интересуются машинным обучением, а когда начинаешь спрашивать почему, отвечают: «Это модно». И всё. Понимания, как применить знания, нет.

А в бизнесе все не так. Здесь есть задача, для которой необходимо найти оптимальный метод решения. Специфика в том, чтобы это решение было практически реализуемо. И это, наверное, основная проблема, с которой мы сталкиваемся при отборе людей.

Некоторые соискатели считают, что достаточно придумать красивый алгоритм, а то, что его нельзя будет нигде применить — дело десятое.

Экспертизу, в свою очередь, можно разделить. Есть люди, которые проработали в близкой нам сфере — классифайдах и IT. Они прекрасно понимают, где и как применять знания. Люди, которые приходят из другой сферы — из банков, вчерашние выпускники или проработавшие в лаборатории — в этом плане проигрывают, но для нас это не показатель. Они уходят в deep learning, глубинные сети, пытаются найти что-то посложнее. Хотя на самом деле модель, которая будет работать, может быть намного проще.

Скиллы можно разделить на хард и софт. Что касается хард: образование обязательно математическое. Специалист должен понимать, как работают математические модели.

Приходят к нам, как правило, из ведущих вузов: МФТИ, ВШЭ, МГУ. Среди выпускников последнего в шутку даже идет соревнование, кого в компании больше — окончивших мехмат или ВМК.

Также есть условное разделение на продуктовых аналитиков и ML-аналитиков. Задача первых — искать возможность улучшения продукта, генерируя гипотезы о возможных проблемах пользователей и способах их быстрого решения, а вторые автоматизируют решения, найденные продуктовыми аналитиками, и задачи с помощью различных ML-методов: персональные рекомендации, ценообразование и так далее.

Базовые навыки проверяем на тестовом задании. Департамент большой, он состоит из нескольких отделов, поддерживающих разные системы. Поэтому в каждом отделе разработан собственный кейс, максимально приближенный к тому, чем предстоит заниматься в будущем. При решении такого кейса навыки кандидата становятся очевидны. После этого мы смотрим код и решаем, кого пригласить на встречу.

Про софт-скиллз. Это часть, на которую мы обязательно обращаем внимание при личном общении с кандидатом. Так как специалисты по data science задействованы в кроссфункциональных проектах, для нас очень важно, чтобы человек разделял ценности компании, мог работать в команде и выстраивать коммуникацию с коллегами».

Spice IT — с позиции HR-агентства

«Вакансий Data Scientist все больше и больше. Данные — самый ценный на рынке продукт. Спада в ближайшее время не будет. Специалистов уже не хватает, особенно если речь идет о таких вакансиях, как Head of Predictive Analytics или Lead/Chief data scientist. Кандидаты заняты на серьезных проектах и не хотят бросать начатое. Плюс эти позиции подразумевают наличие специальных качеств, необходимых той или иной компании. Со стажерами и джунами проще: data science начинает набирать обороты, и многие рады попробовать свои силы в этой сфере.

Профессиональные компетенции зависят от требований, выставляемых компанией-заказчиком. Из основного можно выделить: R, Python, Machine Learning, базы данных, такие как MSSQL, MySQL, Postgresql. Кандидаты на позицию Data Scientists должны хорошо разбираться в математике, статистике и программировании.

Вакансии, где soft skills — одно из ключевых требований, встречаются достаточно редко, если это не руководящая позиция. В связи с тем, что сильных специалистов на рынке пока не очень много, упор идет именно на техническую составляющую.

Конечно, многим компаниям хотелось бы видеть в своих рядах специалистов с проактивной позицией, подготавливающих презентации, составляющих красивые отчеты и умеющих наладить контакт с коллегами и руководством, но, повторюсь, на практике большинство клиентов поступаются этими требованиями, предпочитая коммуникабельности хороший технический опыт.

При этом компании готовы обучать, принимая кандидатов в качестве стажеров или младших аналитиков. Готовы смотреть ребят, которые ведут проекты на фрилансе или делают что-то для себя с целью получения опыта. У нас в работе вакансии разного уровня, где нужны специалисты с минимальным опытом или сильным техническим. Вариантов масса, каждому можно что-то подобрать.

Опыт работы с Data Scientist экс-директора по маркетингу Storia.me — Алины Гашинской

«В Storia в один период было два специалиста по работе с большими данным. Мы нанимали их под конкретные задачи: нужно было работать с предиктивным анализом в целях улучшения маркетинговых показателей и исправлять ситуацию с высоким churn rate. Кроме этого, мы хотели построить собственную рекомендательную систему внутри площадки, не беря для этого готовое решение.

Мне кажется, Data Scientist должен уметь работать под задачи продукта, но без базовых навыков, конечно же, никуда. Языки для сбора данных, запросов, обработки информации, работе с базами данных, определенные знания в статистике — этот пул навыков на выходе применятся под конкретную задачу, и в любой ситуации Data Scientist должен понимать, каким образом он будет решать ту или иную проблему.

Не имеет смысла нанимать специалиста по работе с большими данными для того, чтобы он просто сидел в офисе — это будет достаточно дорого. Выгоднее нанимать проектно в случае отсутствия стороннего решения или если продукт нуждается во внутренней разработке.

Работа с большими данными может быть полезна и для UX, и для разработки, и для маркетинга. Нужно смотреть, действительно ли необходим специалист такого формата.

Я бы сказала, что будущее действительно за работой с большими данными, но с некоторыми оговорками. Мало получить данные, надо еще понять, как их можно использовать. Специалисты по работе с данными могут заниматься многими задачами, но обычно они все-таки необходимы именно для большой компании — там для них есть и задачи, и бюджеты.

Для больших компаний в условиях остановившегося роста специалист в data science — это возможность найти новый путь развития, путь привлечения платежеспособных клиентов. Работа с Big Data — это не то, что способен сделать человек, потому что наш мозг просто не в состоянии обработать такое количество данных.

Сейчас только вырабатывается понимание необходимых компетенций и образ специалиста по работе с большими данными. Слишком уж новое это направление для российского рынка и наших реалий. У нас к остальным-то специалистам не всегда правильно сформулированы требования, что уж говорить о Data Scientist.

Кроме того, надо понимать, что работа с большими данными дает результат только в долгосрочной перспективе и не решает вопросы, которые должны быть решены сегодня или завтра. К примеру, вы планируете редизайн через год, и вы хотите сделать полноценный дружелюбный интерфейс. В этом случае вы нанимаете специалиста по работе с большими данными, он проводит A\B-тесты и предиктивный анализ. Такие данные более точные, поскольку это машинное обучение, которое не допускает ошибок. И еще это более грамотные и широкие возможности для рекламных компаний, целевой аудитории и ее анализа».

Советы, которые может дать работодатель специалисту в области больших данных

  1. Курсы, конечно, нужны. Но они должны наслаиваться на знание языков программирования: R или Python.
  2. Без понимания принципов машинного обучения — никуда.
  3. Математика и статистика должны быть вашими друзьями.
  4. Данные — это цифры, числа, математический анализ. Поэтому сделайте их своими богами.
  5. Мало знать теорию, надо понимать практическую составляющую. Идти работать в бизнес и думать, что там необходим ангельский горн данных — ошибка. Там необходимо решение конкретной задачи.
  6. В России большие данные — это, прежде всего, аналитика. Поэтому если вы хотите заниматься чем-то иным, тогда искать работу придется дольше.
  7. Вам может попасться «тугой» работодатель, который сам слабо будет понимать роль Data Science — это нормально. Вы не маркетолог, не трафик-менеджер, и даже не аналитик, вы — это нечто большее.
  8. Задача любого Data Scientist — обработать данные и предоставить результат. С помощью ваших знаний и навыков по миру летают беспилотники, скоро будут ездить такси и машины без управления человеком, работают нейронные сети, обрабатываются миллионы рекламных кампаний в Гугле и Яндексе. Вы — бесценны, но всё имеет свою цену и имя ей — зарплата. Цените себя и успехов вам.

Полное интервью с Авито и Spice IT о специалистах Data Scientist читайте в нашем следующем материале.

От редакции

Курсы «Нетологии» по теме:

какая вообще разница? / Блог компании Нетология / Хабр

Профессии Data Scientist и Data Engineer часто путают. У каждой компании своя специфика работы с данными, разные цели их анализа и разное представление, кто из специалистов какой частью работы должен заниматься, поэтому и требования каждый предъявляет свои. 

Разбираемся, в чём разница этих специалистов, какие задачи бизнеса они решают, какими навыками обладают и сколько зарабатывают. Материал получился большим, поэтому разделили его на две публикации.

В первой статье Елена Герасимова, руководитель факультета «Data Science и аналитика» в Нетологии, рассказывает, в чём разница между Data Scientist и Data Engineer и с какими инструментами они работают.

Как различаются роли инженеров и сайентистов

Инженер данных — это специалист, который, с одной стороны, разрабатывает, тестирует и поддерживает инфраструктуру работы с данными: базы данных, хранилища и системы массовой обработки. С другой стороны — это тот, кто очищает и «причёсывает» данные для использования аналитиками и дата-сайентистами, то есть создаёт конвейеры обработки данных.

Data Scientist создаёт и обучает предиктивные (и не только) модели с помощью алгоритмов машинного обучения и нейросетей, помогая бизнесу находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые бизнес-процессы.

Главное различие между Data Scientist и Data Engineer состоит в том, что обычно у них разные цели. Оба работают для того, чтобы данные были доступными и качественными. Но Data Scientist находит ответы на свои вопросы и проверяет гипотезы в экосистеме данных (например, на базе Hadoop), а Data Engineer — создаёт пайплайн обслуживания алгоритма машинного обучения, написанного дата-сайентистом, в кластере Spark внутри той же экосистемы. 

Инженер данных приносит ценность бизнесу, работая в команде. Его задача — выступить важным звеном между разными участниками: от разработчиков до бизнес-потребителей отчетности, — и повысить продуктивность аналитиков — от маркетинговых и продуктовых до BI. 

Data Scientist же, напротив, принимает активное участие в стратегии компании и извлечении инсайтов, принятии решений, внедрении алгоритмов автоматизации, моделирования и генерации ценности из данных.

Работа с данными подчиняется принципу GIGO (garbage in — garbage out): если аналитики и дата-сайентисты имеют дело с неподготовленными и потенциально некорректными данными, то результаты даже с помощью самых изощрённых алгоритмов анализа будут неверны. 

Инженеры данных решают эту проблему, выстраивая пайплайны по обработке, очистке и трансформации данных и позволяя дата-сайентисту работать уже с качественными данными. 

На рынке много инструментов для работы с данными, которые покрывают каждый из этапов: от появления данных до вывода на дашборд для совета директоров. И важно, чтобы решение об их использовании принималось инженером, — не потому, что это модно, а потому что он действительно поможет в работе остальным участникам процесса. 

Условно: если компании нужно подружить BI и ETL — загрузку данных и обновления отчётов, вот типичный legacy-фундамент, с которым придётся иметь дело Data Engineer (хорошо, если в команде кроме него будет ещё и архитектор).

Обязанности Data Engineer

  • Разработка, построение и обслуживание инфраструктуры работы с данными.
  • Обработка ошибок и создание надёжных конвейеров обработки данных.
  • Приведение неструктурированных данных из различных динамических источников к виду, необходимому для работы аналитиков.
  • Предоставление рекомендаций по повышению консистентности и качества данных.
  • Обеспечение и поддержка архитектуры данных, используемой дата- сайентистами и аналитиками данных.
  • Обработка и хранение данных последовательно и эффективно в распределенном кластере на десятки или сотни серверов.
  • Оценка технических компромиссов инструментов для создания простых, но надежных архитектур, которые смогут пережить сбои.
  • Контроль и поддержка потоков данных и связанных систем (настройка мониторинга и алертов).

Существует ещё одна специализация внутри траектории Data Engineer — ML engineer. Если коротко, то такие инженеры специализируются на доведении моделей машинного обучения до промышленного внедрения и использования. Зачастую модель, поступившая от дата-сайентиста, является частью исследования и может не заработать в боевых условиях.

Обязанности Data Scientist

  • Извлечение признаков из данных для применения алгоритмов машинного обучения.
  • Использование различных инструментов машинного обучения для прогнозирования и классификации паттернов в данных.
  • Повышение производительности и точности алгоритмов машинного обучения за счет тонкой настройки и оптимизации алгоритмов.
  • Формирование «сильных» гипотез в соответствии со стратегией компании, которые необходимо проверить.

И Data Engineer, и Data Scientist объединяет ощутимый вклад в развитие культуры работы с данными, с помощью которой компания может получать дополнительную прибыль или сокращать издержки.

С какими языками и инструментами работают инженеры и сайентисты

Сегодня ожидания от специалистов по обработке данных изменились. Раньше инженеры собирали большие SQL-запросы, вручную писали MapReduce и обрабатывали данные с помощью таких инструментов, как Informatica ETL, Pentaho ETL, Talend. 

В 2020 году специалисту не обойтись без знания Python и современных инструментов проведения вычислений (например Airflow), понимания принципов работы с облачными платформами (использования их для экономии на «железе», при соблюдении принципов безопасности).

SAP, Oracle, MySQL, Redis — это традиционные для инженера данных инструменты в больших компаниях. Они хороши, но стоимость лицензий настолько высока, что учиться работать с ними имеет смысл только в промышленных проектах. При этом есть бесплатная альтернатива в виде Postgres — он бесплатный и подходит не только для обучения. 

Исторически часто встречается запрос на Java и Scala, хотя по мере развития технологий и подходов эти языки отходят на второй план.

Тем не менее, хардкорная BigData: Hadoop, Spark и остальной зоопарк — это уже не обязательное условие для инженера данных, а разновидность инструментов для решения задач, которые не решить традиционным ETL. 

В тренде — сервисы для использования инструментов без знания языка, на котором они написаны (например, Hadoop без знания Java), а также предоставление готовых сервисов для обработки потоковых данных (распознавание голоса или образов на видео).

Популярны промышленные решения от SAS и SPSS, при этом Tableau, Rapidminer, Stata и Julia также широко используются дата-сайентистами для локальных задач.
Возможность самим строить пайплайны появилась у аналитиков и дата-сайентистов всего пару лет назад: например, уже можно относительно несложными скриптами направлять данные в хранилище на основе PostgreSQL. 

Обычно использование конвейеров и интегрированных структур данных остаётся в ведении дата-инженеров. Но сегодня как никогда силён тренд на Т-образных специалистов — с широкими компетенциями в смежных областях, ведь инструменты постоянно упрощаются.

Зачем Data Engineer и Data Scientist работать вместе

Работая в тесном сотрудничестве с инженерами, Data Scientist могут сосредоточиться на исследовательской части, создавая готовые к работе алгоритмы машинного обучения.
А инженеры — сфокусироваться на масштабируемости, повторном использовании данных и гарантировать, что пайплайны ввода и вывода данных в каждом отдельно взятом проекте соответствуют глобальной архитектуре.

Такое разделение обязанностей обеспечивает согласованность действий между группами специалистов, работающими над разными проектами машинного обучения. 

Сотрудничество помогает эффективно создавать новые продукты. Скорость и качество достигаются, благодаря балансу между созданием сервиса для всех (глобальное хранилище или интеграция дашбордов) и реализацией каждой конкретной потребности или проекта (узкоспециализированный пайплайн, подключение внешних источников). 

Тесная работа с дата-сайентистами и аналитиками помогает инженерам развивать аналитические и исследовательские навыки для написания более качественного кода. Улучшается обмен знаниями между пользователями хранилищ и озёр данных, что делает проекты более гибкими и обеспечивает более устойчивые долгосрочные результаты.

В компаниях, которые ставят своей целью развитие культуры работы с данными и выстраивание бизнес-процессов на их основе, Data Scientist и Data Engineer дополняют друг друга и создают полноценную систему анализа данных. 

В следующем материале расскажем о том, какое образование должно быть у Data Engineer и Data Scientists, какие навыки им нужно развивать и как устроен рынок.

От редакции Нетологии

Если присматриваетесь к профессии Data Engineer или Data Scientist, приглашаем изучить программы наших курсов:

Каково это было — изучать Data Science в 2019 году / Хабр


Эта статья — перевод статьи Томаса Нильда How It Feels to Learn Data Science in 2019


Видение (случайного) леса через деревья (решений)

Thomas Nield Follow Feb 4
Время чтения: 16 минут

Вдохновением к нижеизложенному послужила статья о том, каково это — изучать JavaScript в 2016 году. Не воспринимайте эту статью слишком серьезно. Это сатира, поэтому не относитесь к ней как к жизненному совету. Как и все советы, некоторые из них полезны, а некоторые — бестолковы. Этот текст — просто мнение, очень похожее на определение data science.


Я слышал, что за советом — к тебе. Спасибо за встречу со мной, и спасибо за кофе. Ты знаешь data science, верно?

Ну, да, знаю. В прошлом году я ездил на PyData и O’Reilly Strata (конференции по анализу данных — прим. пер.) и на моём счету есть парочка моделей.

Да, я слышал, на прошлой неделе ты провел отличную презентацию по машинному обучению для нашей компании. Мой коллега сказал, что было очень полезно.

О, классификатор фотографий кошек и собак? Да, спасибо.

Короче говоря, я решил, что больше не могу игнорировать data science, искусственный интеллект и машинное обучение. Я работал аналитиком и консультантом в течение многих лет, переставляя числа в Excel, составляя сводные таблицы и диаграммы. Но мне все время попадаются статьи, в которых говорится, что ИИ заберет рабочие места, даже у таких «белых воротничков», как я.

Это все, что нужно, чтобы стать уверенным дата-сайентистом (по состоянию на 2013 год). Вполне достижимо, да? (Источник: Swami Chandrasekaran)

Я погуглил, как стать дата сайентистом, нашел этот “план” и познал экзистенциальный кризис. Позволь спросить, действительно ли я должен освоить всё в этой диаграмме, чтобы стать дата сайентистом?

Отвечу коротко — нет. Никто больше не использует этот план. Он 2013 года. В нем даже нет TensorFlow, и некоторые пути на нем можно попросту вычеркнуть. Я думаю, что уже в то время «data science» стал более сложной и специализированной. Было бы лучше использовать другой подход.

Ладно, немного полегчало. Так мне все-таки стоит вернуться в школу? Я где-то читал, что многие дата сайентисты имеют, по крайней мере, магистерское образование. Должен ли я получить степень магистра в области науки о данных?

Господи, зачем тебе это? Нужно вообще быть осторожным с направлениями обучения «data science“, которые по большому счету переделанные курсы ”бизнес-аналитики». Вдобавок, современные академики, как правило, отстают от индустрии и могут преподавать устаревшие технологии. Чтобы идти в ногу со временем, тебе лучше заниматься самообучением на Coursera, Stepik или Khan Academy.

Вот как.

Хотя если и поступать в вуз, может тогда на физику или на математические методы исследования операций? Трудно сказать. Как ни странно, многие хорошие дата сайентисты, с которыми я знаком, пришли из этих областей. Возможно, тебе удастся найти хорошую программу обучения “data science”. Я не знаю, поговори с этим доктором наук, он тебе изложит свою позицию.

Так как же начать самообразование? Какой-то парень в LinkedIn сказал, что те, кто интересуется data science, должны начать с изучения Linux. Потом в Twitter я читаю, что какой-то другой парень настаивает на том, что дата сайентисты должны изучать Scala, а не Python или R.

Ну и сморозил этот парень на LinkedIn. Что касается «знатока» Scala, если и нырять с головой, то, пожалуйста, только не в этот омут. Доверься мне. Уже 2019 на дворе. Scala давно не в ходу в сообществе data science. А если бы и была, PySpark бы не появился. И уж точно не слушай хипстеров, как тот парень, который все время говорит о Kotlin.

Ок! А как насчет R? Похоже, людям нравится.

R хорош в математическом моделировании, и только. С Python ты получишь гораздо больше от своих инвестиций в обучение и сможешь выполнять более широкий спектр задач, таких как сбор данных и настройка веб-сервисов.

Но R по-прежнему занимает довольно высокое место в Tiobe, и у него куча последователей и ресурсов. Его использовать — себе вредить?

Смотри, ты можешь использовать R. Если тебе просто интересна математика, он, спорно, конечно, но лучше, но еще лучше он работает с Tidyverse. Но data science по-прежнему нечто гораздо, ГОРАЗДО большее, чем математика и статистика. Поверь мне, на Python в 2019 можно намного дальше уехать.

Хорошо, так… Видимо, я начинаю изучать Python.

Ты не пожалеешь.

Python сложный? Удержусь ли я с ним на плаву, когда роботы возьмут верх?

Ну конечно, Python — довольно простой язык. С ним можно автоматизировать много задач и делать классные ништяки. Но тебе даже и не нужен Python. Data science — это гораздо больше, чем скрипты и машинное обучение.

Что ты имеешь в виду?

Ну, это всего лишь инструменты. Ты используешь Python для получения информации из данных. Иногда это требует машинного обучения, но в большинстве случаев нет. Data science может просто подразумевать создание диаграммы. По факту, даже не нужно изучать Python, можно просто использовать Tableau. Они рекламируют, что могут ”сделать всех в вашей организации дата сайентистами», если те просто будут использовать их продукт.

Tableau уверены, что могут решить кадровую проблему нехватки дата сайентистов.

Стоп, чего? Так что, я просто покупаю лицензию на Tableau, и я теперь дата сайентист? Хорошо, давай поговорим об этом коммерческом предложении с ноткой скепсиса. Может я и невежда, но знаю, что data science не просто создание красивых визуализаций. Я могу и в Excel это сделать.

Конечно. Тем не менее, нужно признать, что это отличный маркетинг. Построение графиков — это, конечно, весело, но они упускают всю ту боль и уйму времени, что отнимают очистка, обработка, изменение и загрузка данных.

Да, и именно поэтому я подозреваю, что есть ценность в изучении кода. Давай поговорим о Python.

Вообще-то, подожди. Может быть, тебе выучить Alteryx.

Что?

Есть еще одно программное обеспечение под названием Alteryx, которое позволяет очищать, обрабатывать, изменять и загружать данные. Это здорово, потому что он использует Drag&Drop для объединения данных и…

Alteryx тоже обещают “data science» без кода.

О Боже, пожалуйста, остановись. Больше никакого Drag&Drop. Я хочу изучать Python, а не Alteryx или Tableau.

Ладно, извини. Я просто пытался облегчить тебе жизнь, избежать кодинга. Может быть, я сделал это еще потому, что наша компания купила лицензии, которые мы должны использовать. Но в любом случае, чтобы использовать Python, нужно изучить несколько библиотек, таких как Pandas для управления DataFrame и matplotlib для создания диаграмм. Вообще-то, вычеркни matplotlib. Используй Plotly. Он использует d3.js и вообще намного приятнее.

Я знаю некоторые из произнесенных тобой слов. Но что такое DataFrame?

Ну, это такая структура данных в виде таблицы со строками и столбцами. Можно делать все эти крутые преобразования, сводные таблицы и агрегации с DataFrame в среде Python.

Погоди, так чем же это отличается от Excel? Я все это делал еще с момента выпуска из колледжа. Означает ли это, что я уже дата сайентист?

Если тебе льстит называть себя так, конечно. Я бы объявлял во всеуслышание этот самопровозглашенный титул каждый раз, когда шел на вечеринку или писал резюме.

Так что же отличает Python от Excel?

Python отличается тем, что все можно сделать в Jupyter-ноутбуке. Ты можешь провести все этапы анализа данных, и ноутбук визуализирует каждый шаг. Это почти как написать историю, которой можно поделиться с другими. А коммуникация и истории, в конце концов, — чертовски важная часть data science.

Звучит как PowerPoint. Я уже и это делаю. Я так запутался.

О боже, нет. Ноутбуки гораздо более автоматизированы и оптимизированы, и это позволяет легко отслеживать каждый шаг анализа. Но если подумать, я просто вспомнил, что некоторые вообще не любят ноутбуки, потому что код в них не очень удобно переиспользовать. Проще распределить код по модулям вне ноутбуков, если нужно превратить его в программный продукт.

Так, теперь data science еще и разработка программного обеспечения?

Может быть, но давай не будем отвлекаться на это. Есть гораздо более насущные вещи, которые нужно выучить на первых порах. Чтобы заниматься data science, тебе, очевидно, потребуется data — данные.

Конечно.

И нет ничего лучше для новичка, чем сбор данных в сети, с тех же страничек из Википедии, которые можно сбросить на жесткий диск.

Подожди, чего мы опять пытаемся достичь?

Ну, мы пытаемся получить какие-нибудь данные для практики. Скрапинг веб-страниц и их парсинг с помощью Beautiful Soup даст нам кучу неструктурированных текстовых данных для работы.

Я в замешательстве. Я только что закончил читать отличную 130-страничную книгу по SQL, и я думал, что буду запрашивать таблицы, а не скрапить интернет. Разве SQL не является типичным способом доступа к данным?

Ну, мы можем сделать много интересного с неструктурированными текстовыми данными. Мы можем использовать их для классификации настроений в сообщениях из социальных сетей или для другой обработки естественного языка. NoSQL отлично подходит для хранения такого типа данных, потому что мы можем хранить огромные их объемы, не заботясь о том, чтобы делать их пригодными для аналитики.

Я слышал термин NoSQL. Так это SQL? Анти-SQL? Подожди, я думаю, что это как-то связано с big data, верно?

Ну во-первых, “big data” это из 2016. Большинство людей больше не используют этот термин, так что просто не круто так говорить. Как и многие хайповые технологии, он прошел свой пик популярности и нашел применение только в нескольких местах. Но NoSQL — это по сути результат движения «big data», взрастивший такие платформы, как MongoDB.

Хорошо, но откуда тогда название “NoSQL”?

NoSQL означает «не только SQL» и поддерживает структуры данных за пределами реляционных таблиц. Однако, базы данных NoSQL, как правило, не используют SQL, а, скорее, собственный язык запросов. Вот MongoDB в сравнении с SQL:

Боже мой, это ужасно. Так ты утверждаешь, что каждая платформа NoSQL имеет свой собственный язык запросов? Что не так с SQL?

Понял тебя. С SQL все в порядке, кроме того, что ему уже десятки лет. Повальное увлечение неструктурированными данными стало возможностью сделать что-то новое и широко масштабироваться недоступными раньше способами. Тем не менее, я думаю, все больше людей приходят к выводу, что смысл в сохранении SQL все же есть. Это значительно упрощает аналитику. На самом деле настолько, что многие технологии NoSQL и “больших данных” скремблировали, чтобы добавить слой SQL в той или иной форме. В конце концов, SQL — довольно универсальный язык, даже если некоторым людям он даётся с трудом.

Ух, ну ладно. Итак, я понял, что изучение NoSQL для меня, как дата сайентиста, не критично, если только моя работа не потребует обратного. Звучит так, будто я в безопасности, зная только SQL.

Чем больше я думаю об этом, тем больше верю, что да, ты прав, но лишь до тех пор, пока тебя не потянет стать дата-инженером.

Дата-инженером?

Да, дата сайентисты как бы разделились на две профессии. Дата-инженеры работают с производственными системами и помогают сделать данные и модели пригодными для использования, но меньше занимаются машинным обучением и математическим моделированием, что, всвою очередь, остаётся дата сайентистам. Вероятно, это было необходимо, поскольку большинство HR и рекрутеров не видят дальше титула “дата сайентист”. Подумай об этом, если хочешь быть дата-инженером, я бы уделил особое внимание изучению Apache Kafka а не NoSQL. Apache Kafka сейчас просто бомба.

Вот, эта диаграмма Венна тебе поможет. Чтобы получить титул «дата сайентист», нужно быть где-то в математическом/статистическом круге, а в идеале, на пересечении с другой дисциплиной.

Data Science Диаграмма Венна

Ну ладно, я сейчас понятия не имею, хочу ли я быть дата сайентистом или инженером данных. Давай просто двигаться дальше. Итак, возвращаясь назад, почему мы парсим страницы Википедии?

Ну, они служат в качестве входных данных для обработки естественного языка, и с их помощью можно делать, например, чат-ботов.

Как Tay от Microsoft? Будет ли этот бот достаточно умен, чтобы прогнозировать продажи и помогать мне запускать новые продукты с правильным количеством запасов? Есть ли риск, что он неизбежно станет расистом?

Теоретически, есть. Если ты накормишь его новостными статьями, возможно, получится создать модель, которая определяет некоторые тенденции и, в результате, дает рекомендации по бизнес решениям. Но это НЕРЕАЛЬНО сложно. Подумай хорошенько, это может быть не лучшим вариантом для начала.

Итак, что ж… обработка естественного языка, чат-боты и неструктурированные текстовые данные, возможно, не для меня?

Возможно, но имей ввиду, что в настоящее время data science повсюду. Компании Кремниевой долины, такие как Google и Facebook, имеют дело с большим количеством неструктурированных данных (таких как сообщения в социальных сетях и новостные статьи), и, очевидно, они оказывают большое влияние на определение “data science”. Ну а остальные, такие как мы, используем бизнес-операционные данные в виде реляционных баз данных и менее вдохновляющие технологии, такие как SQL.

Звучит правдоподобно. Я предполагаю, что они посвящают свои таланты в сфере неструктурированных данных в основном для добычи пользовательских сообщений, электронных писем, историй для рекламы и других гнусных целей.

Так и есть. Знаешь, наивный байесовский классификатор может показаться тебе интересным и в своем роде полезным. Можно взять текст и предсказать категорию для него. Это довольно легко реализуется с нуля:

Категоризация тел текста с помощью наивного байесовского классификатора

Ты прав, он крут. Но кроме этого никакой ценности в неструктурированных данных я не вижу.

Тогда двигаемся дальше. Так значит ты работаешь с табличными данными: электронными таблицами и кучей записанных чисел. Это даже звучит почти так, будто ты хочешь делать прогнозы или статистический анализ.

Да, наконец-то мы хоть что-то выяснили! Наконец займемся решением реальных проблем. Так это теперь начнется тема нейронок и глубокого обучения?

Э-гей, придержи-ка лошадей. Я собирался предложить начать с нормальных распределений со средними и стандартными отклонениями. Может, вычислить вероятности с z-оценкой и одной-двумя линейными регрессиями.

Но опять же, я могу это все в Excel сделать! Разве не могу?

Ну… эм… да, это верно, ты многое из перечисленного можешь сделать в Excel. Но при написании скриптов, ты получаешь большую гибкость.

Как с VBA? Visual Basic?

Ладно, я начну сначала и притворюсь, что ты этого не говорил. У Excel действительно отличные статистические операторы и достойные модели линейной регрессии. Но если тебе нужно сделать отдельное нормальное распределение или регрессию для каждой категории элементов, гораздо проще написать скрипт на Python, а не создавать адские формулы, длина которых может стать метрикой расстояния до Луны.

When you become advanced at Excel, you inflict pain on everyone who works with you. (Когда становишься крут в эксель, все вокруг испытывают боль)

Ты же можешь использовать крутую библиотеку scikit-learn. С ней ты получишь гораздо более мощные возможности для различных регрессий и машинного обучения.

Ладно, справедливо. Так, похоже, теперь разговор переходит в область математического моделирования. Вот передо мной куча математических задач, с чего мне начать?

Ну, в традиционном представлении линейная алгебра — это строительный блок для многого в data science, и именно с неё нужно начать. Умножение и сложение матриц (так называемое скалярное произведение) — это то, что ты будешь делать все время, и есть другие важные понятия, такие как детерминанты и собственные векторы. 3Blue1Brown — это практически единственный канал, где можно найти интуитивное объяснение линейной алгебры (англ).

Итак… умножение/сложение одной матрицы с другой — это то, чем я в основном буду заниматься? Звучит реально бессмысленно и скучно. Ты можешь привести пример?

Ну… машинное обучение! Когда делаешь линейную регрессию или строишь свою собственную нейронную сеть, придется много раз провести умножение матриц и масштабирование со случайными значениями веса.

Хорошо, так матрицы имеют какое-то отношение к data frame? Звучат они похоже.

Вообще-то, погоди… я это переосмыслил. Вернемся к этому утверждению. На практике тебе не нужно заниматься линейной алгеброй.

Ой, Да ладно тебе! Серьезно? Так мне изучать линейную алгебру или нет?

На практике тебе, вероятно, не нужно изучать линейную алгебру. Библиотеки, такие как TensorFlow и scikit-learn, сделают все за тебя. В конце концов, это действительно утомительно и скучно. Ты, конечно, можешь разобраться и получить некоторое представление о том, как работают эти библиотеки. Но сейчас просто начни использовать библиотеки машинного обучения и полностью игнорируй линейную алгебру.

Твоя неуверенность меня тревожит. Могу ли я доверять тебе?

Прояви хоть немного уважения! Я только что вытащил тебя из ещё одного омута. Не за что.

Ох.

И еще, пока не забыл. Ты сам по себе TensorFlow не используй. Используй его с Keras, потому что с ним TensorFlow гораздо проще.

Если вернуться обратно, действительно ли линейная регрессия относится к машинному обучению?

Да, линейная регрессия включена в список инструментов «машинного обучения».

Круто, я все время делаю это в Excel. Так могу ли я назвать себя ещё и практиком машинного обучения?

*Вздыхат* технически, да. Но тебе, возможно, захочется немного расширить свой кругозор. Видишь ли, машинное обучение (независимо от техники) зачастую состоит из двух задач: регрессии и классификации. Технически, классификация — это регрессия. Деревья решений, нейронные сети, метод опорных векторов, логистическая регрессия и да… линейная регрессия, — все они в своем роде выполняют подгонку кривых. Каждая модель имеет плюсы и минусы в зависимости от ситуации.

Подожди, так машинное обучение — это просто регрессия? Все это просто эффективная подгонка кривых к точкам?

Примерно так. Некоторые модели, такие как линейная регрессия, ясные как день, в то время как более продвинутые модели, такие как нейронные сети, по определению запутаны и трудны для интерпретации. Нейронные сети — это просто многослойные регрессии с нелинейными функциями. Возможно, не очень впечатляет, когда у тебя только 2-3 переменные, но когда у тебя их сотни или тысячи, вот где становится интересно.

Ну, если зайти с этой стороны, конечно. А распознавание изображений — это тоже регрессия?

Да. Каждый пиксель изображения становится входной переменной с числовым значением. Только вспомнил: нужно быть осторожным с проклятием размерности. Это значит, что чем больше переменных (измерений) у тебя есть, тем больше данных тебе нужно, чтобы они не становились разреженными. Это одна из многих причин, почему машинное обучение может быть настолько ненадежным и беспорядочным, и может потребовать абсурдного количества размеченных данных, которых у тебя, вполне вероятно, не будет.

У меня сейчас много вопросов.

(Поехали!)

Как насчет таких проблем, как планирование расписаний персонала или транспорта? Или решение судоку? Может ли машинное обучение решить все эти проблемы?

Ну, если говорить о таком типе проблем, найдутся люди, которые скажут, что это не data science или машинное обучение. Это “исследование операций”.

На мой взгляд, это практические проблемы. Значит, исследование операций не имеет ничего общего с наукой о данных?

На самом деле, есть приличное количество пересечений. Исследование операций дало много алгоритмов оптимизации, которые использует машинное обучение. Оно также предоставило множество решений общих проблем «ИИ», таких как те, что ты упомянул.

А какие алгоритмы используют для решения таких проблем?

Ну, определенно не алгоритмы машинного обучения, и слишком мало людей об этом знают. Есть и лучшие алгоритмы, которые существуют в течение десятилетий. Дерево поиска, метаалгоритмы, линейное программирование и другие методы исследования операций используются уже давно и выполняют свою работу гораздо лучше, чем алгоритмы машинного обучения для таких же категорий задач.

Так почему же все говорят о машинном обучении, а не об этих алгоритмах?

* Вздыхает * потому что эти задачи оптимизации были в какой-то момент решены, и эти методы с тех пор не мелькали в заголовках. Хочешь верь, хочешь нет, несколько десятилетий назад первая реклама ИИ акцентировала внимание именно на этих алгоритмах. В настоящее время шумиху вокруг ИИ подняло машинное обучение и типы проблем, которые он хорошо решает: распознавание изображений, обработка естественного языка, генерация изображений и т. д.

Поэтому, когда люди предлагают использовать машинное обучение для решения проблемы планирования или чего-то простого, как Судоку, например, они ошибаются?

В значительной степени, да. Машинное обучение, глубокое обучение и т. д… Все, что сегодня «на хайпе», обычно не решает проблем дискретной оптимизации, ну или решает, но плохо. Люди делали попытки, но результаты были весьма посредственными.

Итак, если машинное обучение — это просто регрессия, почему все так суетятся вокруг роботов и ИИ, ставя под угрозу нашу работу и общество? Я имею в виду… подгонка кривой действительно так опасна? Сколько самосознания имеет «ИИ», когда он просто делает регрессию?

Ну, люди нашли несколько умных применений для регрессий, таких как поиск лучшего следующего шахматного хода (что также может сделать и дискретная оптимизация) или самодвижущийся автомобиль, вычисляющий, в каком направлении повернуть. Но да, шумихи довольно много, и регрессия может иметь так много применений и решать лишь одну задачу.

Я все еще не могу смириться с этим. Я читал статьи о том, как DeepMind подражает человеческому интеллекту в шахматных играх, и теперь он побеждает людей в StarCraft! Эти алгоритмы машинного обучения обходят людей во всех этих играх! Значит ли это, что в будущем они заменят меня на моей работе?

Сколько игроков StarCraft претендует на твою работу?

(Неловкое молчание)

Можешь ли ты сказать, что игра в StarCraft похожа на твою работу?

Если тебе не угрожает игрок StarCraft, почему тебе вдруг надо беспокоиться о роботе-игроке StarCraft? Они жестко запрограммированы и обучены хорошо выполнять эту задачу: играть в StarCraft. То же самое можно сказать о человеке, который ничего кроме этого в жизни не делал, и становится тебе угрозой.

Я не знаю, радоваться мне или сомневаться. Сначала шахматы, потом Старкрафт… может быть, дальше будет автоматизированная аналитика и роботы, принимающие стратегические бизнес-решения. Но, возможно, третий пункт — это большой скачок из первых двух. Я уже и не знаю.

Какой-то парень написал статью по Data Science о глубоком обучении, выходящем за рамки своих ограничений. Возможно, захочешь прочитать ее.

Хорошо, так как же мы перешли от науки о данных к искусственному интеллекту? Чем больше я пытаюсь определить «data science», тем больше я просто… я просто… я не могу её описать. Все это так безумно и неясно.

Вот, я читал еще одну статью того же автора. Отличный парень.

Спасибо. Мне нужно прогуляться и все обдумать. Если я хоть что-то понял, я думаю, что моя работа в Excel квалифицируется как “data science”. Хотя я и не знаю, хочу ли я иметь титул дата сайентиста. Похоже, это может быть все что угодно. Я могу потратить свое время на что-то другое. Надеюсь, следующий «Новый Хит», который придёт вслед за data science будет менее сумасшедшим.

Может быть, тебе стоит какое-то время поработать на IBM?

Зачем?

Когда-нибудь слышал о квантовых вычислениях?

Data Science Skills / Хабр

Продолжаем серию аналитических исследований востребованности навыков на рынке труда. В этот раз благодаря Павлу Сурменку sharky мы рассмотрим новую профессию – Data Scientist.

Последние года термин Data Science начал набирать популярность. Об этом много пишут, говорят на конференциях. Некоторые компании даже нанимают людей на должность со звучным названием Data Scientist. Что же такое Data Science? И кто такие Data Scientists?

Если задать такой вопрос жителю Сан-Франциско, можно получить ответ, что Data Scientist – это статистик, живущий в Сан-Франциско. Смешно, хотя не сильно обнадеживает тех, кто живет не в Сан-Франциско, правда? Хорошо, тогда еще одно определение: Data Scientist – это тот, кто разбирается в статистике лучше, чем любой программист, и разбирается в программировании лучше, чем любой статистик. А вот этот вариант уже близок к сути. Data Scientist, ученый по данным, является своеобразным гибридом статистика и программиста. Причем как статистики, так и программисты бывают очень разными, поэтому лучше рассматривать эту профессию как широкий спектр от чистых статистиков до чистых программистов.

Роберт Чанг, Data Scientist из Twitter, делит представителей своей профессии на 2 группы: Type A Data Scientist v.s. Type B Data Scientist.

Тип A, где A – это Analysis. Эти люди по большей части занимаются извлечением смысла из статических данных. Они очень похожи на статистиков, могут даже быть статистиками и просто сменить название должности на Data Scientist, а, как мы знаем, уже только одна смена названия должности может дать значительный прирост зарплаты, плюс почет и уважение. Но кроме статистики они знают еще и практические аспекты: как очищать данные, как работать с большими наборами данных, как визуализировать данные и описывать результаты своей работы.

Тип B, где B – Building. Они также обладают знаниями статистики, но при этом сильные и опытные программисты. Они больше заинтересованы в применении данных на реальных системах. Часто строят модели, работающие во взаимодействии с пользователями, например, системы рекомендаций товаров, фильмов, рекламы.

Data Science также немного пересекается с такими областями деятельности как Machine Learning и Artificial Intelligence, представители этой сферы близки к Data Science типа B.

В англоязычном Интернете тренд повышения интереса к Data Science хорошо заметен примерно с 2012 года (https://www.google.com/trends/explore#q=Data%20Science). В последние несколько лет также хорошо заметен рост интереса к смежным областям: Machine Learning, Artificial Intelligence, Deep Learning. Gartner поместил Machine Learning на вершину hype curve в 2015 году: Gartner’s 2015 Hype Cycle for Emerging Technologies Identifies the Computing Innovations That Organizations Should Monitor. А журнал Harvard Business Review в 2012 году опубликовал статью с интригующим заголовком: Data Scientist: The Sexiest Job of the 21st Century.

Что же изучать тем, кто хочет стать Data Scientist, какие навыки необходимы? Давайте посмотрим на то, какие требования американские работодатели предъявляли к кандидатам на позиции в областях Data Science и Machine Learning.

Мы проанализировали 549 вакансий, опубликованных на одном из крупнейших мировых порталов по поиску работы — Monster.com, которые включали требования Data Science и Machine Learning.

Data Scientist Hard Skills

Начнем с анализа требований к владению профессиональными навыками (hard skills).

Как можно увидеть из рейтинга, наиболее популярными являются фундаментальные знания математики, статистики, Computer Science и машинного обучения. Помимо теоретических знаний, Data Scientist должен уметь «добывать», очищать, моделировать и визуализировать данные. Также важен опыт в разработке программного обеспечения и управлении качеством.

Data Science Tools and Technologies

Основным инструментарием Data Scientist являются языки программирования Python и R.

R – это специализированный язык программирования для статистических расчетов, именно поэтому он так полюбился статистикам и ученым по данным. Он позволяет быстро загрузить набор данных, посчитать основные статистические характеристики, визуализировать данные, построить модели данных.

Python, хоть и представляет собой язык программирования общего назначения, но имеет огромное количество качественных библиотек и платформ для Data Science и Machine Learning.

Что примечательно, в 39% вакансий требуется знание как R, так и Python одновременно, поэтому лучше изучать оба языка сразу, а не пытаться выбрать один из них.

Для работы с большими данными работодатели предпочитают использовать Hadoop и Spark. Среди баз данных популярны MySQL и MongoDB.

Data Scientist Soft Skills

Общие компетенции (soft skills) по сравнению с профессиональными навыками востребованы в меньшей мере, так как упоминаются в вакансиях более чем вдвое реже. Средние зарплаты вакансий, в которых требуются soft skills так же существенно, примерно на 20%, ниже тех, где требуются hard skills и знание технологий.

Тем не менее, среди встреченных soft skills наиболее важными являются следующие: умение общаться, визуализировать данные, делать презентации, эффективно писать и говорить. Также полезны навыки работы в команде, менеджмента и решения проблем.

Data Scientist Domain Knowledge

В некоторых вакансиях требуется знание предметной области от физики и биологии до недвижимости и гостиничного бизнеса. Здесь в лидерах экономика, маркетинг и медицина.

Data Scientists Specializations

Перед началом исследования мы предполагали выделить подспециализации профессии Data Scientist. Например, отделить тех, кто занимается преимущественно анализом и визуализацией данных от тех, кто строит модели для предсказательной аналитики или алгоритмы машинного обучения. Но, как оказалось в ходе анализа данных, требования к большинству вакансий достаточно однородны, и четкого разбиения на специальности не прослеживается.

Хотя некоторые закономерности кажутся интересными. Например, если в вакансии требуются знания Python или C++, то маловероятно требование коммуникационных навыков и менеджмента, и наоборот.

Опрос O’Reilly 2015 Data Science Salary Survey помогает нам взглянуть на рынок труда с противоположной стороны. Это исследование базируется на опросе 600 Data Scientists, а собранные данные включают уровень зарплат, демографическую информацию и количество времени, которое специалисты тратят на задачи различных типов. Ключевые выводы этого исследования следующие:

  • SQL, Excel, R, Python – ключевые инструменты, и этот список не меняется на протяжение 3 лет.
  • Сильно растет популярность Spark и Scala.
  • Фокус тех, кто ранее использовал специализированные коммерческие инструменты, смещается на использование R.
  • Но те, кто ранее использовал R, переходят на Python, Python лидирует.
  • Среди всех индустрий наиболее высокие зарплаты в Software Development.
  • Cloud Computing продолжает быть востребованным.

Рекомендуем прочитать отчет целиком. Кроме прочего, он описывает математическую модель зависимости зарплаты Data Scientist от того, где он живет, какое образование имеет и над какими задачами работает. Например, Data Scientists, которые проводят больше времени на встречах, зарабатывают больше. А кто больше 4 часов в день занимаются изучением данных, зарабатывает меньше.
За последние годы появилось множество online-курсов на эту тему. И это очень хороший способ начать!

Если вы склоняетесь больше к анализу данных, то хорошим вариантом являются курсы специализации Data Science на Coursera: Launch Your Career in Data Science. Получение специализации не бесплатно, но если вам не нужен сертификат, то вы можете пройти все эти курсы бесплатно: просто посмотрите название курса и с помощью поиска найдите курс.

Для тех, кого интересует Machine Learning, можно порекомендовать курс Андрю Эн (Andrew Ng), Chief Scientist в компании Baidu Research, который по совместительству преподаватель в Стэнфорде и является основателем Coursera: Компьютерное обучение.

Data Science – это новая область деятельности, поэтому требования к Data Scientists еще не до конца сформированы. Учитывая динамичность нашего времени, возможно, Data Science никогда не станет самостоятельной профессией, которой будут обучать в университетах, а так и останется набором практик и навыков. Но это точно те практики и те навыки, которые будут очень востребованы в ближайшие годы.

Не становитесь Data Scientist / Блог компании SkillFactory / Хабр

Когда у меня просят совет о том как попасть в data science, я советую стать разработчиком программного обеспечения. Это мое мнение. Я бы хотел услышать контраргументы в комментариях.

Все вокруг, даже ваша бабушка, хотят стать data scientist. Может быть data science это самая сексуальная профессия 21 века, но это не значит, что нужно игнорировать отличную, высокооплачиваемую профессию разработчика.

Часто недавние выпускники и люди, меняющие профессию, спрашивают меня как попасть в data science. Я советую им стать разработчиками вместо этого.

Имея опыт в обеих сферах, я попытаюсь убедить вас, что я прав.

Вакансий на должность разработчика больше

Вакансий на должность разработчика на порядок больше, чем вакансий на должность data scientist.

Ниже представлена пара скриншотов с результатами запросов на вакансии “data scientist” и “software engineer”.

google: data scientist usa indeed

google: software engineer usa indeed

7616 вакансий в data science по сравнению с 53893 вакансиями в сфере разработки ПО. Это данные по Америке, но я думаю в других странах будет похожий результат.


Согласно Glassdoor, data scientists зарабатывают больше, но у меня есть неподтвержденная гипотеза, что в data science в среднем больше сеньоров.

Источник: www.glassdoor.ca

Если вам предлагают зарплату в размере 1 миллиона долларов в Open AI, берите.

Нет споров на тему того, что такое data science

У руководства часто нет понимания того, что такое data science. Также учитывая правила бизнеса, у руководства не всегда есть возможность строго следовать определениям ролей.

Это значит, что обязанности data scientist будут отличаться в зависимости от компании.

В то время как идеальный перечень ролей для разработчиков и data scientist существует, ему вряд ли будут следовать на практике. Особенно это касается стартапов, которые все еще выстраивают свою инфраструктуру.

Нанятые сотрудники работают над проблемами, которые нужно решить компании в данный момент, а не выполняют “роль”, для которой их нанимали.

Мои коллеги говорят, что многие data scientists в итоге пишут бэкенд как обычные разработчики. Я знаю других “data scientists”, которые рассчитывают финансы в excel. Это просто смешно.

Это суровая реальность, которая явно не совпадает с вашими ожиданиями, если вы выросли на соревнованиях Kaggle.

Data science обособлен

Многим компаниям не нужно так много data scientists как разработчиков. Другие компании нанимают своих первых data scientists прямо сейчас.

По этой причине многие data scientists в итоге работают одни, даже если сидят за тем же столом, что и разработчики.

Из-за этого трудно получить фидбек и мнение со стороны. Разработчики либо не понимают предиктивное моделирование, либо слишком заняты работой над другими проблемами.

Одно из преимуществ работы разработчиком в том, что ты всегда можешь сказать коллегам: “Мне кажется мы должны выполнить ABC с помощью XYZ. Что вы об этом думаете?”.

Приготовьтесь вести этот диалог с самим собой… или резиновой уточкой.

Data science это исследования

Приготовьтесь к неловким беседам с начальством, объясняя почему нельзя использовать то, на что вы потратили 2 недели.

Разработчики работают над решенными проблемами, а data scientists над нерешенными. В этом их принципиальное отличие.

Не беря в учет баги и зависимости, в большинстве случаев в разработке вы знаете выйдет ли что-нибудь хорошее из проекта еще до того как приступили к работе. Про машинное обучение нельзя сказать того же. Ты не узнаешь эффективна ли модель пока не построишь ее.

Компании не готовы к искусственному интеллекту

Даже во времена, когда каждая IT компания это компания с искусственным интеллектом, у большинства из них нет инфраструктуры для поддержки ИИ или даже необходимости в нем.

Глава data science отдела в успешном и быстро растущем стартапе недавно поделился со мной советом за чашкой кофе.

Сначала ты выясняешь в чем проблема, затем строишь инфраструктуру, потом приносишь все это data scientists. Это небыстрый процесс. (Я перефразировал)

Другая первоклассная data scientist в известной компании пожаловалась мне, что ее заставляли использовать модели искусственного интеллекта с большими данными на ноутбуке, а не в облаке.

Если вас взяли на работу и не дали вам конкретной проблемы для решения или компания просто еще не готова к data science, вам придется постараться, чтобы доказать свою ценность.

Разработка ПО дает более широкие знания

Стать джуном в разработке все равно, что получить магистра в сфере технологий. Вы узнаете всего понемногу.

Вы выучите базы данных, облачную технологию, развертывание, безопасность, способы написания чистого кода.

Вы узнаете как управлять процессом разработки, наблюдая за скрам мастером, сеньором или продукт менеджером.

Вы познакомитесь с менторством благодаря код ревью.

Если вы устроитесь в компанию со слаженной командой разработчиков, вы гарантированно быстро разовьете свои навыки и обзаведетесь хорошим бэкграундом в области разработки ПО.

Разработка ПО более гибкая

За счет более всестороннего опыта с технологиями разработка ПО дает больше возможностей дать заднюю, если вы решили, что нужны перемены.

DevOps, работа с безопасностью, фронтенд, бэкенд, распределенные системы, бизнес-аналитика, инженерия данных, data science.

Я знаю множество разработчиков, перекочевавших в data science. Если вы просмотрите описание вакансий в сфере data science, то заметите что они сплошь состоят из основных навыков разработчика.

  • Опыт с SQL и Python, R или SAS
  • Знакомство с AWS
  • Знакомство c Linux
  • Знакомство с экспериментальным дизайном для бизнес экспериментов
  • Знакомство с DevOps системами, такими как GtLab

Если вы можете создать проект от начала до конца, вы можете сделать больше чем построить модель для Kaggel. Вы можете взять эту модель, запустить ее в производство, добавить авторизацию и Stripe и начать взимать плату с пользователей. Вот вам и стартап.

Я бы никогда не стал спорить с тем, что из data science некуда уйти. Принятие решений на основе данных это killer skill. Но чем больше мы будем зависеть от данных, тем востребованней будет этот навык в каждой профессии.

Машинное обучение станет инструментом разработчиков

Чем более общедоступным и легким в использовании становится искусственный интеллект, тем чаще разработчики будут использовать его для решения своих проблем.

Я могу научить разработчика строить Sklearn классификаторы за один вечер. Значит ли это, что он сможет построить новый AlphaGo? Нет. Но это даст альтернативу тяжеловесному коду для ввода данных пользователя, построенному на условиях.

У data scientists есть особые знания статистики и интуиция касательно работы модели. Но у DevOps-ов и инженеров по безопасности тоже есть специализированные знания.

Опытный разработчик может примерять на себя любую роль быстрее, чем новичок будет ее осваивать.

Я не думаю, что нас ждет полное слияние data science и разработки. Однако есть ощущение, что data science может легко стать одной из областей разработки.

Искусственный интеллект не заменит разработчиков

Как бы глупо это не звучало, я стал заниматься разработкой в 2014 году, потому что думал, что ИИ сделает все другие профессии ненужными.

Не считая отдельных сфер, ничего особо не изменилось, люди продолжают делать свою работу. Внедрение технологий это медленный процесс, а искусственный интеллект более узко-направленный, чем медиа пытается заставить вас думать.

В вопросе автоматизации разработки ПО машинное обучение и рядом не стоит с другими профессиями. До тех пор пока у нас есть стартапы, которые создают что-то вроде ИИ для автодополнения кода, написание кода сложно считать профессией. Профессия заключается в решении проблем с использованием технологий.

Оригинальность, вот что останется ценным и высокооплачиваемым навыком.

Заключение

Во-первых, написанное субъективно. Во-вторых, я понимаю, что дал общую оценку data scientists, специалистам по машинному обучению и исследователям искусственного интеллекта. Но я думаю эти аргументы все равно стоит учитывать, это же ваша карьера.

Не воспринимайте слишком серьезно. Я бы предпочел, чтобы вы поисследовали эту тему и сделали свои собственные выводы. Это часть работы data scientist, в конце концов :).

Если уж на то пошло, нам платят за решение проблем.


Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя онлайн-курсы SkillFactory:

Читать еще

Стоит ли идти в Data Science? / Блог компании Edison / Хабр

Совет, который я даю всегда, когда кто-то спрашивает меня, с чего начать, чтобы заняться наукой о данных. Лучше станьте инженером-программистом.

Это моё личное и ни для кого необязательное мнение. Контраргументы в комментариях приветствуются.

Профессия специалиста по данным нынче в тренде. Не спорю, наука о данных войдёт в число самых модных сфер деятельности XXI века, но это незаслуженно обесценивает другую полезную и высокооплачиваемую профессию — разработчика программного обеспечения.

Часто получаю сообщения от выпускников ВУЗ-ов и просто людей, меняющих профессию, спрашивающих о том, как войти в науку о данных. Вместо этого я советую им просто войти в айти.

Имея опыт в обеих сферах, постараюсь убедить вас сделать правильный выбор.



А у нас в EDISON недавно успешно завершён проект, где наука о данных и разработка ПО способствуют решению бытовых и бизнес-задач.



Мы реорганизовали сайт и мобильное приложение для системы вывоза мусора. Умные устройства, микроконтроллёры, использование картографического сервиса, задача коммивояжёра — вот это вот всё.

Мы очень любим, когда software engineering в связке с data science выдают solve problems! 😉

1. В сфере программной разработки полным-полно работы

В программной инженерии на порядок больше рабочих мест по сравнению с наукой о данных.

Ниже приведено несколько снимков экрана после поиска в Google по запросам «эксперт по данным» («data scientist») и «разработчик программного обеспечения» («software engineer»).

7616 научных вакансий против 53 8893 по разработке ПО. Это по США, в других странах аналогичная картина.

Если верить Glassdoor (веб-сервис, с помощью которого можно мониторить уровень зарплат и ознакомиться с отзывами сотрудников о компаниях), ученые, занимающиеся данными, зарабатывают больше денег. Однако моя непроверенная гипотеза заключается в том, что вакансии в области данных в основном ориентированы на сотрудников очень высокой квалификации.

Хотя, кто спорит, если вам предложат миллион в OpenAI — соглашайтесь не раздумывая.

2. Нет единого мнения, что это вообще такое — «наука о данных»

Менеджмент компаний зачастую смутно представляет себе, что означает словосочетание «наука о данных». Также запросто возможно, учитывая специфические ограничения в бизнесе, заключающиеся в том, что бизнес не всегда может себе позволить строго следовать структуре ролей.

Это означает, что обязанности «эксперта по данным» весьма и весьма сильно различаются от компании к компании.

Условный набросок, что от вас может понадобиться в зависимости от бизнес-задач. В спектре между решением проблем бизнеса и исследованиями находятся такие профессии как Software Engineer ⇒ Data Engineer ⇒ Machine Learning Engineer ⇒ Data Scientist

Хотя идеальный спектр ролей между инженером-программистом и специалистом по данным можно представить, маловероятно, что в реальной жизни это будет воплощено в эталонном виде. Особенно это касается стартапов, проходящих процесс масштабирования, когда они только выстраивают инфраструктуру.

В итоге нанятые кандидаты работают над текущими проблемами компании, а не выполняют ту экспертную роль, на которую они, вообще говоря, нанимались.

У меня есть свидетельства от коллег (учёных, занимающихся данными), о том что пишут бэкэнд-код, как разработчики программного обеспечения. Я знаю других «исследователей данных», которые преуспели в решении финансовых вопросов своих компаний.

Это резко может контрастировать с вашими ожиданиями, особенно если они сформировались под влиянием конкурсов Kaggle.

3. Одиночество бегуна на длинные дистанции эксперта по данным

Большинству компаний просто не нужно столько экспертов данных, сколько инженеров-программистов. Другие компании наняли пока что только своего первого (и до поры до времени — единственного) специалиста по данным.

По этой причине многие исследователи данных работают в одиночку, даже если сидят за одним столом с разработчиками.

Это может затруднить получение обратной связи и второго мнения. Инженеры-программисты либо вообще не понимают прогностическое моделирование, либо слишком загружены совершенно другими проблемами.

Напротив, одним из преимуществ команды разработчиков ПО является возможность всегда сказать коллегам: «Я считаю, что нужно внедрить ABC в XYZ. Ваше мнение?».

Так что, будьте морально готовы обсуждать проблемы с самим собой или… с резиновой уточкой.

4. Data Science носит ярко выраженный исследовательский характер

Будьте готовы к неприятным разговорам с руководством на тему того, что то, над чем вы работали 2 недели — не будет использовано.

Работа и над решаемыми и над нерешаемыми проблемами — одно из фундаментальных отличий между разработкой программного обеспечения и ИИ.

С учётом ошибок и ограничений, присущих разработке ПО — до начала работ вы по большому счёту имеете представление, что реализуемо, а что нет. То же самое про Machine Learning уже не скажешь. Окажется ли модель эффективной — неизвестно до той поры, пока она не будет реализована.

5. Бизнес пока не готов к ИИ

Даже в эпоху, когда чуть ли не каждая крупная компания внедряет у себя искусственный интеллект, у большинства из них нет должной инфраструктуры для его поддержки.

Один мой знакомый руководитель отдела Data Science в интенсивно развивающемся стартапе недавно поделился своей стартаперской мудростью за рюмкой кофе:

Сначала вы определяете проблему, затем строите инфраструктуру, и только потом привлекаете экспертов по данным. И это всё происходит очень даже не быстро. (Не дословно)

Еще одна моя знакомая специалистка по data science в известной компании недавно посетовала в разговоре, что мол-де вынуждена обучать модель искусственного интеллекта на больших данных на своём ноутбуке, а не в облаке.

Если на новом месте, куда вы пришли, не решены некоторые специфические проблемы, а то и вообще компания не готова к внедрению в свои процессы науки о данных, — готовьтесь к тому, что создавать что-либо ценное придётся на пределе сил.

6. Программная инженерия даёт общие навыки

Стать младшим инженером-программистом — всё равно, что получить степень MBA в области технологий. Вы узнаёте всего понемногу.

Вы изучите базы данных, облачные технологии, развёртывание, безопасность и написание чистого кода.

Вы научитесь управлять сборкой программного обеспечения, наблюдая за своим скрам-лидом, старшим разработчиком или руководителем проекта. Вы получите наставничество.

Если вы попали в компанию с устоявшейся командой инженеров, почти гарантировано, что вы быстро повысите уровень своих навыков и получите маскимально общий опыт.

7. Разработка ПО как деятельность имеет гораздо более гибкий характер

Имея более целостный опыт работы с технологиями, разработка программного обеспечения предоставляет больше возможностей, когда вы решите, что пора что-то менять.

DevOps, безопасность, интерфейс, бэкэнд, распределенные системы, бизнес-аналитика, дата-инжиниринг, наука о данных…

Я знаю многих разработчиков, которые перешли от разработки программного обеспечения к data science. Если вы просматриваете описания заданий по data science, то сразу заметите, что они требуют много навыков, которые формируются разработке ПО.

Если вы можете создавать E2E проекты, вы также можете сделать больше, чем просто создать модель для конкурса в Kaggle. Вы можете взять эту модель, произвести её, настроить авторизацию и электронные платежи, а затем монетизировать. Это ваш собственный стартап.

Я никогда не скажу, что наука о данных бесполезна вне сферы своего непосредственного применения. Принятие решений на основе больших данных является просто убойным средством в наше время. Но это также приведёт к тому, что методы data science будут всё больше востребованы в другой работе, поскольку бизнес всё больше и больше ориентируется на большие данные.

8. Машинное обучение станет обычным инструментом для разработчиков ПО

По мере того, как ИИ становится удобнее и проще в использовании, разработчики программного обеспечения начнут использовать его для решения своих проблем.

Я могу научить (во второй половине дня) разработчика строить sklearn-классификаторы. Это не означает, что мой падаван создаст следующий AlphaGo, но это даёт ему альтернативу жёстко запрограммированной условной логике, основанной на пользовательском вводе.

Специалисты по большим данным имеют специальные знания, вроде статистики, у них есть особая интуиция относительно того, как работают модели. Но у DevOps и Security-инженеров также свои специализированные знания.

Я бы сказал, что тут дело не в том, насколько разнятся навыки, а в том, что одни используются реже, а другие чаще. Опытный инженер перемещается между специализациями на порядки быстрее, пока новичок осваивает с нуля.

Хотя я не думаю, что мы увидим полное слияние науки о данных с разработкой программного обеспечения. Скорее, что наука о данных станет ещё одной специальностью в сфере разработки ПО.

9. ИИ не заменит в обозримом будущем инженеров-программистов

Как бы глупо это сейчас ни звучало, в 2014-м я занялся разработкой программного обеспечения, из боязни, что ИИ сделает любую другую работу устаревшей.
И всё же с тех пор ближе к технобудущему мы пока что особо не приблизились. Внедрение технологий происходит медленно, а от сильного ИИ мы дальше, чем вы можете себе представить.

По сравнению с другими профессиями, машинное обучение еще дальше от автоматизации разработки ПО. Хотя у нас есть стартапы, создающие классные продукты, вроде автозавершения кода с поддержкой ИИ, сам кодинг как таковой — на самом деле не настоящая работа. Настоящая работа заключается в решении проблем с использованием технологий.

Пока что в эпоху предсингулярности, умение писать программы ещё надолго останется ценным и высокооплачиваемым навыком.

Заключение

Во-первых, это всё прежде всего моё ИМХО. Во-вторых, я в курсе, что смешал в одну кучу исследователей данных, инженеров по машинному обучению и разработчиков искусственного интеллекта — и я превосходно понимаю разницу между ними. И всё же в эти аргументы стоит вдумчиво вникнуть, ведь это ваша жизнь и ваша карьера.

Не принимайте сказанное мною слишком серьезно. Я бы предпочёл, чтобы вы исследовали этот вопрос и приняли собственное решение. Это часть деятельности любого эксперта по данным, в общем-то 🙂

В конце-концов, платят нам прежде всего за решение проблем.

Тренды в Data Scienсe 2020 / Блог компании SkillFactory / Хабр

Google Trends по запросу «data science»

Краткое изложение

  • По нашим оценкам, вакансии в advanced analytics насчитывают почти 1 миллион человек во всем мире, 291 тысяча из них в США.
  • За последние два года дефицит работ в области data science значительно сократился – были наняты около 800 тысяч специалистов, однако на данный момент десятки вакансий так и остаются нетронутыми, причем подавляющее большинство из них – в США.
  • Самый большой спрос на рабочих в области advanced analytics – в области залива Сан- Франциско с самыми высокими зарплатами и самым большим количеством вакансий, за ней следуют крупные городские центры вроде Нью-Йорка, Бостона, Вашингтона и Сиэтла.
  • Средняя заработная плата по стране у data scientists остается выше $100,000 – эта тенденция просматривается почти во всех штатах, удовлетворенность работой и престиж также остаются на высоком уровне.
  • Для подготовки специалистов в advanced analytics было создано больше ста образовательных программ.

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

Вступление

Вот уже последние несколько лет data science является одним из самых ярких трендов в бизнесе. В 2012 году Harvard Business Review назвали работу data scientists «самой сексуальной работой 21-го века». Многочисленные отчеты (1, 2, 3, 4) писали, что мир сталкивается с огромным дефицитом data scientists. Создавались буткемпы и университетские программы, чтобы решить вопросы, связанные с огромным спросом на навыки в этой области.

К «advanced analytics» мы относим всех, кто сам относит себя к data scientist, специалистам по машинному обучению или ИИ-исследователю.

Спрос и предложение data scientists – май 2020

Общее число рабочих в области advanced analytics

На сегодняшний день в мире насчитывается чуть менее одного миллиона рабочих в области advanced analytics (см. раздел методологии ниже), из которых 290 тысяч или же примерно 30% приходится на Соединенные Штаты Америки. На данный момент численность data scientists значительно превосходит численность инженеров по машинному обучению и исследователей ИИ как в США, так и во всем мире, однако и инженеры, и исследователи являются новыми на рынке труда и в будущем могут значительно вырасти.

Сравнение общего числа продвинутых аналитиков в мире в разбивке по должности, май 2020 г.

Открытые и дефицитные вакансии

На сегодняшний день на LinkedIn открыты около 86 тысяч вакансий в сфере advanced analytics, большая часть (53.4 тысячи) приходится на США. Интересно отметить, что США представляет собой непропорционально большое число открытых вакансий (62%) по сравнению с долей рабочих в advanced analytics во всем мире (30%), хоть это и можно списать на ложную методологию сбора данных (см. раздел методологии ниже).

Количество открытых ролей advanced analytics по сравнению с общим числом профессиональных сотрудников advanced analytics

Мы можем использовать число открытых вакансий (по сравнению с количеством имеющихся сотрудников) в качестве приблизительного показателя, чтобы понять сколько всего работников недостает. Из приведенного ниже графика видно, что открытых вакансий по всему миру на 9% больше, чем непосредственно сотрудников, в то время как в США это число достигает примерно 18.7%.

Сокращение дефицита

Сегодня в США насчитывают примерно 53 тысячи свободных рабочих мест в области advanced analytics. Однако, в августе 2018 года LinkedIn опубликовал отчет – на тот момент дефицит составлял около 151 тысячи рабочих мест. За последние два года дефицит значительно сократился – по всему миру была нанята примерно 831 тысяча профессионалов в области advanced analytics (см. ниже).

Apteo оценивает общее количество продвинутых аналитиков с течением времени

Дефицит продвинутых аналитиков в 2018 году по сравнению с 2020 годом

Распределение открытых вакансий и недостаток рабочих по городам США

Общее число специалистов и вакансий

Никого не удивит, что наибольшая часть работников в advanced analytics находятся в районе залива Сан-Франциско – примерно 45.7 тысяч человек, как и наибольшее количество открытых вакансий – около 8 тысяч. На втором месте идет Нью-Йоркская агломерация – около 38.8 тысяч сотрудников и 5.9 тысяч вакансий. На третьем месте район Большого Бостона – 15.9 тысяч сотрудников и 3.3 тысячи вакансий.

Самая высокая доля на душу населения

На первом месте район залива Сан-Франциско – 5.9 тысячи человек на миллион. На втором месте идет Сиэтл – 4.3 тысячи на миллион, завершает Бостон – 3.2 тысячи на миллион.

Наибольшая нехватка рабочей силы

Наибольший процент (39.2%) открытых вакансий – в городе Вашингтон.

Расширенная аналитика сотрудников и вакансий по городам

Заработная плата и удовлетворенность работой в США

Заработная плата в этой сфере варьируется по всей Америке. Основываясь на данных из различных источников, мы подсчитали, что средняя зарплата специалистов достигает примерно $114,000 в год, что соответствует примерно $14,000 в районе залива Сан-Франциско.

В 2020 году работа в data science заняла третье место по Америке по версии Glassdoor (сразу после Front End Engineer и Java Developer). С 2016 по 2019 года data scientists занимали первое место.

Образовательные программы и требуемые навыки

Для удовлетворения потребностей в бизнесе появилось множество новых образовательных программ. На данный момент существует как минимум 79 буткемпов, 62 программы бакалавриата и 111 магистерских программ, ориентированных на data science. Ниже мы перечислим наиболее упоминаемые программные средства и навыки для специалистов в области advanced analytics

Top Tools

  • Python
  • SQL
  • R
  • Spark
  • Cloud
  • AWS
  • Java
  • Tensorflow

Top Skills

  • Machine Learning / Regression
  • Statistics
  • Research
  • Prediction
  • Visualization
  • Recommendation
  • Optimization
  • Deep Learning
  • Natural Language Processing

Образовательные программы

Вывод

Очевидно, что data science продолжает быть крайне востребованной и на сегодняшний день. В то время как мир, судя по всему, быстро удовлетворяет этот спрос, по-прежнему существует острая нехватка рабочих в области advanced analytics. Интересно то, что возникают и новые должности типа инженера по машинному обучению (machine learning engineer) или ИИ-исследователя (A.I. researcher), и вполне вероятно, что для них потребуются дополнительные сотрудники, поскольку все больше компаний работают над внутренним продвижением data science.

Рост количества должностей отражает растущее желание организаций и компаний использовать данные для более компетентных решений. Хоть организации и нанимают все больше людей, крайне маловероятно, что все, кроме самых престижных компаний, смогут нанять достаточное количество сотрудников для удовлетворения своих бизнес потребностей.

Методология

Расчет занятости и дефицита

Для идентификации data scientists и открытых вакансий в data science, мы провели поиск по ключевым словам на LinkedIn по трем наиболее распространенным названиям вакансий, которые мы ассоциируем с математической, инженерной и аналитической работой, в которой, по нашему мнению, и заключается работа data scientist при помощи премиум аккаунта генерального директора и соучредителя Apteo Шанифа Дханани. Названия вакансий следующие – «data scientist», «инженер по машинному обучению» и «исследователь искусственного интеллекта».

«Data scientist» и «инженер по машинному обучению» также могут быть связаны с такими ключевыми словами как «data science» и «инженер МО», поэтому для предотвращения двойного подсчета мы использовали бинарный поиск – искали ровно один термин за раз, исключая все остальные термины. Например, мы соединили результаты из следующих двух запросов для поиска «data scientists»:

“data science” -”data scientist” -”machine learning engineer” -”ml engineer” -”ai researcher” and “data scientist” -”data science” -”machine learning engineer” -”ml engineer” -”ai researcher”

Поскольку LinkedIn отображает результаты только из своей расширенной сети, вполне вероятно, что результаты могут быть чуть более занижены по сравнению с реальными цифрами, однако мы считаем, что и эти цифры дают приблизительную оценку расчетных значений, которая может быть полезна при анализе рынка труда в области data science.

Источники информации:

  • Данные поиска работ на LinkedIn, полученные 1-го мая 2020 года.
  • Google (численность населения)

Расчет заработной платы

Единого правдивого источника для расчета заработной платы просто не существует. Правительство США, рекрутинговые компании и независимые отчеты публикуют разные значения о заработной плате advanced analytics. Для наших отчетов мы собрали как можно больше независимых значений как на государственном, так и на национальном уровне и использовали среднее значение.

Источники информации:

Рост занятости

Как и в случае с расчетом заработной платы, за последние годы имеется крайне мало информации о количестве сотрудников в advanced analytics. Используя множество различных источников, мы вычислили наилучшую оценку количества работников за каждый год. В некоторых случаях мы использовали внешние данные в качестве наших, в других – мы делали вывод на основе кривой с использованием имеющихся у нас данных.

Источники информации:

Образовательные программы и требуемые навыки

Следует снова проговорить, что было сложно оценить образовательные программы. В каждом университете свое название для программы по data science, поэтому нам приходилось субъективно определять, какие программы включать в список, а какие исключать из него. Мы попытались отобрать те программы, основанные на математической строгости, вычислительной работе и аналитике. Мы исследовали различные отчеты и агрегаторы для сбора данных по университетским программам, а также различные буткемпы для определения суммарных показателей для 2020-го года.

Источники информации:

Узнайте подробности, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы SkillFactory:

Читать еще

Что такое наука о данных? Руководство по науке о данных для новичков

По мере того, как мир вступал в эру больших данных, потребность в их хранении также возрастала. До 2010 года это было главной проблемой и заботой предприятий отрасли. Основное внимание уделялось созданию инфраструктуры и решений для хранения данных. Теперь, когда Hadoop и другие фреймворки успешно решили проблему хранения, акцент сместился на обработку этих данных. Секретный соус здесь — Data Science. Все идеи, которые вы видите в голливудских научно-фантастических фильмах, могут действительно воплотиться в жизнь с помощью Data Science.Наука о данных — это будущее искусственного интеллекта. Поэтому очень важно понимать, что такое Data Science и как это может повысить ценность вашего бизнеса. Вышел

Edureka 2019 Tech Career Guide! Самые популярные должности, точные схемы обучения, обзор отрасли и многое другое в руководстве. Скачать сейчас.

В этом блоге я затрону следующие темы.

К концу этого блога вы сможете понять, что такое Data Science, и ее роль в извлечении значимой информации из сложных и больших наборов данных, окружающих нас.Чтобы получить более глубокие знания о Data Science, вы можете записаться на Data Science Certification Training от Edureka с круглосуточной поддержкой и пожизненным доступом.

Что такое Data Science простыми словами?

Наука о данных — это сочетание различных инструментов, алгоритмов и принципов машинного обучения с целью обнаружения скрытых закономерностей в необработанных данных. Но чем это отличается от того, что статистики делали в течение многих лет?

Ответ заключается в разнице между объяснением и прогнозированием.

Как видно из рисунка выше, аналитик данных обычно объясняет, что происходит, обрабатывая историю данных. С другой стороны, Data Scientist не только выполняет исследовательский анализ, чтобы извлечь из него выводы, но также использует различные передовые алгоритмы машинного обучения для определения наступления определенного события в будущем. Специалист по анализу данных будет смотреть на данные под разными углами, иногда с ранее неизвестных.

Итак, Data Science в основном используется для принятия решений и прогнозов с использованием прогнозной причинно-следственной аналитики, предписывающей аналитики (прогнозирующей плюс наука о принятии решений) и машинного обучения.

  • Прогнозирующая причинно-следственная аналитика — Если вам нужна модель, которая может предсказывать возможности определенного события в будущем, вам необходимо применить прогнозирующую причинно-следственную аналитику. Скажем, если вы предоставляете деньги в кредит, то вероятность того, что клиенты сделают будущие платежи по кредиту вовремя, вызывает у вас беспокойство. Здесь вы можете построить модель, которая может выполнять прогнозный анализ истории платежей клиента, чтобы предсказать, будут ли будущие платежи своевременными или нет.
  • предписывающая аналитика: Если вам нужна модель, обладающая интеллектом для принятия собственных решений и способностью модифицировать ее с помощью динамических параметров, вам, безусловно, потребуется предписывающая аналитика для нее. Это относительно новое направление — предоставление советов. Другими словами, он не только предсказывает, но и предлагает ряд предписанных действий и связанных с ними результатов.
    Лучшим примером этого является беспилотный автомобиль Google, о котором я тоже говорил ранее.Данные, собранные с помощью транспортных средств, можно использовать для обучения беспилотных автомобилей. Вы можете запускать алгоритмы на этих данных, чтобы внести в них интеллект. Это позволит вашему автомобилю принимать решения, например, когда повернуть, какой путь выбрать, когда замедлить или ускориться.
  • Машинное обучение для прогнозирования — Если у вас есть данные о транзакциях финансовой компании и вам нужно построить модель для определения будущей тенденции, тогда лучше всего подойдут алгоритмы машинного обучения. Это подпадает под парадигму обучения с учителем.Это называется контролируемым, потому что у вас уже есть данные, на основе которых вы можете обучать свои машины. Например, модель обнаружения мошенничества может быть обучена с использованием исторической записи мошеннических покупок.
  • Машинное обучение для обнаружения закономерностей — Если у вас нет параметров, на основе которых вы можете делать прогнозы, вам нужно найти скрытые закономерности в наборе данных, чтобы иметь возможность делать значимые прогнозы. Это не что иное, как модель без учителя, поскольку у вас нет предопределенных ярлыков для группировки.Наиболее распространенный алгоритм, используемый для обнаружения шаблонов, — это кластеризация.
    Допустим, вы работаете в телефонной компании, и вам нужно установить сеть, поставив вышки в регионе. Затем вы можете использовать метод кластеризации, чтобы найти те местоположения вышек, которые обеспечат получение всеми пользователями сигнала оптимальной мощности.

Давайте посмотрим, как соотношение описанных выше подходов различается как для анализа данных, так и для науки о данных. Как вы можете видеть на изображении ниже, анализ данных в определенной степени включает описательную аналитику и прогнозирование.С другой стороны, наука о данных больше касается прогнозирующей причинно-следственной аналитики и машинного обучения.

Теперь, когда вы знаете, что такое Data Science, давайте выясним, почему это вообще было необходимо.

Почему наука о данных?

  • Обычно данные, которые у нас были, были в основном структурированными и небольшими по размеру, которые можно было анализировать с помощью простых инструментов бизнес-аналитики. В отличие от данных в традиционных системах, которые в основном были структурированными, сегодня большая часть данных неструктурирована или частично структурирована.Давайте посмотрим на тенденции данных на приведенном ниже изображении, которое показывает, что к 2020 году более 80% данных будут неструктурированными.

    Эти данные генерируются из различных источников, таких как финансовые журналы, текстовые файлы, мультимедийные формы, датчики и инструменты. Простые инструменты бизнес-аналитики не способны обрабатывать такой огромный объем и разнообразие данных. Вот почему нам нужны более сложные и продвинутые аналитические инструменты и алгоритмы для обработки, анализа и извлечения из них значимой информации.

Это не единственная причина, по которой Data Science стала такой популярной. Давайте копнем глубже и посмотрим, как Data Science используется в различных областях.

  • Как насчет того, чтобы вы могли понять точные требования ваших клиентов на основе существующих данных, таких как история просмотров клиента, история покупок, возраст и доход. Несомненно, у вас были все эти данные и раньше, но теперь, имея огромный объем и разнообразие данных, вы можете более эффективно обучать модели и более точно рекомендовать продукт своим клиентам.Разве это не было бы замечательно, ведь это принесет больше бизнеса вашей организации?
  • Давайте рассмотрим другой сценарий, чтобы понять роль Data Science в принятии решений. Как насчет того, чтобы у вашей машины хватило ума отвезти вас домой? Беспилотные автомобили собирают данные в реальном времени с датчиков, включая радары, камеры и лазеры, для создания карты своего окружения. На основе этих данных он принимает решения, например, когда ускоряться, когда снижать скорость, когда обгонять, где делать поворот, — с использованием передовых алгоритмов машинного обучения.
  • Давайте посмотрим, как Data Science можно использовать в прогнозной аналитике. Возьмем, к примеру, прогноз погоды. Данные с кораблей, самолетов, радаров, спутников можно собирать и анализировать для построения моделей. Эти модели не только предсказывают погоду, но и помогают предсказывать возникновение любых стихийных бедствий. Это поможет вам заранее принять соответствующие меры и спасти множество драгоценных жизней.

Давайте взглянем на инфографику ниже, чтобы увидеть все области, в которых Data Science производит свое впечатление.

Кто такой специалист по данным?

На сайте Data Scientists доступно несколько определений. Проще говоря, Data Scientist — это тот, кто практикует искусство Data Science. Термин «специалист по данным» был придуман после учета того факта, что специалист по данным получает много информации из научных областей и приложений, будь то статистика или математика.

Чем занимается специалист по данным?

Специалисты по обработке данных — это те, кто решает сложные проблемы с данными, имея большой опыт в определенных научных дисциплинах.Они работают с несколькими элементами, связанными с математикой, статистикой, информатикой и т.д. (хотя они могут не быть экспертами во всех этих областях). Они широко используют новейшие технологии для поиска решений и выводов, которые имеют решающее значение для роста и развития организации. Специалисты по обработке данных представляют данные в гораздо более удобной форме по сравнению с необработанными данными, доступными им как в структурированных, так и в неструктурированных формах.

Чтобы узнать больше о Data Scientist, вы можете обратиться к статье Кто такой Data Scientist?

Двигаясь дальше, давайте теперь обсудим BI.Я уверен, что вы тоже слышали о Business Intelligence (BI). Часто Data Science путают с BI. Я обозначу несколько кратких и четких различий между ними, которые помогут вам лучше понять. Давайте посмотрим.

Бизнес-аналитика (BI) против науки о данных

  • BI в основном анализирует предыдущие данные, чтобы найти ретроспективный анализ и понимание тенденций бизнеса. BI позволяет получать данные из внешних и внутренних источников, готовить их, выполнять запросы и создавать информационные панели для ответов на такие вопросы, как квартальный анализ доходов или бизнес-задачи.BI может оценить влияние определенных событий в ближайшем будущем.
  • Наука о данных — это более дальновидный подход, исследовательский способ с упором на анализ прошлых или текущих данных и прогнозирование будущих результатов с целью принятия обоснованных решений. Он отвечает на открытые вопросы о том, «что» и «как» происходят события.

Давайте посмотрим на некоторые контрастные черты.

Функции Business Intelligence (BI) Data Science
Источники данных Структурированные
(обычно SQL, часто хранилище данных)
как структурированные, так и неструктурированные2 (как структурированные, так и неструктурированные) , облачные данные, SQL, NoSQL, текст)

Подход Статистика и визуализация Статистика, машинное обучение, анализ графиков, нейролингвистическое программирование (НЛП)
Фокус Прошлое и настоящее Настоящее и будущее
Инструменты Pentaho, Microsoft BI, QlikView, R RapidMiner, BigML, Weka, R

Это все о том, что такое Data Science, теперь давайте разберемся с жизненным циклом данных Наука.

Распространенная ошибка, которую делают в проектах Data Science, — это поспешный сбор и анализ данных без понимания требований или даже правильной постановки бизнес-проблемы. Поэтому для вас очень важно соблюдать все этапы жизненного цикла Data Science, чтобы обеспечить бесперебойную работу проекта.

Жизненный цикл науки о данных

Вот краткий обзор основных фаз жизненного цикла науки о данных:


Этап 1 — Обнаружение:
Перед тем, как приступить к проекту, важно понять различные спецификации, требования, приоритеты и требуемый бюджет.Вы должны уметь задавать правильные вопросы. Здесь вы оцениваете, есть ли у вас необходимые ресурсы с точки зрения людей, технологий, времени и данных для поддержки проекта. На этом этапе вам также необходимо сформулировать бизнес-проблему и сформулировать начальные гипотезы (IH) для проверки.

Этап 2 — Подготовка данных: На этом этапе вам нужна аналитическая песочница, в которой вы можете выполнять аналитику на протяжении всего проекта.Перед моделированием вам необходимо изучить, предварительно обработать и обработать данные. Далее вы выполните ETLT (извлечение, преобразование, загрузку и преобразование), чтобы получить данные в песочнице. Давайте посмотрим на последовательность статистического анализа ниже.

Вы можете использовать R для очистки, преобразования и визуализации данных. Это поможет вам обнаружить выбросы и установить связь между переменными. После того, как вы очистили и подготовили данные, пора провести на них исследовательскую аналитику.Посмотрим, как этого добиться.

Этап 3 — Планирование модели: Здесь вы определите методы и приемы для построения отношений между переменными. Эти отношения создадут основу для алгоритмов, которые вы реализуете на следующем этапе. Вы будете применять исследовательскую аналитику данных (EDA), используя различные статистические формулы и инструменты визуализации.

Давайте посмотрим на различные инструменты планирования модели.

  1. R имеет полный набор возможностей моделирования и обеспечивает хорошую среду для построения интерпретируемых моделей.
  2. Службы анализа SQL могут выполнять аналитику в базе данных, используя общие функции интеллектуального анализа данных и базовые модели прогнозирования.
  3. SAS / ACCESS может использоваться для доступа к данным из Hadoop и используется для создания повторяемых и многократно используемых блок-схем моделей.

Несмотря на то, что на рынке представлено много инструментов, R является наиболее часто используемым инструментом.

Теперь, когда вы получили представление о природе ваших данных и решили, какие алгоритмы будут использоваться. На следующем этапе вы примените алгоритм и построите модель.

Этап 4 — Построение модели: На этом этапе вы разработаете наборы данных для целей обучения и тестирования. Вы рассмотрите, хватит ли ваших существующих инструментов для запуска моделей или потребуется более надежная среда (например, быстрая и параллельная обработка). Вы проанализируете различные методы обучения, такие как классификация, ассоциация и кластеризация, для построения модели.

Построение модели можно выполнить с помощью следующих инструментов.

Этап 5 — Ввод в эксплуатацию: На этом этапе вы доставляете заключительные отчеты, брифинги, код и техническую документацию. Кроме того, иногда пилотный проект также реализуется в производственной среде в реальном времени. Это даст вам четкое представление о производительности и других связанных ограничениях в небольшом масштабе до полного развертывания.


Этап 6 — Сообщите о результатах:
Теперь важно оценить, смогли ли вы достичь своей цели, которую планировали на первом этапе.Итак, на последнем этапе вы определяете все ключевые результаты, сообщаете заинтересованным сторонам и определяете, являются ли результаты проекта успешными или неудачными на основе критериев, разработанных на этапе 1.

Теперь я возьму тематическое исследование, чтобы объяснить вам различные этапы, описанные выше.

Пример из практики: Профилактика диабета

Что, если бы мы могли предсказать возникновение диабета и заранее принять соответствующие меры для его предотвращения?
В этом варианте использования мы будем прогнозировать возникновение диабета, используя весь жизненный цикл, который мы обсуждали ранее.Давайте пройдемся по различным этапам.

Шаг 1:

  • Сначала мы соберем данные на основе истории болезни пациента, как описано в Этапе 1. Вы можете обратиться к образцу данных ниже.
  • Как видите, у нас есть различные атрибуты, указанные ниже.

Атрибуты:

  1. npreg — количество беременностей
  2. глюкоза — концентрация глюкозы в плазме
  3. bp — артериальное давление
  4. кожа — толщина кожной складки трицепса
  5. bmi — индекс массы тела
  6. ped — диабет функция родословной
  7. возраст — Возраст
  8. доход — Доход

Шаг 2:

  • Теперь, когда у нас есть данные, нам нужно очистить и подготовить данные для анализа данных.
  • В этих данных много несоответствий, таких как пропущенные значения, пустые столбцы, резкие значения и неправильный формат данных, которые необходимо очистить.
  • Здесь мы организовали данные в единую таблицу с разными атрибутами, чтобы они выглядели более структурированными.
  • Давайте посмотрим на примеры данных ниже.

В этих данных много несоответствий.

  1. В столбце npreg «единица» записывается словами, тогда как она должна быть в числовой форме, например 1.
  2. В столбце bp одно из значений 6600, что невозможно (по крайней мере, для человека), так как bp не может подняться до такого огромного значения.
  3. Как видите, столбец Доход пуст и не имеет смысла для прогнозирования диабета. Следовательно, иметь его здесь излишне, и его следует удалить из таблицы.
  • Итак, мы очистим и предварительно обработаем эти данные путем удаления выбросов, заполнения нулевых значений и нормализации типа данных.Если вы помните, это наша вторая фаза — предварительная обработка данных.
  • Наконец, мы получаем чистые данные, как показано ниже, которые можно использовать для анализа.

Шаг 3:

Теперь давайте проведем некоторый анализ, как обсуждалось ранее в Этапе 3.

  • Сначала мы загрузим данные в аналитическую песочницу и применим к ним различные статистические функции. Например, в R есть такие функции, как , описать , которые дают нам количество пропущенных значений и уникальных значений.Мы также можем использовать итоговую функцию, которая предоставит нам статистическую информацию, такую ​​как среднее, медианное, диапазон, минимальное и максимальное значения.
  • Затем мы используем методы визуализации, такие как гистограммы, линейные графики, ящичные диаграммы, чтобы получить четкое представление о распределении данных.

Шаг 4:

Теперь, основываясь на выводах, полученных на предыдущем шаге, лучше всего подходит для такого рода проблем дерево решений. Посмотрим как?

  • С тех пор у нас уже есть основные атрибуты для анализа, такие как npreg, bmi и т. Д., поэтому мы будем использовать технику обучения с учителем для построения модели здесь.
  • Кроме того, мы особенно использовали дерево решений, потому что оно учитывает все атрибуты за один раз, как те, которые имеют линейную связь, так и те, которые имеют нелинейную связь. В нашем случае у нас есть линейная связь между npreg и age, , тогда как нелинейная связь между npreg и ped .
  • Модели деревьев решений также очень надежны, поскольку мы можем использовать различные комбинации атрибутов для создания различных деревьев, а затем, наконец, реализовать одно с максимальной эффективностью.

Давайте посмотрим на наше дерево решений.

Здесь наиболее важным параметром является уровень глюкозы, поэтому это наш корневой узел. Теперь текущий узел и его значение определяют следующий важный параметр, который необходимо принять. Это продолжается до тех пор, пока мы не получим результат в виде pos или neg . Pos означает, что склонность к диабету положительная, а отрицательная означает, что склонность к диабету отрицательная.

Если вы хотите узнать больше о реализации дерева решений, обратитесь к этому блогу. Как создать идеальное дерево решений

Шаг 5:

На этом этапе мы запустим небольшой пилотный проект, чтобы проверить, результаты соответствующие.Мы также будем искать ограничения производительности, если таковые имеются. Если результаты неточны, то нам нужно перепланировать и перестроить модель.

Шаг 6:

После успешного выполнения проекта мы поделимся результатами для полного развертывания.

Быть специалистом по анализу данных легче сказать, чем сделать. Итак, давайте посмотрим, что вам нужно, чтобы стать специалистом по данным. Специалисту по данным требуются навыки в основном в трех основных областях, как показано ниже.

Как вы можете видеть на изображении выше, вам необходимо приобрести различные твердые и мягкие навыки.Вы должны хорошо разбираться в статистике и математике , чтобы анализировать и визуализировать данные. Излишне говорить, что Machine Learning составляет основу Data Science и требует от вас хороших навыков. Кроме того, вам необходимо хорошо разбираться в домене , с которым вы работаете, чтобы четко понимать бизнес-проблемы. Ваша задача на этом не заканчивается. Вы должны уметь реализовывать различные алгоритмы, которые требуют хороших навыков кодирования и . Наконец, как только вы приняли определенные ключевые решения, вам важно довести их до сведения заинтересованных сторон.Итак, хорошее общение определенно добавит вам очков к вашим навыкам.

Я призываю вас посмотреть этот видеоурок по Data Science, в котором объясняется, что такое Data Science, и все, что мы обсуждали в блоге. Давай, наслаждайся видео и расскажи мне, что ты думаешь.

Что такое наука о данных? Курс Data Science — Учебное пособие для начинающих | Edureka

В этом видео-курсе Edureka Data Science вы познакомитесь с потребностями науки о данных, что такое наука о данных, сценариями использования науки о данных для бизнеса, бизнес-аналитикой и наукой о данных, инструментами анализа данных, жизненным циклом науки о данных вместе с демонстрацией.

В конце концов, не будет ошибкой сказать, что будущее принадлежит специалистам по данным. Прогнозируется, что к концу 2018 года потребуется около миллиона специалистов по анализу данных. Все больше и больше данных предоставят возможности для принятия ключевых бизнес-решений. Вскоре это изменит наш взгляд на мир, заваленный данными вокруг нас. Поэтому специалист по данным должен быть высококвалифицированным и мотивированным для решения самых сложных проблем.

Надеюсь, вам понравилось читать мой блог и вы поняли, что такое Data Science.Ознакомьтесь с нашим курсом по сертификации Data Science здесь, который включает в себя живое обучение под руководством инструктора и практический опыт работы с проектами.

.

Определение науки о данных: что, где и как наука о данных

Наука о данных — общепризнанный термин, который отчаянно нуждается в распространении.

Наука о данных — это термин, который избегает какого-либо единственного полного определения, что затрудняет его использование, особенно если цель состоит в том, чтобы использовать его правильно. В большинстве статей и публикаций этот термин используется свободно, предполагая, что он понятен всем. Однако наука о данных — ее методы, цели и приложения — развиваются со временем и технологиями.25 лет назад наука о данных относилась к сбору и очистке наборов данных, а затем к применению статистических методов к этим данным. В 2018 году наука о данных превратилась в область, которая включает в себя анализ данных, прогнозную аналитику, интеллектуальный анализ данных, бизнес-аналитику, машинное обучение и многое другое.

На самом деле, поскольку ни одно определение полностью не отвечает всем требованиям, его определение должны дать те, кто занимается наукой о данных.

Признавая необходимость четкого объяснения науки о данных, команда 365 Data Science Team разработала инфографику What-Where-Who.Мы определяем ключевые процессы в науке о данных и распространяем информацию в этой области. Вот наша интерпретация науки о данных.

data science infographic data science infographic

Конечно, это может показаться слишком большим объемом информации, но на самом деле это не так. В этой статье мы разберем науку о данных и построим ее до целостной и управляемой концепции. Потерпите нас!

Наука о данных, «объяснимая менее чем за минуту», выглядит так.

У вас есть данные. Чтобы использовать эти данные при принятии решений, они должны быть актуальными, хорошо организованными и желательно цифровыми.Как только ваши данные будут согласованы, вы приступите к их анализу, созданию информационных панелей и отчетов, чтобы лучше понять эффективность вашего бизнеса. Затем вы заглядываете в будущее и начинаете генерировать прогнозную аналитику. С помощью прогнозной аналитики вы оцениваете потенциальные сценарии будущего и творчески прогнозируете поведение потребителей.

Примечание автора: вы можете узнать больше о взаимодействии науки о данных и бизнеса в нашей статье 5 Основы бизнеса для специалистов по данным.

Но давайте начнем с начала.

Данные в науке о данных

Прежде всего, всегда есть данные. Данные — основа науки о данных; это материал, на котором основаны все анализы. В контексте науки о данных есть два типа данных: традиционные и большие данные.

Традиционные данные — это данные, которые структурированы и хранятся в базах данных, которыми аналитики могут управлять с одного компьютера; он представлен в виде таблицы, содержащей числовые или текстовые значения. Фактически, термин «традиционный» — это то, что мы вводим для ясности.Это помогает подчеркнуть различие между большими данными и другими типами данных.

Большие данные, с другой стороны, … больше традиционных данных, и это не в тривиальном смысле. От разнообразия (числа, текст, но также изображения, аудио, мобильные данные и т. Д.) До скорости (извлекаемой и вычисляемой в реальном времени) до объема (измеряемого в тера-, пета-, эксабайтах) — большие данные обычно распределяется по сети компьютеров.

Тем не менее, давайте определим, что-где-и-кто в науке о данных характеризует каждый.

Что вы делаете с данными в науке о данных?

Традиционные данные в Data Science

Традиционные данные хранятся в системах управления реляционными базами данных.

what is traditional data what is traditional data

При этом, прежде чем они будут готовы к обработке, все данные проходят предварительную обработку. Это необходимая группа операций, которые преобразуют необработанные данные в формат, более понятный и, следовательно, полезный для дальнейшей обработки. Общие процессы:

  • Сбор необработанных данных и их сохранение на сервере

Это нетронутые данные, которые ученые не могут сразу проанализировать.Эти данные могут поступать из опросов или с помощью более популярной системы автоматического сбора данных, например файлов cookie на веб-сайте.

  • Обозначение класса наблюдений

Состоит из упорядочивания данных по категориям или маркировки точек данных для правильного типа данных. Например, числовой или категориальный.

  • Очистка данных / очистка данных

Работа с противоречивыми данными, такими как неправильно написанные категории и пропущенные значения.

Если данные несбалансированы так, что категории содержат неравное количество наблюдений и, следовательно, не являются репрезентативными, применение методов балансировки данных , таких как извлечение равного количества наблюдений для каждой категории и подготовка их к обработке, устраняет проблему. .

Переупорядочивание точек данных для устранения нежелательных шаблонов и дальнейшего повышения эффективности прогнозирования. Это применяется, когда, например, если первые 100 наблюдений в данных относятся к первым 100 людям, которые использовали веб-сайт; данные не рандомизированы, и возникают закономерности из-за выборки.

Большие данные в науке о данных

Когда дело доходит до больших данных и науки о данных, есть некоторое совпадение подходов, используемых в традиционной обработке данных, но есть также много различий.

Во-первых, большие данные хранятся на многих серверах и намного сложнее.

What big data What big data

Для того, чтобы заниматься наукой о данных с большими данными, предварительная обработка еще более важна, поскольку сложность данных намного выше. Вы заметите, что концептуально некоторые этапы аналогичны традиционной предварительной обработке данных, но это неотъемлемая часть работы с данными .

  • Соберите данные
  • Обозначьте данные класса

Имейте в виду, что большие данные чрезвычайно разнообразны, поэтому вместо «числовых» и «категориальных» метки бывают «текстовыми», «цифровыми». данные изображения »,« цифровые видеоданные »,« цифровые аудиоданные »и так далее.

Методы здесь тоже очень разнообразны; например, вы можете убедиться, что цифровое изображение готово к обработке; или цифровое видео, или…

При сборе данных в массовом масштабе это нацелено на то, чтобы любая конфиденциальная информация в данных оставалась частной, не мешая анализу и извлечению информации.Процесс включает в себя сокрытие исходных данных случайными и ложными данными, что позволяет ученым проводить анализ без ущерба для личных данных. Естественно, ученый может делать это и с традиционными данными, и иногда это так, но с большими данными информация может быть гораздо более конфиденциальной, что маскирует гораздо более актуальную.

Откуда берутся данные?

Традиционные данные могут быть получены из базовых записей клиентов или исторической информации о ценах на акции.

Однако большие данные повсюду. Постоянно растущее число компаний и отраслей используют и генерируют большие данные. Рассмотрим онлайн-сообщества, например Facebook, Google и LinkedIn; или данные финансовой торговли. Сетки измерения температуры в различных географических точках также представляют собой большие данные, а также машинные данные с датчиков в промышленном оборудовании. И, конечно же, носимые устройства.

Кто обрабатывает данные?

Специалисты по данным, которые занимаются необработанными данными и предварительной обработкой, созданием баз данных и их обслуживанием, могут называться другим именем.Но хотя их названия похожи по звучанию, есть ощутимые различия в ролях, которые они занимают. Обратите внимание на следующее.

Data Architects и Data Engineers (и Big Data Architects, и Big Data Engineers, соответственно) имеют решающее значение на рынке науки о данных.

Первый создает базу данных с нуля; они определяют способ получения, обработки и использования данных. Следовательно, инженер данных использует работу архитекторов данных как ступеньку и обрабатывает (предварительно обрабатывает) доступные данные.Это люди, которые обеспечивают чистоту и организацию данных, а также их готовность к работе с аналитиками.

Администратор базы данных , с другой стороны, — это человек, который контролирует поток данных в базу данных и из нее. Конечно, с большими данными почти весь этот процесс автоматизирован, поэтому нет реальной необходимости в человеке-администраторе. Администратор базы данных имеет дело в основном с традиционными данными.

Тем не менее, как только обработка данных завершена, а базы данных чистые и организованные, начинается настоящая наука о данных.

Наука о данных

Есть также два способа просмотра данных: с намерением объяснить поведение, которое уже произошло, и вы собрали для него данные; или использовать данные, которые у вас уже есть, чтобы предсказать будущее поведение, которое еще не произошло.

data science infographic data science infographic

Наука о данных, объясняющая прошлое

Business Intelligence

Перед тем, как наука о данных перейдет к предиктивной аналитике, она должна взглянуть на модели поведения, которые обеспечивает прошлое, проанализировать их, чтобы получить представление и указать путь для прогнозирования.Бизнес-аналитика фокусируется именно на этом: предоставлении основанных на данных ответов на такие вопросы, как: Сколько единиц было продано? В каком регионе было продано больше всего товаров? Какие товары где продаются? Каковы результаты электронного маркетинга в прошлом квартале с точки зрения CTR и доходов? Как это соотносится с показателями того же квартала прошлого года?

Хотя в названии Business Intelligence нет «науки о данных», это часть науки о данных, и не в каком-либо тривиальном смысле.

Что делает Business Intelligence?

Конечно, аналитики бизнес-аналитики могут применять Data Science для измерения эффективности бизнеса. Но для того, чтобы аналитик бизнес-аналитики смог этого добиться, он должен использовать определенные методы обработки данных.

Отправной точкой всей науки о данных являются данные. Когда соответствующие данные находятся в руках аналитика бизнес-аналитики (ежемесячный доход, клиент, объем продаж и т. Д.), Он должен количественно оценить наблюдения, рассчитать ключевые показатели эффективности и изучить меры для извлечения информации из своих данных.

Наука о данных — это рассказывание истории

Помимо обработки строго числовой информации, наука о данных и, в частности, бизнес-аналитика, связана с визуализацией результатов и созданием легко усваиваемых изображений, поддерживаемых только наиболее релевантными числами. В конце концов, все уровни управления должны уметь понимать суть данных и информировать их при принятии решений.

what is business intelligence, BI what is business intelligence, BI

Аналитики бизнес-аналитики создают информационные панели и отчеты, сопровождаемые графиками, диаграммами, картами и другими сопоставимыми визуализациями, чтобы представить результаты, относящиеся к текущим бизнес-целям.

Чтобы узнать больше о визуализации данных, прочтите эту статью о типах диаграмм или перейдите к нашим руководствам «Как визуализировать числовые данные с помощью гистограмм и визуализировать данные с помощью столбчатых, круговых диаграмм и диаграмм Парето».

Где используется бизнес-аналитика?

Оптимизация цен и наука о данных

В частности, аналитики применяют науку о данных для информирования таких вещей, как методы оптимизации цен. Они извлекают соответствующую информацию в режиме реального времени, сравнивают ее с историей и предпринимают соответствующие действия.Рассмотрите поведение руководства отеля: руководство поднимает цены на номера в периоды, когда многие люди хотят посетить отель, и снижает их, когда целью является привлечение посетителей в периоды низкого спроса.

Управление запасами и наука о данных

Наука о данных и бизнес-аналитика неоценимы для решения проблемы избытка или недостатка предложения. Углубленный анализ прошлых торговых операций позволяет определить сезонность и время года с наибольшим объемом продаж, что приводит к внедрению эффективных методов управления запасами, отвечающих требованиям при минимальных затратах.

Кто занимается бизнес-аналитикой данных?

Аналитик BI в основном занимается анализом прошлых исторических данных и составлением отчетов.

Консультант по бизнес-аналитике часто бывает просто «сторонним бизнес-аналитиком». Многие компании передают свои отделы обработки данных на аутсорсинг, поскольку они не нуждаются в них или не хотят их поддерживать. Консультанты по бизнес-аналитике были бы аналитиками бизнес-аналитики, если бы они были наняты, однако их работа более разнообразна, поскольку они переходят от одного проекта к другому. Динамический характер их ролей дает консультанту по бизнес-аналитике иную точку зрения, и в то время как аналитик бизнес-аналитики обладает узкоспециализированными знаниями (т.д., глубина), консультант по бизнес-аналитике вносит свой вклад в широту науки о данных.

Разработчик BI — это человек, который использует более сложные инструменты программирования, такие как Python и SQL, для создания анализов, специально разработанных для компании. Это третья по популярности должность в команде бизнес-аналитиков.

Наука о данных предсказывает будущее

Прогнозная аналитика в науке о данных опирается на объяснительный анализ данных, который мы обсуждали до сих пор.После подготовки отчетов и информационных панелей бизнес-аналитики и извлечения из них информации эта информация становится основой для прогнозирования будущих значений. И точность этих прогнозов заключается в используемых методах.

Напомним различие между традиционными данными и большими данными в науке о данных.

Мы можем провести аналогичное различие в отношении прогнозной аналитики и ее методов: традиционные методы науки о данных и машинное обучение. Один имеет дело в первую очередь с традиционными данными, а другой — с большими данными.

Традиционные методы прогнозирования в Data Science: что это такое?

Традиционные методы прогнозирования включают классические статистические методы прогнозирования — линейный регрессионный анализ, логистический регрессионный анализ, кластеризацию, факторный анализ и временные ряды. Результат каждого из них используется в более сложной аналитике машинного обучения, но давайте сначала рассмотрим их по отдельности.

Небольшая заметка. Некоторые в отрасли обработки данных также называют некоторые из этих методов машинным обучением, но в этой статье машинное обучение относится к более новым, умным и лучшим методам, таким как глубокое обучение.

traditional methods what traditional methods what

Линейная регрессия

В науке о данных модель линейной регрессии используется для количественной оценки причинно-следственных связей между различными переменными, включенными в анализ. Например, соотношение между ценами на жилье, размером дома, районом и годом постройки. Модель рассчитывает коэффициенты, с помощью которых можно прогнозировать стоимость нового дома, если у вас есть соответствующая информация.

Если вам интересно геометрическое представление простой модели линейной регрессии, просмотрите связанное руководство.

Логистическая регрессия

Поскольку невозможно выразить все отношения между переменными как линейные, наука о данных использует такие методы, как логистическая регрессия, для создания нелинейных моделей. Логистическая регрессия работает с нулями и единицами. Компании применяют алгоритмы логистической регрессии для фильтрации кандидатов на вакансии в процессе отбора. Если алгоритм оценивает, что вероятность того, что потенциальный кандидат будет хорошо работать в компании в течение года, превышает 50%, он предсказывает 1 или успешную заявку.В противном случае он будет предсказывать 0.

Кластерный анализ

Этот метод исследования данных применяется, когда наблюдения в форме данных группируются в соответствии с некоторыми критериями. Кластерный анализ учитывает сходство некоторых наблюдений и способствует обнаружению новых значимых предикторов, которые не входили в исходную концептуализацию данных.

Факторный анализ

Если кластеризация — это группировка наблюдений вместе, факторный анализ — это группировка признаков вместе.Наука о данных прибегает к использованию факторного анализа для уменьшения размерности проблемы. Например, если в анкете из 100 пунктов каждые 10 вопросов относятся к одной общей позиции, факторный анализ определит эти 10 факторов, которые затем могут быть использованы для регрессии, которая даст более интерпретируемый прогноз. Таким образом интегрированы многие методы науки о данных.

Анализ временных рядов

Временные ряды — популярный метод отслеживания развития конкретных значений во времени.Эксперты в области экономики и финансов используют его, потому что их предметом являются цены на акции и объем продаж — переменные, которые обычно отображаются в зависимости от времени.

Где наука о данных находит применение традиционным методам прогнозирования?

Применение соответствующих методик чрезвычайно широко; Наука о данных проникает во все большее количество отраслей. Тем не менее, две важные области заслуживают того, чтобы стать частью обсуждения.

Пользовательский опыт (UX) и наука о данных

Когда компании запускают новый продукт, они часто разрабатывают опросы, которые измеряют отношение клиентов к этому продукту.Анализ результатов после того, как команда бизнес-аналитики сгенерировала свои информационные панели, включает в себя группировку наблюдений по сегментам (например, по регионам), а затем анализ каждого сегмента отдельно для извлечения значимых прогнозных коэффициентов. Результаты этих операций часто подтверждают вывод о том, что продукт требует небольших, но существенно разных корректировок в каждом сегменте, чтобы максимально удовлетворить потребности клиентов.

Прогнозирование объема продаж

Это тип анализа, в котором используются временные ряды.Данные о продажах собираются до определенной даты, и специалист по анализу данных хочет знать, что может произойти в следующем периоде продаж или на год вперед. Они применяют математические и статистические модели и проводят несколько симуляций; Эти симуляции предоставляют аналитику сценарии будущего. Это лежит в основе науки о данных, потому что на основе этих сценариев компания может делать более точные прогнозы и внедрять адекватные стратегии.

Кто использует традиционные методы прогнозирования?

Специалист по данным.Но имейте в виду, что это название также относится к человеку, который использует методы машинного обучения для аналитики. Большая часть работы перетекает от одной методологии к другой.

С другой стороны, аналитик данных — это человек, который готовит расширенные виды анализа, которые объясняют закономерности в уже появившихся данных и упускают из виду основную часть прогнозной аналитики. Конечно, если вы хотите узнать больше о том, чем занимается специалист по обработке данных и как его работа соотносится с другими карьерными направлениями в области науки о данных, прочитайте наше полное руководство о том, как начать карьеру в области науки о данных .

Машинное обучение и наука о данных

Машинное обучение — это современный подход к науке о данных. И это правильно.

Основное преимущество машинного обучения перед любыми традиционными методами обработки данных заключается в том, что в его основе лежит алгоритм и алгоритм . Это направления, которые использует компьютер, чтобы найти модель, которая как можно лучше соответствует данным. Разница между машинным обучением и традиционными методами науки о данных заключается в том, что мы не даем компьютеру инструкций о том, как найти модель; он берет алгоритм и использует его указания, чтобы самостоятельно узнать, как найти указанную модель.В отличие от традиционной науки о данных, машинное обучение требует небольшого участия человека. На самом деле машинное обучение, особенно алгоритмы глубокого обучения, настолько сложны, что люди не могут по-настоящему понять, что происходит «внутри».

Что такое машинное обучение в науке о данных?

Алгоритм машинного обучения похож на процесс проб и ошибок, но его особенность заключается в том, что каждое последующее испытание по крайней мере так же хорошо, как и предыдущее. Но имейте в виду, что для того, чтобы хорошо учиться, машина должна пройти через сотни тысяч проб и ошибок, при этом частота ошибок постоянно снижается.

output correct value objective fun value output correct value objective fun value

После завершения обучения машина сможет применять сложную вычислительную модель, которую она выучила, к новым данным в результате высоконадежных прогнозов.

Существует три основных типа машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением.

machine learning what machine learning what

Обучение с учителем

Обучение с учителем основывается на использовании размеченных данных. Машина получает данные, связанные с правильным ответом; если производительность машины не дает правильного ответа, алгоритм оптимизации корректирует вычислительный процесс, и компьютер выполняет еще одну попытку.Имейте в виду, что обычно машина делает это одновременно с 1000 точками данных.

Вспомогательные векторные машины, нейронные сети, глубокое обучение, модели случайного леса и байесовские сети — все это экземпляры контролируемого обучения.

Неконтролируемое обучение

Когда данные слишком велики, или специалист по анализу данных находится под слишком большим давлением ресурсов, чтобы маркировать данные, или они вообще не знают, что это за ярлыки, наука о данных прибегает к использованию обучения без учителя .Он заключается в том, чтобы дать машине данные без меток и попросить ее извлечь из них информацию. Это часто приводит к определенному разделению данных в соответствии с их свойствами. Другими словами, он сгруппирован.

Обучение без учителя чрезвычайно эффективно для обнаружения закономерностей в данных, особенно того, что люди, использующие традиционные методы анализа, могут упустить.

Наука о данных часто использует совместно контролируемое и неконтролируемое обучение, причем неконтролируемое обучение маркирует данные, а контролируемое обучение находит лучшую модель, соответствующую данным.Одним из примеров этого является обучение с половинным учителем.

Обучение с подкреплением

Это тип машинного обучения, в котором основное внимание уделяется производительности (ходить, видеть, читать), а не точности. Всякий раз, когда машина работает лучше, чем раньше, она получает вознаграждение, но если она работает неоптимально, алгоритмы оптимизации не корректируют вычисления. Подумайте о щенке, обучающем команды. Если он следует команде, он получает удовольствие; если он не выполняет команду, угощение не приходит.Поскольку лакомства вкусные, собака постепенно улучшит выполнение команд. Тем не менее, вместо минимизации ошибки обучение с подкреплением максимизирует вознаграждение.

Где машинное обучение применяется в мире науки о данных и бизнеса?

Обнаружение мошенничества

С помощью машинного обучения, в частности обучения с учителем, банки могут брать прошлые данные, маркировать транзакции как законные или мошеннические и обучать модели обнаруживать мошеннические действия.Когда эти модели обнаруживают даже малейшую вероятность кражи, они отмечают транзакции и предотвращают мошенничество в режиме реального времени.

Удержание клиентов

С помощью алгоритмов машинного обучения корпоративные организации могут узнать, какие клиенты могут покупать у них товары. Это означает, что магазин может эффективно предлагать скидки и «индивидуальный подход», сводя к минимуму затраты на маркетинг и увеличивая прибыль. На ум приходят несколько известных имен: Google и Amazon.

Кто использует машинное обучение в науке о данных?

Как упоминалось выше, специалист по данным глубоко вовлечен в разработку машинных алгоритмов, но на этом этапе есть еще одна звезда.

Инженер по машинному обучению. Это специалист, который ищет способы применения современных вычислительных моделей, разработанных в области машинного обучения, для решения сложных задач, таких как бизнес-задачи, задачи по науке о данных, компьютерное зрение, беспилотные автомобили, робототехника, и так далее.

Языки программирования и программное обеспечение в науке о данных

Для работы с данными и наукой о данных необходимы две основные категории инструментов: языки программирования и программное обеспечение.

data science infographic data science infographic

Языки программирования в науке о данных

Знание языка программирования позволяет специалистам по данным разрабатывать программы, которые могут выполнять определенные операции. Самым большим преимуществом языков программирования является то, что мы можем повторно использовать программы, созданные для выполнения одного и того же действия несколько раз.

R, Python и MATLAB в сочетании с SQL охватывают большинство инструментов, используемых при работе с традиционными данными, бизнес-аналитикой и традиционной наукой о данных.

R и Python — два самых популярных инструмента во всех суб-дисциплинах науки о данных. Их самым большим преимуществом является то, что они могут манипулировать данными и интегрированы в различные программные платформы данных и обработки данных. Они подходят не только для математических и статистических вычислений; они приспосабливаемы.

Фактически, Python был назван IEEE (крупнейшей в мире профессиональной технической организацией, занимающейся развитием технологий) «большим Kahuna» 2019 года и занял первое место в ежегодном интерактивном рейтинге 10 лучших языков программирования.Тем не менее, если вы хотите узнать все о самом популярном языке программирования, ознакомьтесь с нашим всеобъемлющим Руководством по программированию на Python.

SQL — король, однако, когда дело доходит до работы с системами управления реляционными базами данных, потому что он был специально создан для этой цели.

SQL наиболее выгоден при работе с традиционными историческими данными, например, при подготовке анализа бизнес-аналитики.

MATLAB — четвертый по важности инструмент для науки о данных.Он идеально подходит для работы с математическими функциями или матричными манипуляциями.

Большие данные в науке о данных, конечно же, обрабатываются с помощью R и Python, но люди, работающие в этой области, часто владеют другими языками, такими как Java или Scala. Эти два очень полезны при объединении данных из нескольких источников.

JavaScript, C и C ++, в дополнение к упомянутым выше, часто используются, когда отрасль науки о данных, в которой работает специалист, включает машинное обучение.Они быстрее, чем R и Python, и предоставляют большую свободу.

Примечание автора: если вам нужно отточить свои навыки программирования, вы можете посетить наши учебные материалы по Python и SQL.

Программное обеспечение в науке о данных

В науке о данных программное обеспечение или программные решения — это инструменты, адаптированные для конкретных бизнес-потребностей.

Excel — это инструмент, применимый к более чем одной категории: традиционные данные, бизнес-аналитика и наука о данных. Точно так же SPSS — очень известный инструмент для работы с традиционными данными и применения статистического анализа.

Apache Hadoop, Apache Hbase и Mongo DB, с другой стороны, представляют собой программное обеспечение, предназначенное для работы с большими данными.

Power BI, SaS, Qlik и особенно Tableau — это первоклассные примеры программного обеспечения, разработанного для визуализации бизнес-аналитики.

Что касается прогнозной аналитики, EViews в основном используется для работы с эконометрическими моделями временных рядов, а Stata — для академических статистических и эконометрических исследований, где постоянно применяются такие методы, как регрессионный, кластерный и факторный анализ.

Это наука о данных

Наука о данных — это ускользающий термин, охватывающий все, от обработки данных — традиционных или больших — до объяснения закономерностей и прогнозирования поведения. Наука о данных осуществляется с помощью традиционных методов, таких как регрессия и кластерный анализ, или с помощью неортодоксальных методов машинного обучения.

Это обширная область, и мы надеемся, что вы на один шаг ближе к пониманию того, насколько она всеобъемлющая и взаимосвязана с человеческой жизнью.

Готовы сделать первый шаг к карьере в области науки о данных?

Ознакомьтесь с полной программой Data Science прямо сегодня.Мы также предлагаем бесплатную предварительную версию программы Data Science. Вы получите 12 часов бесплатного контента для начинающих и продвинутых. Это отличный способ узнать, подходит ли вам программа.

data science training data science training

.

Учебное пособие по науке о данных для начинающих | Learn Data Science

Хотите начать свою карьеру в качестве специалиста по данным, но не знаете, с чего начать? Вы находитесь в нужном месте! Привет, ребята, добро пожаловать в этот замечательный блог, посвященный науке о данных, он даст вам толчок в мир науки о данных. Чтобы получить более глубокие знания о Data Science, вы можете зарегистрироваться на Data Science Certification Training от Edureka с круглосуточной поддержкой и пожизненным доступом. Давайте посмотрим, что мы будем изучать сегодня:

    1. Почему Data Science?
    2. Что такое Data Science?
    3. Кто такой специалист по данным?
    4. Тенденции вакансий
    5. Как решить проблему в Data Science?
    6. Компоненты Data Science
    7. Должности специалистов по данным

Почему Data Science?

Говорят, что специалист по анализу данных — «самая сексуальная работа 21 века».Зачем? Потому что последние несколько лет компании хранили свои данные. И это, сделанное каждой компанией, внезапно привело к взрыву данных. Сегодня данных стало больше всего.

Но что вы будете делать с этими данными? Давайте разберемся с этим на примере:

Допустим, у вас есть компания, которая производит мобильные телефоны. Вы выпустили свой первый продукт, и он стал хитом. У каждой технологии есть жизнь, верно? Итак, теперь пора придумать что-то новое.Но вы не знаете, что нужно усовершенствовать, чтобы оправдать ожидания пользователей, которые с нетерпением ждут вашего следующего релиза?

Кто-то в вашей компании предлагает использовать отзывы пользователей и выбирать то, что, по нашему мнению, пользователи ожидают в следующем выпуске.

Входит в науку о данных, вы применяете различные методы интеллектуального анализа данных, такие как анализ настроений и т. Д., И получаете желаемые результаты.

И не только это: вы можете принимать более обоснованные решения, вы можете сократить свои производственные затраты, предлагая эффективные способы и давая своим клиентам то, что они действительно хотят!

Таким образом, наука о данных может получить бесчисленные преимущества, и поэтому для вашей компании стало абсолютно необходимо иметь группу специалистов по анализу данных.Подобные требования привели к тому, что сегодня тема «Data Science» стала предметом обсуждения, и поэтому мы пишем для вас этот блог, посвященный Data Science Tutorial. 🙂

Why Data Science - Data Science Tutorial - Edureka

Учебник по науке о данных: что такое наука о данных?

Термин Data Science появился недавно в связи с развитием математической статистики и анализа данных. Путешествие было потрясающим, мы так много сделали сегодня в области Data Science.

В ближайшие несколько лет мы сможем предсказывать будущее, как утверждают исследователи из Массачусетского технологического института.Благодаря своим потрясающим исследованиям они уже достигли важной вехи в предсказании будущего. Теперь они могут предсказать, что произойдет в следующей сцене фильма, с помощью своей машины! Как? Что ж, на данный момент вам может быть немного сложно понять, но не волнуйтесь к концу этого блога, у вас также будет ответ на этот вопрос.

Возвращаясь к прошлому, мы говорили о Data Science, она также известна как наука, управляемая данными, которая использует научные методы, процессы и системы для извлечения знаний или идей из данных в различных формах, т.е.е либо структурированные, либо неструктурированные.

Что это за методы и процессы, мы собираемся обсудить сегодня в этом учебном пособии по науке о данных.

Двигаясь вперед, кто занимается этим мозговым штурмом или кто занимается наукой о данных? Специалист по данным .

Кто такой специалист по данным?

Data Scientist - Data Science Tutorial - Edureka

Scientist - Data Science Tutorial - Edureka

Как видно на изображении, специалист по данным — мастер на все руки! Он должен хорошо разбираться в математике, работать в сфере бизнеса, а также иметь отличные навыки в области компьютерных наук.Испуганный? Не будет. Хотя вам нужно хорошо разбираться во всех этих областях, но даже если это не так, вы не одиноки! Не существует такого понятия, как «законченный специалист по данным». Если говорить о работе в корпоративной среде, то работа распределяется между командами, при этом каждая команда имеет свой собственный опыт. Но дело в том, что вы должны владеть хотя бы одной из этих областей. Кроме того, даже если эти навыки для вас в новинку, расслабьтесь! Это может занять время, но эти навыки можно развить, и поверьте мне, это стоит того времени, которое вы потратите.Зачем? Что ж, давайте посмотрим на тенденции в вакансиях.

Тенденции работы специалистов по данным

Data Science Job Trends - Data Science Tutorial - Edureka

Что ж, график говорит сам за себя, не только есть много вакансий для специалистов по данным, но и они хорошо оплачиваются! И нет, наш блог не будет касаться цифр зарплат, идите в Google!

Что ж, теперь мы знаем, что изучение науки о данных действительно имеет смысл не только потому, что это очень полезно, но и потому, что в ближайшем будущем вы сделаете в этом большую карьеру.

Давайте начнем наше путешествие в изучении науки о данных прямо сейчас и начнем с:

Как решить проблему в науке о данных?

Итак, давайте обсудим, как подойти к проблеме и решить ее с помощью науки о данных.Проблемы Data Science решаются с помощью алгоритмов. Но самое главное, чтобы судить, какой алгоритм использовать и когда его использовать?

По сути, существует 5 типов проблем, с которыми вы можете столкнуться в науке о данных.

Questions - Data Science Tutorial - Edureka

Давайте рассмотрим каждый из этих вопросов и соответствующие алгоритмы один за другим:

Это A или B?

В этом вопросе мы имеем в виду проблемы, на которые есть категорический ответ, так как в задачах, имеющих фиксированное решение, ответом может быть либо да, либо нет, 1 или 0, интересно, может быть или не интересно.

Например:

В. Что вы будете пить, чай или кофе?

Здесь нельзя сказать, что вам нужен кокс! Поскольку в вопросе предлагается только чай или кофе, и, следовательно, вы можете ответить только на один из них.

Когда у нас есть только два типа ответов, а именно «да» или «нет», 1 или 0, это называется 2 — классификация. С более чем двумя вариантами она называется многоклассовой классификацией.

В заключение, всякий раз, когда вы сталкиваетесь с вопросами, ответ на которые категоричен, в Data Science вы будете решать эти проблемы, используя алгоритмы классификации.

Следующая проблема в этом руководстве по науке о данных, с которой вы можете столкнуться, может быть, что-то вроде этого,

Это странно?

Вопросы, подобные этим, относятся к шаблонам и могут быть решены с помощью алгоритмов обнаружения аномалий.

Например:

Попробуйте связать проблему «это странно?» на эту диаграмму

Anomaly Detection - Data Science Tutorial - Edureka

Что странного в приведенном выше шаблоне? Красный парень, не так ли?

Каждый раз, когда в шаблоне происходит разрыв, алгоритм отмечает это конкретное событие, чтобы мы могли его просмотреть.Реальное применение этого алгоритма было реализовано компаниями, выпускающими кредитные карты, где любая необычная транзакция пользователя помечается для проверки. Следовательно, обеспечение безопасности и сокращение человеческих усилий по слежке.

Давайте посмотрим на следующую задачу в этом руководстве по науке о данных, не бойтесь, она связана с математикой!

Сколько или сколько?

Те из вас, кто не любит математику, с облегчением! Алгоритмы регрессии здесь!

Итак, всякий раз, когда возникает проблема, которая может требовать цифр или числовых значений, мы решаем ее с помощью алгоритмов регрессии.

Например:

Temperature - Data Science Tutorial - Edureka

Какая будет температура завтра?

Поскольку мы ожидаем числовое значение в ответ на эту проблему, мы решим ее, используя алгоритмы регрессии.

Продолжая изучение этого Руководства по науке о данных, давайте обсудим следующий алгоритм:

Как это организовано?

Допустим, у вас есть данные, но вы не знаете, как их использовать. Отсюда вопрос, как это организовано?

Ну, можно решить с помощью алгоритмов кластеризации.Как они решают эти проблемы? Давайте посмотрим:

Clustering Algorithms - Data Science Tutorial - Edureka

Алгоритмы кластеризации группируют данные по общим характеристикам. Например, на приведенной выше диаграмме точки организованы по цветам. Точно так же, будь то любые данные, алгоритмы кластеризации пытаются понять, что между ними общего, и, следовательно, «кластеризовать» их вместе.

Следующая и последняя проблема в этом учебном пособии по науке о данных, с которой вы можете столкнуться:

Что мне делать дальше?

Каждый раз, когда вы сталкиваетесь с проблемой, при которой ваш компьютер должен принять решение на основе проведенного вами обучения, она задействует алгоритмы подкрепления.

Например:

Temperature - Data Science Tutorial - Edureka

Ваша система контроля температуры, когда она должна решить, должна ли она понижать температуру в помещении или повышать ее.

Как работают эти алгоритмы?

Эти алгоритмы основаны на психологии человека. Нам нравится, когда нас ценят, верно? Компьютеры реализуют эти алгоритмы и ожидают, что их оценят по достоинству. Как? Посмотрим.

Вместо того, чтобы учить компьютер, что делать, вы позволяете ему решать, что делать, и в конце этого действия вы даете положительный или отрицательный отзыв.Следовательно, вместо того, чтобы определять, что правильно и что неправильно в вашей системе, вы позволяете своей системе «решать», что делать, и, в конце концов, даете обратную связь.

Это как дрессировать собаку. Вы не можете контролировать то, что делает ваша собака, верно? Но вы можете ругать его, когда он поступает неправильно. Точно так же можно похлопать его по спине, когда он сделает то, что от него ожидается.

Давайте применим это понимание к приведенному выше примеру. Представьте, что вы тренируете систему контроля температуры, поэтому всякий раз, когда ответ «нет». количество людей в комнате должно увеличиться, система должна принять меры.Либо понизьте температуру, либо увеличьте ее. Поскольку наша система ничего не понимает, она принимает случайное решение, допустим, повышает температуру. Поэтому вы оставляете отрицательный отзыв. Благодаря этому компьютер понимает, что когда в комнате увеличивается количество людей, никогда не повышать температуру.

Аналогично другим действиям вы должны дать обратную связь. С каждой обратной связью ваша система изучает и, следовательно, становится более точной в своем следующем решении, этот тип обучения называется обучением с подкреплением.

Итак, алгоритмы, которые мы изучили выше в этом руководстве по науке о данных, включают обычную «практику обучения». Мы заставляем машину учиться правильно?

Что такое машинное обучение?

Machine Learning - Data Science Tutorial - Edureka

Это тип искусственного интеллекта, который позволяет компьютерам учиться самостоятельно, то есть без явного программирования. С помощью машинного обучения машины могут обновлять свой собственный код всякий раз, когда они сталкиваются с новой ситуацией.

Завершая этот учебник по науке о данных, мы теперь знаем, что наука о данных опирается на машинное обучение и его алгоритмы для его анализа.Как мы делаем анализ, где мы это делаем. В Data Science также есть некоторые компоненты, которые помогают нам решать все эти вопросы.

Перед этим позвольте мне ответить, как MIT может предсказывать будущее, потому что я думаю, что вы, ребята, могли бы объяснить это сейчас. Итак, исследователи из Массачусетского технологического института обучили свою модель с помощью фильмов, а компьютеры узнали, как люди реагируют или как они действуют, прежде чем совершить действие.

Например, когда вы собираетесь пожать кому-то руку, вы вынимаете руку из кармана или, возможно, опираетесь на этого человека.По сути, ко всему, что мы делаем, прилагается «предварительное действие». Этим «предварительным действиям» обучался компьютер с помощью фильмов. И, просматривая все больше и больше фильмов, их компьютеры могли предсказать, каким будет следующее действие персонажа.

Легко, правда? Позвольте мне задать вам еще один вопрос в этом руководстве по науке о данных! Какой алгоритм машинного обучения они должны были здесь реализовать?

Компоненты Data Science

1.Наборы данных

Что вы будете анализировать? Данные, правда? Вам нужно много данных, которые можно анализировать, эти данные передаются в ваши алгоритмы или аналитические инструменты. Вы получаете эти данные из различных исследований, проведенных в прошлом.

2. R Studio R Studio Logo - Data Science Tutorial - Edureka

R — это язык программирования и программная среда с открытым исходным кодом для статистических вычислений и графики, поддерживаемая R Foundation. Язык R используется в среде IDE под названием R Studio.

Почему это используется?

  • Язык программирования и статистики Programming Statistics - Data Science Tutorial - Edureka
    • Помимо использования в качестве языка статистики, он также может использоваться как язык программирования для аналитических целей.
  • Анализ и визуализация данных Analysis Visualization - Data Science Tutorial - Edureka
    • Помимо того, что R является одним из самых распространенных инструментов аналитики, R также является одним из самых популярных инструментов, используемых для визуализации данных.
  • Простой и легкий в освоении Easy - Data Science Tutorial - Edureka
    • R — простой и легкий в освоении, чтении и записи

Open - Data Science Tutorial - Edureka

  • бесплатно Открытый исходный код
    • R является примером FLOSS (Free / Libre and Open Source Software), что означает, что можно свободно распространять копии этого программного обеспечения, читать его исходный код, изменять его и т. Д.
  • R Studio было достаточно для анализа, пока наши наборы данных не стали огромными, но в то же время неструктурированными. Этот тип данных получил название Big Data.

    3. Большие данные

    Big Data - Data Science Tutorial - Edureka

    Большие данные — это термин для набора наборов данных, настолько больших и сложных, что их становится трудно обрабатывать с помощью имеющихся инструментов управления базами данных или традиционных приложений обработки данных.

    Теперь, чтобы приручить эти данные, нам пришлось придумать инструмент, потому что ни одно традиционное программное обеспечение не могло обрабатывать такие данные, и поэтому мы придумали Hadoop.

    4. Hadoop

    Hadoop - Data Science Tutorial - Edureka

    Hadoop — это среда, которая помогает нам хранить и обрабатывать больших наборов данных параллельно и в режиме распределения.

    Давайте сосредоточимся на хранящей и обрабатывающей части Hadoop.

    Хранилище

    Хранилище в Hadoop обрабатывается HDFS, то есть распределенной файловой системой Hadoop. Он обеспечивает высокую доступность в распределенной экосистеме. Он работает следующим образом: он разбивает входящую информацию на блоки и распределяет их по разным узлам в кластере, обеспечивая распределенное хранение.

    Процесс

    MapReduce — это сердце обработки Hadoop. Алгоритмы выполняют две важные задачи: отображение и сокращение. Картографы разбивают задачу на более мелкие задачи, которые обрабатываются параллельно. После того, как все картографы выполняют свою долю работы, они объединяют свои результаты, а затем эти результаты сокращаются до более простого значения с помощью процесса Reduce. Чтобы узнать больше о Hadoop, прочтите наш учебник Hadoop серии блогов .

    Если мы используем Hadoop в качестве хранилища в Data Science, становится трудно обрабатывать ввод с помощью R Studio из-за его неспособности хорошо работать в распределенной среде, поэтому у нас есть Spark R.

    5. Spark R

    Это пакет R, который обеспечивает легкий способ использования Apache Spark с R. Почему вы будете использовать его поверх традиционных приложений R? Потому что он обеспечивает реализацию распределенного фрейма данных, которая поддерживает такие операции, как выбор, фильтрация, агрегирование и т. Д., Но с большими наборами данных.

    Сделайте передышку прямо сейчас! Мы закончили техническую часть этого Руководства по науке о данных, давайте посмотрим на нее с точки зрения вашей работы. Думаю, вы бы уже погуглили зарплаты специалиста по данным, но все же давайте обсудим рабочие роли, которые доступны вам как специалисту по данным.

    Должностные обязанности Data Scientist

    Вот некоторые из наиболее известных должностей Data Scientist:

    • Data Scientist
    • Data Engineer
    • Data Architect
    • Data Administrator
    • Data Analyst
    • Business Analyst
    • Data / Analytics Менеджер
    • Business Intelligence Manager

    На диаграмме Payscale.com в этом Руководстве по науке о данных ниже показана средняя заработная плата Data Scientist в разбивке по квалификациям в США и Индии.

    Пришло время повысить квалификацию в области науки о данных и анализа больших данных, чтобы воспользоваться карьерными возможностями в области науки о данных, которые появляются на вашем пути. На этом мы подошли к концу учебного блога по Data Science. Я надеюсь, что этот блог был информативным и принес вам дополнительную пользу. Пришло время войти в мир науки о данных и стать успешным специалистом по анализу данных.

    В Edureka есть специально подобранный курс Data Science , который поможет вам получить опыт в таких алгоритмах машинного обучения, как кластеризация K-средних, деревья решений, случайный лес, наивный байесовский метод.Вы познакомитесь с концепциями статистики, временных рядов, интеллектуального анализа текста, а также познакомитесь с глубоким обучением. Новые партии для этого курса скоро начнутся !!

    Есть вопрос для нас в Руководстве по науке о данных? Пожалуйста, отметьте это в разделе комментариев, и мы свяжемся с вами.

    .

    Как заниматься наукой о данных без степени | Джейсон Юнг

    Теперь вы должны лучше понимать науку о данных и статистические методы. На этапе 2 вы хотите углубиться и сосредоточиться на машинном обучении. Я обнаружил, что онлайн-ресурсы, такие как Coursera , обычно не охватывают так много, как курс университетского уровня. К счастью, лаборатория искусственного интеллекта Stanford предлагает потрясающие онлайн-курсы бесплатно. Таким образом, вы можете бесплатно смотреть лекции мирового уровня, конспекты лекций и многие другие материалы курса.Поэтому я рекомендую вам пройти курс Coursera и одновременно посмотреть лекции Стэнфордского университета, если они доступны. Например, DeepLearning.ai на Coursera дает вам очень хорошую практическую часть глубокого обучения, тогда как курс Stanford CS231n Computer Vision углубляется гораздо глубже.

    На этом этапе возьмите следующее:

    Опять же, есть и другие ресурсы, такие как DataCamp, Udacity, edX и fast.ai, которые вы можете изучить, чтобы изучить различные темы.

    На этом этапе вам следует подготовиться к собеседованию и продолжить изучение новых и более глубоких тем.Если вы освоили материалы до фазы 2, я думаю, у вас должно быть достаточно знаний, чтобы подать заявку на работу начального уровня. Однако есть еще несколько вещей, которые имеют решающее значение для прохождения собеседования.

    Во-первых, личные проекты. Если вы участвуете в программе по науке о данных, большинство занятий заставляет вас выполнять проекты машинного обучения, которые очень хороши для практики ваших навыков и демонстрации работодателям того, что вы сделали. Поэтому я действительно предлагаю вам попробовать несколько личных проектов, самый простой из которых — Kaggle.Кроме того, даже если в этом нет необходимости, я предлагаю вам иметь несколько примеров кода и проектов, которые вы завершили на Github, чтобы показать их будущим работодателям.

    Во-вторых, вы, скорее всего, будете опрошены SQL. Когда я начал работать в GoDaddy, я не слишком много знал SQL. Когда я проходил собеседование, я только немного узнал о W3Schools.com, CodeAcademy и задавая вопросы на собеседовании по SQL. Несмотря на то, что это зависит от компаний, SQL не так важен, как ваши навыки машинного обучения и программирования.Этому относительно легко научиться на работе. Посетите Leetcode.com, чтобы попрактиковаться в SQL и программировании.

    Наконец, на этом этапе у вас должно быть достаточно знаний для изучения различных тем машинного обучения и более глубокого изучения. Вы должны сосредоточиться на той теме, которая кажется вам интересной, будь то RNN, CNN, NLP и т. Д. Что касается меня, то я сейчас пытаюсь изучить обучение с подкреплением.

    .

    Leave a Comment

    Ваш адрес email не будет опубликован.