Dyzzet|
C++
Data Science
Алгоритмы Темы · Блог · YouTube
13 августа 2021
Не хот-дог

В сериале «Кремниевая долина» (S04E04) Цзань Янг показывает приложение, которое распознаёт еду. Эрлих даже обещает подарить ему за это палапу. К сожалению, оказывается, что приложение лишь определяет, хот-дог это или нет.

© 2017 Home Box Office, Inc.

Но вот, например, что пишет в своей книге «Машинное обучение без лишних слов» Андрей Бурков.

Одноклассовая классификация

Иногда в наличии имеются только данные одного класса и нужно обучить модель, которая будет отличать данные этого класса от всех остальных данных.

Одноклассовая классификация, также известная как унарная классификация, или моделирование класса, решает задачу идентификации объектов определённого класса среди всех объектов через обучение на наборе, содержащем только объекты этого класса. Эта задача сложнее и отличается от традиционной задачи классификации, целью которой является выявление различий между двумя или более классами с помощью обучающего набора, содержащего объекты всех классов. Типичным примером задачи одноклассовой классификации может служить классификация допустимого трафика в защищённой компьютерной сети. В этом сценарии обычно имеется очень немного примеров трафика, порождаемого атакующим злоумышленником, если такие примеры вообще есть. Зато примеров допустимого трафика часто сколько угодно. Алгоритмы обучения одноклассовой классификации используются для обнаружения выбросов, аномалий и новых данных.

То есть Цзань Янгу проще было сделать нейросеть, которая определяла бы несколько видов чего-то, а не просто «хот-дог — не хот-дог». Просто небольшой факт.

11 декабря 2020
Парадокс Симпсона

Корреляция измеряет связь между двумя переменными. Важная оговорка: при прочих равных [Грас-20, 91]. Попробуем в этой заметке разобраться. С котиками.

Возьмём данные о проектах на краудфандинговой площадке «Кикстартер» на январь 2018 [Kaggle].

Категория
Количество проектов
Количество успешных проектов
Доля успешных проектов
Программное обеспечение
3041
371
12 %
Веб-разработка
3900
258
7 %

Читать далее →
2 ноября 2020
Квартет Энскомба

Квартет Энскомба (это английский математик) — четыре набора точек на плоскости. Их особенность в том, что каждый из четырёх наборов сильно отличается от других графически, но некоторые простые статистики совпадают.

Читать далее →
29 июля 2020
Алгоритмы многоруких бандитов

Многорукие бандиты — это альтернатива A/B-тестированию, то есть методу обоснованного выбора между рядом вариантов. С одной стороны, это простая вещь, с другой — она имеет много применений.

Читать далее →
20 июля 2020
Распределения вероятностей

Интерактивные графики функций плотности вероятностей и функций распределения. Нормальное распределение (Гаусса), распределение Пуассона, экспоненциальное распределение, распределение Вейбулла и бета-распределение.

Читать далее →
28 июня 2020
Анализ рейтингов сериалов

Небольшая практика по разведочному анализу данных (exploratory data analysis).

«Теория Большого взрыва» (The Big Bang Theory, 2007—2019)

Данные должны быть в формате CSV (comma-separated values):

season, episode, rating
     0,       1,    6.7
     1,       1,    8.3
     1,       2,    8.4
     1,       3,    7.8
     1,       4,    8.2
     1,       5,    8.0
   ...,     ...,    ...

Для начала расставим рейтинги серий в таблице и раскрасим ячейки в соответствии с ними, таким образом получим тепловую карту (heat map). На языке R это легко сделать с помощью функции heatmap.2, заодно она строит гистограмму.

Читать далее →
© MMXI—MMXXIII. RSS. Поддержать сайт
Светлая тема / тёмная тема