ВСТАВЬ НАЧАЛО ВОПРОСА В СТРОКУ «ПОИСК». ПОПРОБУЙ ВПИСАТЬ ВОПРОС ВРУЧНУЮ, ЕСЛИ НЕ НАХОДИТ ОТВЕТ.
| ВОПРОС | ОТВЕТ |
|---|---|
| Необходимо вычислить 95% доверительный интервал для следующих условий: 50 - среднее, 9 - дисперсия, 500 - размер выборки. | нижнее значение порога 49.21, верхнее значения порога 50.79 |
| Посчитайте вероятность (в долях) выпадения 3-x очков 4 раза при 7 подбрасываниях шестигранного кубика. | 0.0156 |
| Какое распределение носит величина, если есть 2 возможных исхода и вероятность одного из них p, а другого q=1-p? | Распределение Бернулии |
| Посчитайте вероятность (в долях) выпадения 2-х решек при 10 подбрасываниях обычной монеты. | 0.0439 |
| Какого размера целевой и контрольной группы достаточно для регистрации статистически значимого результата? | 4720 |
| Какое количество пользователей из целевой группы видели старый дизайн? | 1965 |
| Пересекаются ли доверительные интервалы для сегментов? | да |
| Отвергаем или принимаем нулевую гипотезу? | принимаем |
| В бустинге или бэггинге наиболее приоритетно использовать более глубокие деревья? | бэггинг |
| В датасете диабет, с каким параметром наибольшая корреляция у целевой переменной Outcome? (написать как в DataFrame хранится) | Glucose |
| В каких семействах алгоритмов классификации прогноз основывается на основании метрик близости точек | Метрические |
| В среднем, требуемая глубина деревьев в бустинге ***, чем в бэггинге: | меньше |
| В чем заключается процесс обучения алгоритма k ближайших соседей? | Запоминание всех объектов обучающей выборки |
| В чем отличие распределение Стьюдента от нормального распределения? | Более тяжелые хвосты |
| Взвешенная сумма относительной ошибки в задачи регрессии это? | WAPE |
| Выберите непараметрический тест: | Тест Манна-Уитни |
| Для каких значений k возможна ситуация, когда все точки относятся к одному класс? | Слишком большое значения |
| Для какого вида ансамблирования наименее критична потеря одного из слабых алгоритмов? | бэггинг |
| Для какого класса (0 или 1) в задаче диабета метрика recall выше метрики precision? | 0 |
| Если отступ M>1, то это говорит о том, что классифицируемый объект: | Классифицирован верно |
| Если прогнать в получившейся модели классификации текста сообщение «You are WINNER! Call us and take your prize...», модель выдаст спам или не спам? | спам |
| Если P+=0.5, то к какому классу относится объект? | Ни к какому, объект находится на границе между классами |
| К какому типу алгоритмов относится ID3? | Рекурсивный, жадный |
| К семейству каких алгоритмов относится логистическая регрессия? | Линейные |
| К семейству каких алгоритмов относится kNN? | Метрические |
| К семейству каких алгоритмов относится SVM? | Линейные |
| Как называется библиотека для градиентного бустинга? | XGBoost |
| Как называется ситуация, когда модель хорошо работает на обучающей выборке, но показывает плохие метрики на тестовых запусках | Переобучение |
| Как называется ситуация, когда модель хорошо работает на обучающей выборке, но показывает плохие метрики на тестовых запусках | переобучение |
| Как обозначается вероятность наступления события A при условии наступления события B? | P(A|B) |
| Как распределение в алгоритме tSNE для точек отображения? | Стьюдента |
| Какая библиотека позволяет перебирать параметры по сетке? | GridSearchCV |
| Какая метрика может быть использована в задаче регрессии? | Среднеквадратичное отклонение от целевой переменной |
| Какая метрика не использует информацию об истинном разбиении точек на группы? | силуэт |
| Какая метрика чаще всего используется расчета близости? | Евклидово расстояние |
| Какая размерность признакового пространства для MNIST? | 64 |
| Какая функция ядра выбрана GridSearchCV для наиболее оптимальной модели? | linear |
| Каким модулем можно реализовать перебор параметров по сетке? | GridSearchCV |
| Каким преобразованием можно привести данные к среднему = 0 и дисперсии = 1? | Z-преобразование |
| Какое граничное значение метрики ROC-AUC для оценки «адекватности» разработанной модели? | 0.5 |
| Какое сильное предположение наивного Байесовского классификатора? | Все признаки независимы |
| Какой алгоритм использует линейное преобразования для получения нового ортогонального базиса? | PCA |
| Какой алгоритм может быть использован для поиска аномальных точек? | DBScan |
| Какой алгоритм самый вычислительно затратный? | Иерархическая кластеризация |
| Какую постановку лучше использовать для линейно неразделимых классов? | SVM с мягким зазором |
| Когда в задачи регрессии для нас неприемлемы большие отклонения, необходимо использовать: | MSE |
| Минимальное количество элементов в листовом узле | 7 |
| На основании работы алгоритма по перебору параметров модели, какой вид регуляризации наиболее оптимален? | l1 |
| Назовите основные задачи обучения с учителем? | Регрессия, Классификация |
| Назовите основные задачи обучения с учителем? | Регрессия, классификация |
| Наиболее значимый признак для датасета Ирисы в первой компоненте PCA | petal length (cm) |
| Найдите оптимальное количество соседей для алгоритма kNN в диапазоне [2;40]. Если для каких-то значений параметра будет одинаковая метрика accuracy, предпочтительнее брать модель с меньшим параметром. Ответ занесите в форму. | 3 |
| Оптимальный критерий разделения (на английском с маленькой буквы) | entropy |
| Ошибка на тестовых данных при усложнении модели: | Сначала падает, потом растет |
| Ошибка первого рода - это? | Это ситуация, когда нулевая гипотеза отвергается, хотя она, на самом деле, верна. |
| Параллельное обучение слабых алгоритмов свойственно для: | бэггинг, стекинг |
| Посчитайте разницу между средним значением параметра sepal length (cm) в тестовой и обучающей выборках. Ответ округлите до второго знака | 0.12 |
| Сколько классов может быть в задаче классификации? | Все варианты возможны |
| Сколько кластеров получается для Ирисов при помощи AffinityPropagation? | 7 |
| Сколько компонент PCA минимально необходимо, чтобы объяснить не менее 90% дисперсии? | 21 |
| Сколько процентов выборки X_test сконцетрировано в области вероятности класса [0;0.2]? Округлите до целого числа | 95 |
| Укажите значение параметра C для найденной оптимальной модели. | 1 |
| Умеет ли Дерево Решений обрабатывать пропуски на этапе обучения? | Да, при этом считается условная вероятность для классов |
| Чему равен параметр max_depth в оптимальной модели, найденной при помощи GridSearchCV? | 4 |
| Чему равна метрика точности оптимальной модели? Округлите до второго знака после запятой | 0.99 |
| Что не является критерием информативности? | Критерий Манна-Уитни |
| Что относится к преимуществам логистической регрессии? | Оперирование вероятностями классов, Возможность интерпретации выявленных «правил» выделения классов |
| Что такое разброс? | Дисперсия ответов алгоритма |
| F-мера это: | Гармоническое среднее между precision и recall |
| Random Forest (Случайный лес) – это частный случай: | бэггинг |
| Сколько кластеров для Ирисов у DBSCAN? | 2 |
| Сколько точек из датасета Ирисы, кластеризованные при помощи DBSCAN, отнесены к шуму? | 17 |
| Чему равно значение p-value? | 0.875 |
| Максимальная глубина дерева | 6 |
| Какое количество деревьев оптимально для DecisionTreeRegressor для задачи регрессии временного ряда, сгенерированного в начале рабочего ноутбука? | 5 |
| Какое количество кластеров оптимально для алгоритма K-Means в наборе данных по кредитным картам? | 10 |
| Какое количество деревьев оптимально для DecisionTreeRegressor для задачи регрессии временного ряда, сгенерированного в начале рабочего ноутбука? | 5 |
Хочешь создать новую страницу для другого курса и заполнять ее с одногруппниками? – Пиши нам