Вопросы для пробного интервью по науке о данных-2

Каковы условия использования наивного байесовского алгоритма?
Каковы основные предположения для линейной регрессии?
Как линейная регрессия справляется с переоснащением?
Как уменьшить переобучение в ваших моделях машинного обучения?
Что такое масштабирование признаков. Каковы его виды? В каких алгоритмах машинного обучения мы используем масштабирование признаков
Чувствительна ли линейная регрессия к выбросам?
Почему мы используем скорректированный R2 для измерения точности модели линейной регрессии?
Когда использовать регуляризацию Ridge и Lasso?
Как справиться с корреляцией между независимыми функциями в линейной регрессии?
Разница между градиентным спуском и стохастическим градиентным спуском?
На какие все алгоритмы машинного обучения повлиял несбалансированный набор данных? Как обрабатывать несбалансированный набор данных? Есть ли какие-либо, которые хорошо работают даже в несбалансированном наборе данных?
Хорошо ли работает SVM с набором данных большой размерности? Если да.. Почему?
Опишите деревья решений. Классификатор Регрессия все, что вы знаете.
Недостатком дерева решений является то, что оно приводит к низкому смещению и высокой дисперсии. Почему это так?. Как справиться с высокой дисперсией, поскольку хорошая модель машинного обучения должна иметь низкое смещение и низкую дисперсию? Что такое выборка строк и выборка столбцов?
Как справиться с переоснащением в деревьях решений?
Что такое бутстрап-агрегация?
Какова взаимосвязь между средней медианной модой распределения с асимметрией вправо и асимметрией влево? Приведите примеры распределения с асимметрией влево и вправо

18.Как рассчитать средний размер всех акул в море?

19. Для анализа производительности линейной регрессии в случае функции потерь, какую функцию мы должны использовать. Среднеквадратическая ошибка MSE или средняя абсолютная ошибка MAE?

20.Каковы различные типы методов отбора проб?

21. Должны ли мы уменьшить число ложноположительных или отрицательных результатов в матрице путаницы в следующем сценарии? Сценарий: компания создает модель, чтобы предсказать, собирается ли человек купить более 5 тысяч на распродаже Дивали или нет. если да, то он даст купон на 1k бесплатно

22. Что такое частичное соответствие? Сколько алгоритмов имеют частичное соответствие?

23. Как вы решаете, какой алгоритм машинного обучения использовать для варианта использования?

24. Как обеспечить конфиденциальность данных в проектах машинного обучения, где вам приходится делиться данными со сторонними поставщиками, не ставя под угрозу целостность данных клиента?

25. Когда использовать энтропию и когда использовать примесь Джини в деревьях решений?

26. Как справиться с мультиколлинеарностью?

27. Знаменитый вопрос сколько?… сколько ворон в этом городе или сколько кондитерских в вашем городе? Вот подробная ссылка, объясняющая ответ на эту проблему. Этот вопрос немного связан с аналитикой данных, но его полезно знать.

Вопрос по науке о данных во времена Акбара и Бирбала
Известная индийская история, особенно популярная среди тех, кто вырос в Индии, — это сказка об Акбаре и Бирбале, в которой …в сторону datascience.com

Спасибо, что дочитали блог до конца. Это своего рода серия пересмотров. Я разместил отдельные вопросы без ответов, чтобы вы могли читать и отвечать вместе с ними. Не стесняйтесь комментировать свои ответы в качестве практики или помощи другим.

Я опубликую все ответы в своем следующем блоге.

Не стесняйтесь комментировать любые предложения или общие комментарии. Спасибо :) Чао!

Вопросы для пробного интервью по науке о данных-2

Похожие вопросы