У меня есть модель Inception V3 с некоторыми модификациями ввода и вывода, развернутыми в Google Cloud ML Engine для онлайн-прогнозов. В течение недели или около того у меня было относительно немного разреженных запросов (около 130) со средней задержкой около 100 мс и 95% процентилем 2000 мс. Я уже сгенерировал около 2 узлов * часов. Минимальное количество узлов равно 0. Это первый раз, когда я хочу использовать Cloud ML Engine в производстве.
Вопросы:
Я знаю, что узлы работают через несколько минут после запроса. Но как я могу оценить количество запросов, скажем, в 1 минуту, которые вызовут масштабирование системы? Кажется, нет информации об использовании ЦП узлами.
В моем случае я предполагаю, что количество запросов будет неуклонно расти. Должен ли я ожидать, что количество часов узла * достигнет примерно 30 * 24 (количество дней в часах в месяце), затем насытится этим значением на некоторое время, а затем пойдет дальше, когда загрузка ЦП узлов предсказания достигнет, скажем, 70%?