grpc epoll fd: ошибка 4 в задании облачного мл

Я пытаюсь запустить работу в облаке ML. Это первый, поэтому я не делаю ничего особенного (или я не знаю об этом). Я попробовал работу локально, и она работала нормально. Я представляю работу следующим образом:

gcloud ml-engine jobs submit training $JOB_NAME --job-dir $OUTPUT --module-name trainer.task --package-path trainer/ --runtime-version 1.2 -- --train-files $TRAIN_DATA --eval-files $EVAL_DATA --verbosity DEBUG

У меня есть файл setup.py, так как мне нужен tf 1.4.

Я получаю следующую ошибку в задании облачного мл:

17:37:18.590 master-replica-0 grpc epoll fd: 4
{
 insertId:  "3bz8czg6uycja0"   
 jsonPayload: {
  created:  1511887038.59055    
  levelname:  "ERROR"    
  lineno:  1051    
  message:  "    grpc epoll fd: 4"    
  pathname:  "ev_epoll1_linux.c"    
  thread:  228    
 }
 labels: {
  compute.googleapis.com/resource_id:  "56570433820965707"    
  compute.googleapis.com/resource_name:  "cmle-training-master-93c1f629dc-0-1sbpv"    
  compute.googleapis.com/zone:  "europe-west1-c"    
  ml.googleapis.com/job_id:  "XXXXX"    
  ml.googleapis.com/job_id/log_area:  "root"    
  ml.googleapis.com/task_name:  "master-replica-0"    
  ml.googleapis.com/trial_id:  ""    
 }
 logName:  "projects/fibi-tech/logs/master-replica-0"   
 receiveTimestamp:  "2017-11-28T16:37:27.139888642Z"   
 resource: {
  labels: {…}   
  type:  "ml_job"    
 }
 severity:  "ERROR"   
 timestamp:  "2017-11-28T16:37:18.590551137Z"   
}

После ошибки больше ничего не происходит (по крайней мере, до десяти минут), и мне приходится вручную останавливать работу.

Благодарю вас!


person Miguel    schedule 28.11.2017    source источник
comment
Аналогично здесь, но появляется сообщение об ошибке grpc epoll fd: 3   -  person rodrigo-silveira    schedule 18.12.2017
comment
Ну, этот тег должен быть проверен инженерами cloud-ml, но похоже, что это не так. Я предполагаю, что это снова еще один облачный сервис Google, который отлично выглядит на бумаге, но является черным ящиком, и невозможно выяснить, в чем проблема, если у вас есть проблема. Был там уже, я думаю, я никогда не узнаю ...   -  person Miguel    schedule 19.12.2017
comment
Я задал этот же вопрос на groups.google. com/a/tensorflow.org/forum/m/#!topic/discuss/ и один из инженеров попросил меня разместить вопрос здесь, но с тегом google-cloud-ml-engine. Попробуйте добавить этот тег к вашему вопросу.   -  person rodrigo-silveira    schedule 19.12.2017
comment
@rodrigo-silveira Я видел тег, который вы упомянули в документации по движку ml, но по какой-то причине переполнение стека не позволило мне его использовать. В любом случае, просматривая ваш ответ и связанные с ним сообщения, мне удалось заставить его работать. Спасибо!   -  person Miguel    schedule 04.01.2018


Ответы (1)


У меня была аналогичная проблема с использованием Estimator API с ml-engine. Решением было использовать tf.estimator.train_and_eval(). См. мой другой пост неопределенная ошибка мл-движка: grpc epoll фд: 3

person rodrigo-silveira    schedule 20.12.2017