TFX 1.0 이하 버전, KubeFlow 상에서 메시지가 너무 커서 실행이 불가능할 때

TFX를 아직 1.0으로 안올리고 있다가, 컴포넌트가 조금 많이 추가되니 InternalServerError: Failed to create a workflow for (): etcdserver: request is too large 라는 에러가 떠서 관련 버그를 찾아보았다.

상황

  • tfx==0.30.x
  • tensorflow==2.4.x
  • tfx.orchestration.kubeflow.kubeflow_dag_runner.KubeflowDagRunner로 실행시킨 yaml 파일 결과물은 대략 1.8MB 정도.

해결 과정

TFX 1.2버전으로 업데이트 후 kubeflow 파이프라인 컴파일 결과물이 1.8MB에서 257KB 정도로 줄어들었다!

August 20, 2021
Tags: tensorflow