未能将对象封送到TFJob；规范无效：未能将对象封送到TFJob

kind: Service apiVersion: v1 metadata: name: nfs-service spec: selector: role: nfs-service ports: # Open the ports required by the NFS server - name: nfs port: 2049 - name: mountd port: 20048 - name: rpcbind port: 111 --- kind: Pod apiVersion: v1 metadata: name: nfs-server-pod labels: role: nfs-service spec: containers: - name: nfs-server-container image: cpuguy83/nfs-server securityContext: privileged: true args: # Pass the paths to share to the Docker image - /exports

apiVersion: kubeflow.org/v1beta1 kind: TFJob metadata: name: tfjob1 spec: replicaSpecs: - replicas: 1 tfReplicaType: MASTER template: spec: volumes: - name: nfs-volume persistentVolumeClaim: claimName: nfs containers: - name: tensorflow image: learnk8s/mnist:1.0.0 imagePullPolicy: IfNotPresent args: - --model_dir - ./out/vars - --export_dir - ./out/models volumeMounts: - mountPath: /app/out name: nfs-volume restartPolicy: OnFailure - replicas: 2 tfReplicaType: WORKER template: spec: containers: - name: tensorflow image: learnk8s/mnist:1.0.0 imagePullPolicy: IfNotPresent restartPolicy: OnFailure args: - --model_dir - ./out/vars - --export_dir - ./out/models volumeMounts: - mountPath: /app/out name: nfs-volume restartPolicy: OnFailure - replicas: 2 tfReplicaType: WORKER template: spec: containers: - name: tensorflow image: learnk8s/mnist:1.0.0 imagePullPolicy: IfNotPresent restartPolicy: OnFailure - replicas: 1 tfReplicaType: PS template: spec: volumes: - name: nfs-volume persistentVolumeClaim: claimName: nfs containers: - name: tensorflow image: learnk8s/mnist:1.0.0 imagePullPolicy: IfNotPresent volumeMounts: - mountPath: /app/out name: nfs-volume restartPolicy: OnFailure

Type Reason Age From Message ---- ------ ---- ---- ------- Warning InvalidTFJobSpec 22s tf-operator Failed to marshal the object to TFJob; the spec is invalid: failed to marshal the object to TFJob"

1条回答

网友

1楼 · 发布于 2024-10-03 00:24:24

我找到了导致特定错误的问题。首先，api版本发生了变化，所以我不得不从v1alpha1移到{}。第二，我遵循的教程使用的是kubeflowv0.1.2（相当旧），在yaml文件中定义tfjob的语法从此改变了（不能确切地确定更改发生在哪个版本中！）。因此，通过查看git中的最新示例，我可以更新作业规范！在

教程版本：

apiVersion: kubeflow.org/v1alpha1
kind: TFJob
metadata:
  name: tfjob1
spec:
  replicaSpecs:
    - replicas: 1
      tfReplicaType: MASTER
      template:
        spec:
          volumes:
            - name: nfs-volume
              persistentVolumeClaim:
                claimName: nfs
          containers:
            - name: tensorflow
              image: learnk8s/mnist:1.0.0
              imagePullPolicy: IfNotPresent
              args:
                -  model_dir
                - ./out/vars
                -  export_dir
                - ./out/models
              volumeMounts:
                - mountPath: /app/out
                  name: nfs-volume
          restartPolicy: OnFailure
    - replicas: 2
      tfReplicaType: WORKER
      template:
        spec:
          containers:
            - name: tensorflow
              image: learnk8s/mnist:1.0.0
              imagePullPolicy: IfNotPresent
          restartPolicy: OnFailure
    - replicas: 1
      tfReplicaType: PS
      template:
        spec:
          volumes:
            - name: nfs-volume
              persistentVolumeClaim:
                claimName: nfs
          containers:
            - name: tensorflow
              image: learnk8s/mnist:1.0.0
              imagePullPolicy: IfNotPresent
              volumeMounts:
                - mountPath: /app/out
                  name: nfs-volume
          restartPolicy: OnFailure

更新版本：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章