云代理故障排除

提供了云代理故障排除步骤,可帮助您轻松解决在
VMware Aria Operations
中可能遇到的问题。
继续进行故障排除之前,请参见云代理常见问题解答

安装和/或首次引导失败

To verify the issue, check if
/var/log/firstboot
contains a file named "Succeeded".
如果不包含,以下问题可能会导致
VMware Aria Operations
安装和/或首次引导失败:
  1. 在部署
    云代理
    时使用的唯一注册密钥无效。要进行验证,请检查
    云代理
    控制台。
    解决方案:重新部署
    云代理

云代理虚拟机正在运行,但在
VMware Aria Operations
中状态为“脱机”。

云代理页面中云代理的状态为脱机。
要验证连接,请使用以下命令:(有关完整的命令列表,请参见使用云代理命令行界面。)
# Overall status of cloud proxy:cprc-cli -s # Ping itself: ip addr ping <address> # Ping gateway: ip route ping <gateway> # Verify the connection outside the cloud proxy, ping 8.8.8.8 Note: If you are using a network proxy, use the /opt/vmware/share/vami/vami_config_net option#5 command to ensure you have the correct configuration for the testings.
以下问题可能会导致
VMware Aria Operations
云代理
的状态显示为脱机。
  1. 云代理配置中的网络代理信息不正确。
    要通过网络代理验证连接,请使用以下命令:
    curl -vvv --proxy http(s)://proxy_user:proxy_pass@proxy_ip:proxy_port -H 'Accept: application/json' -H 'Content-Type: application/json' -X GET https://<gateway url>/casa/security/ping (gateway url example - 10238.gw.dev.vrops-ops.com) To ignore SSL validation for a proxy server, use curl --proxy-insecure. With SSL validation the customer can provide Proxy Server certificate during cloud proxy deployment or re-configuration so that provided certificate from customer can be used to check the connection with curl with SSL certificate validation.
    解决方案:
    1. 通过 SSH 访问
      云代理
      虚拟机,然后在
      /storage/db/vmware-vrops-cprc/configuration/cprc.configuration
      中将
      connectretry
      设置为
      0
      ,以确保
      云代理
      重试连接。
    2. 关闭
      云代理
      虚拟机。
    3. 使用 vApp 选项更新
      vCenter Server
      虚拟机选项中的网络代理配置(编辑虚拟机的 OVF 详细信息)。
    4. 引导
      云代理
      虚拟机。
  2. 所需端口未打开。
    要进行验证,请运行以下命令:
    openssl s_client -showcerts -connect {address}:443 curl -v telnet://{address}:443 # Or, change the address to the machine you want to check: python -c "import socket; print(socket.socket(socket.AF_INET, socket.SOCK_STREAM).connect_ex(('127.0.0.1', 443)))" # If you get a !=0 response, the server is not listening to the port.
    解决方案:
    1. 通过 SSH 访问
      云代理
      虚拟机,然后在
      /storage/db/vmware-vrops-cprc/configuration/cprc.configuration
      中将
      connectretry
      设置为
      0
      ,以确保
      云代理
      重试连接。
    2. 提供在 在 VMware Aria Operations 中配置云代理的必备条件部分中所述的端口访问权限。
    3. 引导
      云代理
      虚拟机。
  3. 证书无效。
    要进行验证,请运行以下命令:
    openssl s_client -showcerts -connect {address}:443
    解决方案:
    1. 通过 SSH 访问
      云代理
      虚拟机,然后在
      /storage/db/vmware-vrops-cprc/configuration/cprc.configuration
      中将
      connectretry
      设置为
      0
      ,以确保
      云代理
      重试连接。
    2. 按照 VMware 知识库文章 83698 中所述的步骤执行操作。
  4. 日志文件夹
    /storage/log
    即将耗尽分区空间。
    解决方案:移除日志文件以确保有足够的可用空间。请注意,这是一个例外情况。正常情况下,日志文件会自动存档。
  5. 以下一项或多项服务关闭:
    httpd-north.service
    haproxy.service
    collector.service
    解决方案:
    • 运行以下命令,检查服务状态:
      systemctl status <service name>
    • 要启动服务,请使用以下命令:
      systemctl start <service name>
  6. 唯一注册密钥已过期。
    解决方案:使用新的唯一注册密钥重新部署
    云代理

云代理处于联机状态,云帐户的状况为
Collecting
,但状态为
Object Down

云代理正在收集数据,但对象已关闭,并且无法连接到 vCenter。
以下问题可能会导致
VMware Aria Operations
将云帐户的状况显示为
Collecting
,而状态显示为
Object Down
  1. 帐户凭据不正确。
    解决方案:检查并更新设置云帐户时使用的凭据。

云代理状态停滞在
Going Online

云代理页面中云代理的状态为联机。
首次重新引导时,可能需要长达 20 分钟的时间才能注册
云代理
并联机。等待指定的时间,以查看云代理是否联机。如果仍未联机,以下一项或多项服务将关闭:
httpd-north.service
haproxy.service
collector.service
解决方案:
  1. 运行以下命令,检查服务状态:
    systemctl status <service name>
  2. 要启动服务,请使用以下命令:
    systemctl start <service name>

VMware Aria Operations
升级后,云代理不自动升级

VMware Aria Operations
升级后,云代理不自动升级的可能原因有几种。
  1. 网络延迟较高,导致 PAK 下载失败。不支持超过 500 毫秒的延迟。
    解决方案:有关如何通过 CLI 手动升级云代理的信息,请参见 VMWare 知识库文章 80590
  2. 由于上一次升级失败,升级状态停滞在
    Running
    解决方案:按照下面提供的步骤更改升级状态。
    1. 停止 CaSA 服务:
      systemctl stop vmware-casa.service
    2. 在以下文件中将升级状态从
      RUNNING
      更改为
      NONE
      ./storage/db/vmware-vrops-cprc/status/cprc.upgrade.status ./storage/db/vmware-vrops-cprc/status/cprc.pak.status
    3. 参见 VMware 知识库文章 80590 并运行手动升级。

云代理每隔一定时间断开连接

云代理定期断开连接的原因可能有几种,请执行以下操作。
  1. 检查网络连接和延迟。
  2. 检查云代理虚拟机是否可以访问 DNS,并使用 NSlookup 验证 DNS 连接情况。