tensorflow监控指标获取

2022-03-05

我想很多人会需要真正的执行时间以及 ps 和 ps 之间的通信时间。以下是我的一些尝试。对于执行时间,最好是得到它。如何计算通讯时间?

1. 工具

这是我从论文中看到的一个工具,但是!

这个工具也算作分布式环境下测试的工具

但是,根据我目前的经验,这是一个测试工具,而不是一个监控工具,为什么?我想知道的是程序运行过程中发送和接收了多少数据,通信时间是多少,但是这里可以得到的指标是客户端发送给服务器的数据包数量,以及带宽根据响应时间计算。测试功能 > 监控功能。

-t -H 节点6 -c -C

图片[1]-tensorflow监控指标获取-唐朝资源网

但是,它仍然可以用于监视 CPU 使用率。小C是本机的用法;大C是远程服务器的使用情况。

转向监控…

2.

安装还是很简单的,只要pip

监控也很简单,找到log日志文件的地方即可:

图片[2]-tensorflow监控指标获取-唐朝资源网

–=/home/zc/dzx//

但是这个监控指标太小了

去官网看看,想+

3. +

还有很多功能:它们都是我想要的

图片[3]-tensorflow监控指标获取-唐朝资源网

看一下环境要求:

但现在分发的代码都是 .x。对于.0的要求,我只能说我试过了,但是真的过不去……

4. 最后会发生什么?

图片[4]-tensorflow监控指标获取-唐朝资源网

你能知道服务器带宽吗?如果顶

你能知道ps在一段时间内发送和接收了多少数据吗?

上面搞定了,就是有点麻烦

安装 iftop:

百胜 iftop –y

图片[5]-tensorflow监控指标获取-唐朝资源网

pip:未找到解决方案:

yum epel-

百胜 -y -pip

分类:

技术要点:

相关文章:

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片