如何在 Linux 中创建高分辨率计时器来测量程序性能?
- 2024-10-11 08:36:00
- admin 原创
- 72
问题描述:
我正在尝试比较 GPU 与 CPU 的性能。对于 NVIDIA GPU,我一直使用这些cudaEvent_t
类型来获得非常精确的时间。
对于 CPU,我一直使用以下代码:
// Timers
clock_t start, stop;
float elapsedTime = 0;
// Capture the start time
start = clock();
// Do something here
.......
// Capture the stop time
stop = clock();
// Retrieve time elapsed in milliseconds
elapsedTime = (float)(stop - start) / (float)CLOCKS_PER_SEC * 1000.0f;
显然,这段代码只适用于以秒为单位计算的情况。而且,结果有时会很奇怪。
有人知道在 Linux 中创建高分辨率计时器的方法吗?
解决方案 1:
查看clock_gettime
,它是高分辨率计时器的 POSIX 接口。
CLOCK_REALTIME
如果阅读了手册页后,您仍对和之间的区别感到疑惑CLOCK_MONOTONIC
,请参阅CLOCK_REALTIME 和 CLOCK_MONOTONIC 之间的区别?
请参阅以下页面以获取完整示例:http://www.guyrutenberg.com/2007/09/22/profiling-code-using-clock_gettime/
#include <iostream>
#include <time.h>
using namespace std;
timespec diff(timespec start, timespec end);
int main()
{
timespec time1, time2;
int temp;
clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &time1);
for (int i = 0; i< 242000000; i++)
temp+=temp;
clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &time2);
cout<<diff(time1,time2).tv_sec<<":"<<diff(time1,time2).tv_nsec<<endl;
return 0;
}
timespec diff(timespec start, timespec end)
{
timespec temp;
if ((end.tv_nsec-start.tv_nsec)<0) {
temp.tv_sec = end.tv_sec-start.tv_sec-1;
temp.tv_nsec = 1000000000+end.tv_nsec-start.tv_nsec;
} else {
temp.tv_sec = end.tv_sec-start.tv_sec;
temp.tv_nsec = end.tv_nsec-start.tv_nsec;
}
return temp;
}
解决方案 2:
总结目前提供的信息,这是典型应用所需的两个功能。
#include <time.h>
// call this function to start a nanosecond-resolution timer
struct timespec timer_start(){
struct timespec start_time;
clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start_time);
return start_time;
}
// call this function to end a timer, returning nanoseconds elapsed as a long
long timer_end(struct timespec start_time){
struct timespec end_time;
clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &end_time);
long diffInNanos = (end_time.tv_sec - start_time.tv_sec) * (long)1e9 + (end_time.tv_nsec - start_time.tv_nsec);
return diffInNanos;
}
下面是一个示例,说明如何使用它们来计算输入列表的方差所需的时间。
struct timespec vartime = timer_start(); // begin a timer called 'vartime'
double variance = var(input, MAXLEN); // perform the task we want to time
long time_elapsed_nanos = timer_end(vartime);
printf("Variance = %f, Time taken (nanoseconds): %ld
", variance, time_elapsed_nanos);
解决方案 3:
struct timespec t;
clock_gettime(CLOCK_REALTIME, &t);
还有 CLOCK_REALTIME_HR,但我不确定它是否有任何区别。
解决方案 4:
您对挂钟时间 (实际经过了多少时间) 或循环计数 (有多少个循环) 感兴趣吗?在第一种情况下,您应该使用类似 的内容gettimeofday
。
最高分辨率计时器使用RDTSC
x86 汇编指令。但是,这会测量时钟滴答,因此您应该确保已禁用省电模式。
TSC 的 wiki 页面给出了一些示例:http://en.wikipedia.org/wiki/Time_Stamp_Counter
解决方案 5:
阅读完该帖子后,我开始测试 clock_gettime 的代码与 c++11 的 chrono 的代码,但它们似乎不匹配。
他们之间的差距实在太大了!
std ::chrono::seconds(1)似乎相当于clock_gettime的~70,000
#include <ctime>
#include <cstdlib>
#include <cstring>
#include <iostream>
#include <thread>
#include <chrono>
#include <iomanip>
#include <vector>
#include <mutex>
timespec diff(timespec start, timespec end);
timespec get_cpu_now_time();
std::vector<timespec> get_start_end_pairs();
std::vector<timespec> get_start_end_pairs2();
void output_deltas(const std::vector<timespec> &start_end_pairs);
//=============================================================
int main()
{
std::cout << "Hello waiter" << std::endl; // flush is intentional
std::vector<timespec> start_end_pairs = get_start_end_pairs2();
output_deltas(start_end_pairs);
return EXIT_SUCCESS;
}
//=============================================================
std::vector<timespec> get_start_end_pairs()
{
std::vector<timespec> start_end_pairs;
for (int i = 0; i < 20; ++i)
{
start_end_pairs.push_back(get_cpu_now_time());
std::this_thread::sleep_for(std::chrono::seconds(1));
start_end_pairs.push_back(get_cpu_now_time());
}
return start_end_pairs;
}
//=============================================================
std::vector<timespec> get_start_end_pairs2()
{
std::mutex mu;
std::vector<std::thread> workers;
std::vector<timespec> start_end_pairs;
for (int i = 0; i < 20; ++i) {
workers.emplace_back([&]()->void {
auto start_time = get_cpu_now_time();
std::this_thread::sleep_for(std::chrono::seconds(1));
auto end_time = get_cpu_now_time();
std::lock_guard<std::mutex> locker(mu);
start_end_pairs.emplace_back(start_time);
start_end_pairs.emplace_back(end_time);
});
}
for (auto &worker: workers) {
if (worker.joinable()) {
worker.join();
}
}
return start_end_pairs;
}
//=============================================================
void output_deltas(const std::vector<timespec> &start_end_pairs)
{
std::cout << "size: " << start_end_pairs.size() << std::endl;
for (auto it_start = start_end_pairs.begin(); it_start < start_end_pairs.end(); it_start += 2)
{
auto it_end = it_start + 1;
auto delta = diff(*it_start, *it_end);
std::cout
<< std::setw(2)
<< std::setfill(' ')
<< std::distance(start_end_pairs.begin(), it_start) / 2
<< " Waited ("
<< delta.tv_sec
<< " s "
<< std::setw(9)
<< std::setfill('0')
<< delta.tv_nsec
<< " ns)"
<< std::endl;
}
}
//=============================================================
timespec diff(timespec start, timespec end)
{
timespec temp;
temp.tv_sec = end.tv_sec-start.tv_sec;
temp.tv_nsec = end.tv_nsec-start.tv_nsec;
if (temp.tv_nsec < 0) {
--temp.tv_sec;
temp.tv_nsec += 1000000000;
}
return temp;
}
//=============================================================
timespec get_cpu_now_time()
{
timespec now_time;
memset(&now_time, 0, sizeof(timespec));
clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &now_time);
return now_time;
}
输出:
Hello waiter
0 Waited (0 s 000843254 ns)
1 Waited (0 s 000681141 ns)
2 Waited (0 s 000685119 ns)
3 Waited (0 s 000674252 ns)
4 Waited (0 s 000714877 ns)
5 Waited (0 s 000624202 ns)
6 Waited (0 s 000746091 ns)
7 Waited (0 s 000575267 ns)
8 Waited (0 s 000860157 ns)
9 Waited (0 s 000827479 ns)
10 Waited (0 s 000612959 ns)
11 Waited (0 s 000534818 ns)
12 Waited (0 s 000553728 ns)
13 Waited (0 s 000586501 ns)
14 Waited (0 s 000627116 ns)
15 Waited (0 s 000616725 ns)
16 Waited (0 s 000616507 ns)
17 Waited (0 s 000641251 ns)
18 Waited (0 s 000683380 ns)
19 Waited (0 s 000850205 ns)
解决方案 6:
clock_gettime(2)
解决方案 7:
epoll 实现:
https: //github.com/ielife/simple-timer-for-c-language
像这样使用:
timer_server_handle_t *timer_handle = timer_server_init(1024);
if (NULL == timer_handle) {
fprintf(stderr, "timer_server_init failed
");
return -1;
}
ctimer timer1;
timer1.count_ = 3;
timer1.timer_internal_ = 0.5;
timer1.timer_cb_ = timer_cb1;
int *user_data1 = (int *)malloc(sizeof(int));
*user_data1 = 100;
timer1.user_data_ = user_data1;
timer_server_addtimer(timer_handle, &timer1);
ctimer timer2;
timer2.count_ = -1;
timer2.timer_internal_ = 0.5;
timer2.timer_cb_ = timer_cb2;
int *user_data2 = (int *)malloc(sizeof(int));
*user_data2 = 10;
timer2.user_data_ = user_data2;
timer_server_addtimer(timer_handle, &timer2);
sleep(10);
timer_server_deltimer(timer_handle, timer1.fd);
timer_server_deltimer(timer_handle, timer2.fd);
timer_server_uninit(timer_handle);
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理必备:盘点2024年13款好用的项目管理软件