C語言中去除不必要的內存引用可以有效地提高性能

徐土豆 2020-12-22 13:04 170 閱讀 2 贊 3 收藏 0 評論

本文轉載自徐飛翔的"C語言中去除不必要的內存引用可以有效地提高性能”

版權聲明：本文為博主原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處鏈接和本聲明。

在C語言中，我們經常會存在對某個內存地址進行引用的操作，也就是如下列代碼所示的，對指針進行取內容：

int vars[10];
int var = *(vars+3); //這里就是對數組vars的第三個元素進行引用

這種內存引用操作對應的匯編代碼通常如：

mov (%rax), %rdx; 
# 把地址位于%rax的內存值進行取出。
mov 12(%rax), %rdx;
# 把地址位于%rax+12的內存值進行取出。

我們注意到這種操作涉及到了CPU從數據總線中向內存中取值，通常速度遠遠慢于CPU本身的計算操作，也慢于CPU取出內部寄存器值的操作，很多時候，一個程序的計算瓶頸就在這些去內存的操作中，因此要盡量避免不必要的內存引用。以下舉個代碼例子進行進一步說明。

// code_1.c
#include <stdio.h>
void foo(float vars[], int length, float *sum){
	int i = 0;
	for (i = 0; i < length; i++){
		*sum = *sum * vars[i];
	}
}

int main(){
	float sum = 1;
	float vars[] = {0.3,0.4,0.13,0.65,0.23,0.87,0.2,1.34};
	int cycle = 0;
	for (cycle = 0; cycle < 100000000; cycle++){
		foo(vars, 8, &sum);
		sum = 1;
	}
	return 0;
}

// code_2.c
#include <stdio.h>
void foo(float vars[], int length, float *sum){
	int i = 0;
	int tmp = *sum;
	for (i = 0; i < length; i++){
		tmp = tmp * vars[i];
	}
	*sum = tmp;
}

int main(){
	float sum = 1;
	float vars[] = {0.3,0.4,0.13,0.65,0.23,0.87,0.2,1.34};
	int cycle = 0;
	for (cycle = 0; cycle < 100000000; cycle++){
		foo(vars, 8, &sum);
		sum = 1;
	}
	return 0;
}

code_1.c和code_2.c的差別很小，就是在于函數foo()中關于sum這個指針的指向的內容的更新方式，第一種方式是每一個循環中都進行更新，顯然其需要更多但是卻沒必要的內存引用，第二種通過一個臨時變量的形式，避免了多次頻繁無用地訪問內存。觀察其兩者的匯編，就會發現和我們之前分析的是一致的。我們采用-O1優化選項，命令如：

gcc -O1 -S code_1.c
gcc -O1 -S code_2.c

匯編結果如下所示(以下匯編只是截取部分關鍵信息)

# code_1.s
.L3:
	movss (%rdx), %xmm0
	mulss (%rax), %xmm0
	movss %xmm0, (%rdx)
	addq %4, %rax
	cmpq %rcx, %rax
	jne .L3

而第二個則簡單很多

# code_1.s
.L3:
	mulss (%rax), %xmm0
	addq %4, %rax
	cmpq %rcx, %rax
	jne .L3

我們發現，第一個代碼比起第二個代碼多出很多內存引用操作，其需要從內存中取出乘數 movss (%rdx), %xmm0，計算完之后，有需要更新，將其寫回內存， movss %xmm0, (%rdx)。導致其性能遜于后者。在筆者的服務器上，兩者的性能具體對比為：code 1跑了0.54s，而code 2跑了0.37s。

同時我們發現，編譯器很難對此進行優化，在-O1優化等級下，其表現和我們分析的并沒有區別（某些編譯器優化會導致代碼分析和實際的匯編有所區別），其還沒有能夠智能到對這種進行優化，因此需要程序員對此進行顯式地優化。

聲明：本內容為作者獨立觀點，不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴，請聯系：editor@netbroad.com

覺得內容不錯的朋友，別忘了一鍵三連哦！

贊 2

關注 52

成為作者賺取收益

下一篇：C語言中內循環和外循環的位置可能產生性能上的區別

全部留言

0/200

成為第一個和作者交流的人吧

99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

C語言中去除不必要的內存引用可以有效地提高性能