數(shù)據(jù)結(jié)構(gòu)是如何裝入 CPU 寄存器的？

發(fā)布人：編碼之外時(shí)間：2021-08-19 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

我們?cè)谥昂芏辔恼碌?/span>講解中涉及了CPU與寄存器，然后有同學(xué)問(wèn)了這樣一個(gè)問(wèn)題：既然CPU內(nèi)部的寄存器數(shù)量有限，容量有限，那么我們使用的龐大的數(shù)據(jù)結(jié)構(gòu)是怎樣裝入寄存器供CPU計(jì)算的呢？

這篇文章就為你講解一下這個(gè)問(wèn)題。

內(nèi)存與數(shù)據(jù)

真正有用的程序是離不開數(shù)據(jù)的，比如一個(gè)int、一個(gè)float等，這些都是非常簡(jiǎn)單的數(shù)據(jù)。當(dāng)然也有非常復(fù)雜的數(shù)據(jù)，這樣的數(shù)據(jù)通常在內(nèi)存中以數(shù)據(jù)結(jié)構(gòu)的形式組織起來(lái)，比如你創(chuàng)建了一個(gè)數(shù)組、一個(gè)鏈表、創(chuàng)建了一棵樹、一張圖，就像這樣：那么很顯然這些數(shù)據(jù)存放在內(nèi)存中，而且這些數(shù)據(jù)在不同的場(chǎng)景下有不同的大小，從數(shù)B、數(shù)KB到數(shù)百GB都有可能，與此同時(shí)，CPU內(nèi)部的寄存器數(shù)量是固定的，容量也是極其有限的，那么CPU是如何利用有限的資源操作龐大的數(shù)據(jù)結(jié)構(gòu)呢？要回答這一問(wèn)題，我們需要要認(rèn)識(shí)一位農(nóng)夫，因?yàn)樗簧a(chǎn)數(shù)據(jù)，他只是數(shù)據(jù)的搬運(yùn)工，這位農(nóng)夫就是。。

搬運(yùn)數(shù)據(jù)的機(jī)器指令

你沒有看錯(cuò)，這位農(nóng)夫就是我們之前多次提到的機(jī)器指令。機(jī)器指令中除了負(fù)責(zé)邏輯運(yùn)算、執(zhí)行流控制、函數(shù)調(diào)用等指令外，還有一類指令，這類執(zhí)行只負(fù)責(zé)和內(nèi)存打交道，典型的就是精簡(jiǎn)指令集架構(gòu)中的Load/Store機(jī)器指令，即內(nèi)存讀寫指令(復(fù)雜指令集沒有單獨(dú)的內(nèi)存讀寫指令)。原來(lái)，從宏觀上看的話，存放在內(nèi)存中的數(shù)據(jù)，比如一個(gè)數(shù)組，可能會(huì)非常龐大，但是具體到代碼，每一個(gè)步驟操作的數(shù)據(jù)又會(huì)非常簡(jiǎn)單，就像這樣：

int* huge_arr = new int[1 * 1024* 1024 *1024];

我們創(chuàng)建了一個(gè)長(zhǎng)度為1G的數(shù)組，每個(gè)int 4字節(jié)，則這個(gè)數(shù)組的大小就是4GB，這顯然是一個(gè)很龐大的數(shù)組。對(duì)于這樣的數(shù)據(jù)，我們通常都會(huì)怎么使用呢？最常見的情況可能是遍歷一邊，然后對(duì)每個(gè)字符進(jìn)行一個(gè)簡(jiǎn)單操作，這里以計(jì)算數(shù)組之和為例：

long int sum = 0;for (int i = 0; i < 1 * 1024* 1024 *1024; i++) {    sum += huge_arr[i];}

雖然整個(gè)數(shù)組多達(dá)4GB，但具體到每一步我們一次只能操作一個(gè)元素，就像這里的：

sum += huge_arr[i];

這行代碼翻譯成機(jī)器指令可能是這樣的，我們假設(shè)此時(shí)i為100：

load $r0 100($r2)add $r1 $r1 $r0

(注意，實(shí)際當(dāng)中編譯器不會(huì)傻傻的生成100這樣的常數(shù)，這里代碼僅用來(lái)方便講解問(wèn)題)。
第一行指令中數(shù)組首地址存放在寄存器r2中，100($r2)表示數(shù)組首地址+100，這樣我們就能得到huge_arr[100]的地址了，然后將該地址中的值利用load指令加載到寄存器r0中。第二行就簡(jiǎn)單多了，r1寄存器中保存的是sum的值，該行指令執(zhí)行過(guò)后r1中的值就已經(jīng)加上了huge_arr[100]。現(xiàn)在你應(yīng)該能看出來(lái)了吧，雖然我們不能把整個(gè)數(shù)組加載到寄存器供CPU計(jì)算，但這其實(shí)是沒有必要的，因?yàn)槲覀円淮沃荒懿僮鲾?shù)組中的一個(gè)元素，我們只需要把這一個(gè)元素加載到寄存器就足矣了。對(duì)于其它復(fù)雜的數(shù)據(jù)結(jié)構(gòu)也是同樣的道理，無(wú)論多么復(fù)雜的數(shù)據(jù)，代碼對(duì)其一次的操作都是很簡(jiǎn)單很微小的，這一微小的操作使用的基本元素都可以通過(guò)內(nèi)存讀寫指令加載到寄存器，修改完后再寫回內(nèi)存。

編譯器

現(xiàn)在你應(yīng)該知道了為什么CPU內(nèi)部那么少的寄存器能操作內(nèi)存中龐大的數(shù)據(jù)結(jié)構(gòu)，實(shí)際上由于內(nèi)存中的數(shù)據(jù)要遠(yuǎn)大于CPU寄存器的容量，因此編譯器必須精心挑選，好讓那些經(jīng)常使用的數(shù)據(jù)放到寄存器中的時(shí)間更長(zhǎng)一點(diǎn)，這樣可以減少內(nèi)存讀寫次數(shù)。在上面的示例中，r2寄存器保存的是huge_arr這個(gè)數(shù)組在內(nèi)存中的起始地址，那么這個(gè)數(shù)據(jù)應(yīng)該放到寄存器中，因?yàn)楹罄m(xù)遍歷到的每一個(gè)元素都要用到該地址，這項(xiàng)工作就是編譯器來(lái)完成的。編譯器把那些經(jīng)常使用的數(shù)據(jù)放到寄存器，剩下的放到內(nèi)存中，然后利用內(nèi)存讀寫指令在寄存器和內(nèi)存之間來(lái)回搬運(yùn)數(shù)據(jù)。

總結(jié)

通過(guò)本文不難發(fā)現(xiàn)，實(shí)際上我們沒有必要一次性把整個(gè)數(shù)據(jù)全部裝到CPU寄存器中，而是用到哪些才裝載哪些。在最細(xì)粒度的操作中，依賴的操作數(shù)都可以直接加載到內(nèi)存，這通常是由內(nèi)存讀寫機(jī)器指令來(lái)完成的。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

博客專欄

數(shù)據(jù)結(jié)構(gòu)是如何裝入 CPU 寄存器的？

相關(guān)推薦

技術(shù)專區(qū)