用 C# 處理二進(jìn)制文件
用 C# 處理二進(jìn)制文件的話(huà),就會(huì)有另外兩項(xiàng)新的挑戰(zhàn)。第一項(xiàng)挑戰(zhàn)是:所有的 .NET 語(yǔ)言都是強(qiáng)類(lèi)型的。因此,你不得不從文件中的字節(jié)流轉(zhuǎn)換為你所想要的數(shù)據(jù)類(lèi)型。第二項(xiàng)挑戰(zhàn)就是:一些數(shù)據(jù)類(lèi)型比它們表面上要復(fù)雜的多,需要某種轉(zhuǎn)換。
類(lèi)型破壞(type breaking)
因?yàn)?.NET 語(yǔ)言,包括 C#,都是強(qiáng)類(lèi)型的,你不能只是任意的從文件中讀取一段字節(jié),然后塞到數(shù)據(jù)結(jié)構(gòu)中就一切OK了。因此當(dāng)你要破壞類(lèi)型轉(zhuǎn)換規(guī)則時(shí),你就不得不這樣做了,首先讀取你所需要的字節(jié)數(shù)到一個(gè)字節(jié)數(shù)組中,然后把它們從頭到尾的復(fù)制到數(shù)據(jù)結(jié)構(gòu)中。
在 Usenet (注:世界性的新聞組網(wǎng)絡(luò)系統(tǒng))的文檔中搜尋,你會(huì)找到幾個(gè)構(gòu)架在 microsoft.public.dotnet層次上的一組程序,它們可以容許你把任何對(duì)象轉(zhuǎn)換為一系列字節(jié),并可以重新轉(zhuǎn)換回對(duì)象。它們可以在下面地址找到 Listing A
復(fù)雜的數(shù)據(jù)類(lèi)型
在 C# 中,既沒(méi)有真正的數(shù)組,許多對(duì)象也沒(méi)有固定尺寸,因此一些復(fù)雜數(shù)據(jù)類(lèi)型并不適合成為固定尺寸的二進(jìn)制數(shù)據(jù)。
.NET 提供了一種方式來(lái)解決這種問(wèn)題。你可以告訴 C# ,你想怎樣處理你的字符串(string)和其它類(lèi)型的數(shù)組。這將通過(guò) MarshalAs 屬性來(lái)完成。下面這個(gè)例子,就是在 C# 中使用字符串,這屬性必須要在所控制的數(shù)據(jù)使用之前被使用:
[MarshalAs(UnmanagedType.ByValTStr, SizeConst = 50)]
你想要從二進(jìn)制文件中讀取,或者儲(chǔ)存到二進(jìn)制文件中的字符串(string)的長(zhǎng)度就決定了參數(shù) SizeConst 的大小。這樣就確定了字符串長(zhǎng)度的最大值。
現(xiàn)在,你知道了 .NET 引入的問(wèn)題是怎樣被解決的了。那么,在后面,你就可以了解到,解決前面所遇到的二進(jìn)制文件問(wèn)題是那么的容易。
包裝(pack)
不用麻煩的去設(shè)定編譯器來(lái)控制如何排列數(shù)據(jù)。你只需使用 StructLayout 屬性就可以使數(shù)據(jù)依照你的意愿來(lái)排列或打包。當(dāng)你需要不同的數(shù)據(jù)有著不同的包裝方式的時(shí)候,這就顯得十分有用了。這就像裝扮你的汽車(chē)一樣,任你的喜好。使用 StructLayout 屬性就像你很小心的決定是否把每一個(gè)數(shù)據(jù)都緊湊包裝或者還是只將它們隨便打發(fā),只要它們能夠被重新讀出來(lái)就行了。 StructLayout 屬性的使用如下面所示:
[StructLayout(LayoutKind.Sequential, Pack = 1)]
這樣做可以使數(shù)據(jù)忽略邊界對(duì)齊,讓數(shù)據(jù)盡可能的緊湊包裝。這個(gè)屬性應(yīng)當(dāng)和你從二進(jìn)制文件中讀取的任何數(shù)據(jù)的屬性都保持一致(即:你寫(xiě)到文件中的屬性應(yīng)和從文件讀出來(lái)屬性保持不變)。
你也許會(huì)發(fā)現(xiàn),即使給你的數(shù)據(jù)加上了這個(gè)屬性后,也沒(méi)有完全解決問(wèn)題。在某些情況下,你可能不得不進(jìn)行沉悶冗長(zhǎng)的反復(fù)實(shí)驗(yàn)。由于不同計(jì)算機(jī)和編譯器在二進(jìn)制層次上的有著不同的運(yùn)行處理方式,這就是引起上述問(wèn)題的原因。特別是在跨平臺(tái)時(shí),我們都必須特別小心的處理二進(jìn)制數(shù)據(jù)。 .NET 是個(gè)好工具,適合其它二進(jìn)制文件,但是也并不是一個(gè)完美的工具。
字節(jié)排列順序的翻轉(zhuǎn)(endian flipping)
讀寫(xiě)二進(jìn)制文件的經(jīng)典問(wèn)題之一就是:某些計(jì)算機(jī)首先是儲(chǔ)存最不重要的字節(jié)(如:Inter),而另外一些計(jì)算機(jī)是首先儲(chǔ)存最重要的字節(jié)。在 C 和 C++ 中,你不得不手動(dòng)處理這個(gè)問(wèn)題,而且只能是一個(gè)字段一個(gè)字段的翻轉(zhuǎn)。而 .NET 框架的優(yōu)點(diǎn)之一就是:代碼可以在運(yùn)行時(shí)訪(fǎng)問(wèn)類(lèi)型的元數(shù)據(jù)(metadata),你也就能夠讀取信息,并使用它來(lái)自動(dòng)解決數(shù)據(jù)中每一段的字節(jié)排列順序問(wèn)題。在 Listing B 上可以找到源代碼,你可以了解是如何處理的。
一旦你得知對(duì)象的類(lèi)型,你能夠獲得數(shù)據(jù)里的每個(gè)部分,并開(kāi)始檢查每一個(gè)部分,并確定其是否是一個(gè)16位或32位的無(wú)符號(hào)整數(shù)。在任何一種上述情況下,你都可以改變字節(jié)的排序順序,而且不會(huì)破壞數(shù)據(jù)。
注意:你不是用字符串類(lèi)(string)來(lái)完成所有的事。是采用高位優(yōu)先還是低位優(yōu)先,并不會(huì)影響到字符串類(lèi)。那些字段是不受翻轉(zhuǎn)代碼的影響。你也只是要注意無(wú)符號(hào)整數(shù)而已。因?yàn)?,?fù)數(shù)在不同的系統(tǒng)上,并不是使用同一種表示方式的。負(fù)數(shù)可以只用一個(gè)記號(hào)(一位字節(jié))表示,但是更常用的,卻是使用兩個(gè)記號(hào)(兩位字節(jié))表示。這使得負(fù)數(shù)在跨平臺(tái)時(shí)有些更困難。幸運(yùn)的是,負(fù)數(shù)在二進(jìn)制文件中極少使用。
這只是多說(shuō)幾句了,同樣的,浮點(diǎn)數(shù)有時(shí)并不是用標(biāo)準(zhǔn)方式表示的。盡管大多數(shù)系統(tǒng)是以IEEE格式為基礎(chǔ)來(lái)設(shè)置浮點(diǎn)數(shù)的,但是還是有一小部分老的系統(tǒng)使用了其它的格式來(lái)設(shè)置浮點(diǎn)數(shù)的。
克服困難
盡管 C# 還是有一些問(wèn)題,但是你依舊能夠使用它來(lái)讀取二進(jìn)制文件。實(shí)際上,由于 C# 所使用的那種用來(lái)訪(fǎng)問(wèn)對(duì)象的元數(shù)據(jù)(metadata)的方式,使它成為一種能夠更好讀取二進(jìn)制文件的語(yǔ)言。因此, C# 能夠自動(dòng)解決整個(gè)數(shù)據(jù)的字節(jié)交換(byte swapping)問(wèn)題。
新聞熱點(diǎn)
疑難解答
圖片精選