Порядок следования байтов: LE против BE

Перед тем, как разобраться с разными порядками следования байтов для записи целых чисел в памяти ЭВМ, рекомендуется вспомнить способы машинного представления целых чисел:

А. А. Вылиток. Представление чисел в ЭВМ (333.93 Кбайт)
представление чисел в ЭВМ (и конвертер)

Порядок следования битов

Тут же следует договориться, что в двоичной записи чисел нумеровать биты будем по старшинству разрядов. То есть если представить двоичную запись числа в виде разложения по степеням основания позиционной системы счисления, то младший бит b₀ — это коэффициент при младшем разряде, то есть при двойке в нулевой степени:

x = b_n−1 2ⁿ⁻¹ + b_n−2 2ⁿ⁻² + . . . + b₂ 2² + b₁ 2¹ + b₀ 2⁰ → b_n−1 b_n−2 . . . b₂ b₁ b₀

Так, например, число 237₁₀ имеет в двоичной системе счисления два нулевых бита b₁ и b₄, так как в многочлене слагаемые с первой и четвертой степенью двойки имеют нулевые коэффициенты:

237₁₀ = 1 × 2⁷ + 1 × 2⁶ + 1 × 2⁵ + 0 × 2⁴ + 1 × 2³ + 1 × 2² + 0 × 2¹ + 1 × 2⁰ → 11101101₂

1	1	1	0	1	1	0	1
b₇	b₆	b₅	b₄	b₃	b₂	b₁	b₀

Важно, что договориться надо только о старшинстве и нумерации битов, а то, как они располагаются (слева-направо или справа-налево) в ячейке памяти, абсолютно не важно. Дело в том, что напрямую из памяти можно прочитать только ячейку целиком. А когда ячейка уже загружена в регистр центрального процессора, можно работать с отдельными битами с помощью арифметико-логических операций. Тут-то и пригодится соглашение о том, как мы нумеруем биты для соблюдения консенсуса.

Порядок следования байтов

Длинные целые числа в памяти могут занимать несколько соседних ячеек: слово (2 ячейки), двойное слово (4 ячейки), четверное слово (8 ячеек) и т. д. В пределах одной ЭВМ, на первый взгляд, не так важно, в каком порядке хранятся части длинного целого числа в памяти.

От младшего к старшему (Little-Endian)

Если длинное число разместить в памяти от младшего байта к старшему в порядке возрастания адресов памяти, тогда на иллюстрации можно использовать единое направление порядка нумерации битов и нумерации ячеек памяти. Так, например, представление числа 1 957 227 809 (111 0100 1010 1000 1110 1101 0010 0001₂, 74 A8 ED 21₁₆) по адресу Y будет выглядеть так:

7				4
0	1	1	1	0	1	0	0
b₇	b₆	b₅	b₄	b₃	b₂	b₁	b₀

Y + 3

A				8
1	0	1	0	1	0	0	0
b₇	b₆	b₅	b₄	b₃	b₂	b₁	b₀

Y + 2

E				D
1	1	1	0	1	1	0	1
b₇	b₆	b₅	b₄	b₃	b₂	b₁	b₀

Y + 1

2				1
0	0	1	0	0	0	0	1
b₇	b₆	b₅	b₄	b₃	b₂	b₁	b₀

N ← адреса ячеек ← 0

Кстати, такой способ иллюстрации позволяет легко понять, где находится, например, 25-й бит этого большого числа. Так как направление порядка нумерации битов и ячеек памяти тут совпадает, то можно перенумеровать биты всего числа «насквозь»:

7				4
0	1	1	1	0	1	0	0
b₃₁	b₃₀	b₂₉	b₂₈	b₂₇	b₂₆	b₂₅	b₂₄

Y + 3

A				8
1	0	1	0	1	0	0	0
b₂₃	b₂₂	b₂₁	b₂₀	b₁₉	b₁₈	b₁₇	b₁₆

Y + 2

E				D
1	1	1	0	1	1	0	1
b₁₅	b₁₄	b₁₃	b₁₂	b₁₁	b₁₀	b₉	b₈

Y + 1

2				1
0	0	1	0	0	0	0	1
b₇	b₆	b₅	b₄	b₃	b₂	b₁	b₀

N ← адреса ячеек ← 0

И тогда сразу видно, что 25-й бит располагается в байте по адресу Y + 3.

От старшего к младшему (Big-Endian)

А если длинное число размещать в памяти от старшего байта к младшему в порядке возрастания адресов памяти, тогда на иллюстрации надо поменять направление нумерации ячеек памяти, и рисовать их слева-направо:

7				4
0	1	1	1	0	1	0	0
b₃₁	b₃₀	b₂₉	b₂₈	b₂₇	b₂₆	b₂₅	b₂₄

A				8
1	0	1	0	1	0	0	0
b₂₃	b₂₂	b₂₁	b₂₀	b₁₉	b₁₈	b₁₇	b₁₆

Y + 1

E				D
1	1	1	0	1	1	0	1
b₁₅	b₁₄	b₁₃	b₁₂	b₁₁	b₁₀	b₉	b₈

Y + 2

2				1
0	0	1	0	0	0	0	1
b₇	b₆	b₅	b₄	b₃	b₂	b₁	b₀

Y + 3

0 → адреса ячеек → N

Еще раз взгляните на иллюстрации и найдите «10 отличий». Согласитесь, что разница только в направлении порядка нумерации ячеек памяти. Именно поэтому рекомендуется при решении задач менять направление нумерации адресов памяти, чтобы не нарушать привычный естественный порядок записи числа в позиционной системе счисления.

Почему не остался только один вариант?

Большинство ЭВМ (за некоторым исключением) размещают данные в памяти в порядке возрастания старшинства: младшие значения размещают в ячейках с меньшим адресом, а старшие значения — в ячейках с большим адресом (LE — Little Endian). Такой подход упрощает обработку длинных данных, занимающих несколько ячеек памяти подряд.

Но при межмашинном взаимодействии, например, по вычислительной сети, применяются сетевые протоколы, среди которых наиболее распространенный протокол TCP/IP использует порядок Big-Endian. TCP/IP — основа современной сети Интернет — вырос из североамериканского проекта ARPANET военного ведомства DARPA, который развивался в эпоху вычислительных машин семейства IBM System/360. А это как раз те самые ЭВМ, в которых применялся порядок следования байтов «от старшего к младшему», то есть Big-Endian.

Более того, порядок BE можно встретить в цифровых форматах мультимедиа, используемых для хранения медиаданных (аудио, видео) или для потоковой трансляции.