您的位置:首页 > 其它

ELF format -- How programs look from the inside

2010-12-21 18:02 531 查看
ELF format -- How programs look from the inside

ELF 是用于Linux系统下一种文件格式,包括目标文件,二进制文件,共享库和core dump。



一个ELF文件对它包含的数据提供两种视图,链接视图和执行视图。这两个视图能够被两个头访问:Section Header Table(SHT)和Program Header Table(PHT).

Linking View: Section Header Table(SHT)

SHT提供对ELF文件所有section的概述。特别令人关注的是REL section(relocations),SYMTAB/DYNSYM(symbol tables),VERSYM/VERDEF/VERNEED sections(symbol versioning information)。

[john@localhost objmodel]$ readelf -S /bin/bash

There are 32 section headers, starting at offset 0xd5ea8:

Section Headers:

[Nr] Name Type Addr Off Size ES Flg Lk Inf Al

[ 0] NULL 00000000 000000 000000 00 0 0 0

[ 1] .interp PROGBITS 08047134 000134 000013 00 A 0 0 1

[ 2] .note.ABI-tag NOTE 08047148 000148 000020 00 A 0 0 4

[ 3] .note.gnu.build-i NOTE 08047168 000168 000024 00 A 0 0 4

[ 4] .gnu.hash GNU_HASH 0804718c 00018c 003600 04 A 5 0 4

[ 5] .dynsym DYNSYM 0804a78c 00378c 0083c0 10 A 8 1 4

[ 6] .gnu.liblist GNU_LIBLIST 08052b4c 00bb4c 000050 14 A 8 0 4

[ 7] .gnu.conflict RELA 08052b9c 00bb9c 000240 0c A 5 0 4

[ 8] .dynstr STRTAB 08053b3a 00cb3a 008076 00 A 0 0 1

[ 9] .gnu.version VERSYM 0805bbb0 014bb0 001078 02 A 5 0 2

[10] .gnu.version_r VERNEED 0805cc28 015c28 0000b0 00 A 8 2 4

[11] .rel.dyn REL 0805ccd8 015cd8 000040 08 A 5 0 4

[12] .rel.plt REL 0805cd18 015d18 000638 08 A 5 14 4

[13] .init PROGBITS 0805d350 016350 000030 00 AX 0 0 4

[14] .plt PROGBITS 0805d380 016380 000c80 04 AX 0 0 4

[15] .text PROGBITS 0805e000 017000 0886ac 00 AX 0 0 16

[16] .fini PROGBITS 080e66ac 09f6ac 00001c 00 AX 0 0 4

[17] .rodata PROGBITS 080e66e0 09f6e0 01905e 00 A 0 0 32

[18] .eh_frame_hdr PROGBITS 080ff740 0b8740 003aa4 00 A 0 0 4

[19] .eh_frame PROGBITS 081031e4 0bc1e4 014b84 00 A 0 0 4

[20] .ctors PROGBITS 08118000 0d1000 000008 00 WA 0 0 4

[21] .dtors PROGBITS 08118008 0d1008 000008 00 WA 0 0 4

[22] .jcr PROGBITS 08118010 0d1010 000004 00 WA 0 0 4

[23] .dynamic DYNAMIC 08118014 0d1014 0000d8 08 WA 8 0 4

[24] .got PROGBITS 081180ec 0d10ec 000004 04 WA 0 0 4

[25] .got.plt PROGBITS 081180f0 0d10f0 000328 04 WA 0 0 4

[26] .data PROGBITS 08118420 0d1420 004390 00 WA 0 0 32

[27] .dynbss PROGBITS 0811c7c0 0d57c0 000044 00 WA 0 0 32

[28] .bss NOBITS 0811c804 0d5804 004e08 00 WA 0 0 32

[29] .gnu_debuglink PROGBITS 00000000 0d5804 000010 00 0 0 4

[30] .gnu.prelink_undo PROGBITS 00000000 0d5814 00056c 01 0 0 4

[31] .shstrtab STRTAB 00000000 0d5d80 000127 00 0 0 1

Key to Flags:

W (write), A (alloc), X (execute), M (merge), S (strings)

I (info), L (link order), G (group), x (unknown)

O (extra OS processing required) o (OS specific), p (processor specific)

Execution view: Program Header Table (PHT)

PHT包含一些信息,让内核知道怎么启动程序。LOAD指令决定ELF文件的那部分需要映射到内存。INTERP指令指定一个ELF解释器, 在Linux系统下一般是/lib/ld-linux.so.2。

DYNAMIC 入口点指向.dynamic段,包含用于ELF解释器设置二进制的信息。

[john@localhost objmodel]$ readelf -l /bin/bash

Elf file type is EXEC (Executable file)

Entry point 0x805e000

There are 8 program headers, starting at offset 52

Program Headers:

Type Offset VirtAddr PhysAddr FileSiz MemSiz Flg Align

PHDR 0x000034 0x08047034 0x08047034 0x00100 0x00100 R E 0x4

INTERP 0x000134 0x08047134 0x08047134 0x00013 0x00013 R 0x1

[Requesting program interpreter: /lib/ld-linux.so.2]

LOAD 0x000000 0x08047000 0x08047000 0xd0d68 0xd0d68 R E 0x1000

LOAD 0x0d1000 0x08118000 0x08118000 0x04804 0x0960c RW 0x1000

DYNAMIC 0x0d1014 0x08118014 0x08118014 0x000d8 0x000d8 RW 0x4

NOTE 0x000148 0x08047148 0x08047148 0x00044 0x00044 R 0x4

GNU_EH_FRAME 0x0b8740 0x080ff740 0x080ff740 0x03aa4 0x03aa4 R 0x4

GNU_STACK 0x000000 0x00000000 0x00000000 0x00000 0x00000 RW 0x4

Section to Segment mapping:

Segment Sections...


01 .interp

02 .interp .note.ABI-tag .note.gnu.build-id .gnu.hash .dynsym .gnu.liblist .gnu.conflict .dynstr .gnu.version .gnu.version_r .rel.dyn .rel.plt .init .plt .text .fini .rodata .eh_frame_hdr .eh_frame

03 .ctors .dtors .jcr .dynamic .got .got.plt .data .dynbss .bss

04 .dynamic

05 .note.ABI-tag .note.gnu.build-id

06 .eh_frame_hdr



STH和PTH都没有固定的位置,他们可以放在ELF文件的任何地方。 使用ELF头来找到它们,ELF头定位在文件的开始处。

第一个字节包含ELF magic(?)"/x7fELF",接着是ClassID(32/64bit ELF文件),数据格式ID(小端/大端),机器类型,等等。


[john@localhost objmodel]$ readelf -h /bin/bash

ELF Header:

Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00

Class: ELF32

Data: 2's complement, little endian

Version: 1 (current)

OS/ABI: UNIX - System V

ABI Version: 0

Type: EXEC (Executable file)

Machine: Intel 80386

Version: 0x1

Entry point address: 0x805e000

Start of program headers: 52 (bytes into file)

Start of section headers: 876200 (bytes into file)

Flags: 0x0

Size of this header: 52 (bytes)

Size of program headers: 32 (bytes)

Number of program headers: 8

Size of section headers: 40 (bytes)

Number of section headers: 32

Section header string table index: 31

Relocation Table


重定位类型是架构相关的,这儿通常有很多相关的。在i386上最重要的是R_386_COPY 类型,意思是"只是拷贝符号地址到另一个地址", R_386_JUMP_SLOT,用于一般的PLT/GOT函数调用重定位机制。


[john@localhost objmodel]$ readelf -r /bin/bash | more

Relocation section '.gnu.conflict' at offset 0xbb9c contains 48 entries:

Offset Info Type Sym.Value Sym. Name + Addend

081181a8 0000002a R_386_IRELATIVE 006c00f0

081181b8 0000002a R_386_IRELATIVE 007386b0

08118278 0000002a R_386_IRELATIVE 006c0700

08118280 0000002a R_386_IRELATIVE 006bee80

081182f8 0000002a R_386_IRELATIVE 006c6bc0

08118338 0000002a R_386_IRELATIVE 006c81f0

08118358 0000002a R_386_IRELATIVE 006c0030

081183a4 0000002a R_386_IRELATIVE 006bf100

081183b0 0000002a R_386_IRELATIVE 006bf460

081183d0 0000002a R_386_IRELATIVE 00738700

081183ec 0000002a R_386_IRELATIVE 006be880

00448a88 00000001 R_386_32 0811c7c0


输出的符号(exported symbols)

当动态链接器通过浏览动态符号表.dynsym来搜索符号时,所有的能被其他程序使用的符号都会出现(换句话说:exported and in case of a library, part of the ABI),Application Binary Interface.


[john@localhost objmodel]$ readelf -D -s /bin/bash | more

Symbol table of `.gnu.hash' for image:

Num Buc: Value Size Type Bind Vis Ndx Name

199 1: 0811f46c 4 OBJECT GLOBAL DEFAULT 28 prog_completes

200 1: 080c4780 406 FUNC GLOBAL DEFAULT 15 sh_regmatch

201 1: 0807d590 90 FUNC GLOBAL DEFAULT 15 fatal_error

202 1: 080965b0 34 FUNC GLOBAL DEFAULT 15 set_sigwinch_handler

203 2: 080b6f50 465 FUNC GLOBAL DEFAULT 15 set_shellopts

204 2: 08074730 194 FUNC GLOBAL DEFAULT 15 execute_command

205 2: 08060c30 354 FUNC GLOBAL DEFAULT 15 history_delimiting_chars

206 2: 08118ae8 20 OBJECT GLOBAL DEFAULT 26 it_builtins


A more detailed look at versionsort64


原因很简单,libc.so.6使用符号版本,这里有两个versionsort64版本是有效的。很不幸,binutils(二进制工具集)readelf 不能显示符号版本,eu-readelf 来至于elfutils包

[john@localhost objmodel]$ readelf -D -s /lib/libc.so.6 | grep versionsort64

1127 9: 006e19a0 31 FUNC GLOBAL DEFAULT 12 versionsort64

1126 9: 00766a40 31 FUNC GLOBAL DEFAULT 12 versionsort64

1126 498: 00766a40 31 FUNC GLOBAL DEFAULT 12 versionsort64

1127 498: 006e19a0 31 FUNC GLOBAL DEFAULT 12 versionsort64



一个程序的执行开始与内核的内部,也就是在系统调用中开始。查找文件类型,调用合适的处理程序。binfmt-elf处理程序加载ELF头和PHT, 紧接着是大量完整性检查。

然后内核在PHT的LOAD指令下部分的载入到内存。假如INTERP进入点已经存在,解释器也会被加载。静态链接的二进制可以不需要解释器,动态链接的程序总是需要/lib/ld-linux.so来解释,因为它包含许多启动代码,loads shared libraries needed by the binary, and performs relocation?

最后控制权会转移到程序中,(到解释器中,如果存在,否则就在二进制本身)to the interpreter, if present, otherwise to the binary itself。

[john@localhost objmodel]$ readelf -l /bin/bash

Elf file type is EXEC (Executable file)

Entry point 0x805e000

There are 8 program headers, starting at offset 52

Program Headers:

Type Offset VirtAddr PhysAddr FileSiz MemSiz Flg Align

PHDR 0x000034 0x08047034 0x08047034 0x00100 0x00100 R E 0x4

INTERP 0x000134 0x08047134 0x08047134 0x00013 0x00013 R 0x1

[Requesting program interpreter: /lib/ld-linux.so.2]

LOAD 0x000000 0x08047000 0x08047000 0xd0d68 0xd0d68 R E 0x1000

LOAD 0x0d1000 0x08118000 0x08118000 0x04804 0x0960c RW 0x1000

DYNAMIC 0x0d1014 0x08118014 0x08118014 0x000d8 0x000d8 RW 0x4

NOTE 0x000148 0x08047148 0x08047148 0x00044 0x00044 R 0x4

GNU_EH_FRAME 0x0b8740 0x080ff740 0x080ff740 0x03aa4 0x03aa4 R 0x4

GNU_STACK 0x000000 0x00000000 0x00000000 0x00000 0x00000 RW 0x4

Section to Segment mapping:

Segment Sections...


01 .interp

02 .interp .note.ABI-tag .note.gnu.build-id .gnu.hash .dynsym .gnu.liblist .gnu.conflict .dynstr .gnu.version .gnu.version_r .rel.dyn .rel.plt .init .plt .text .fini .rodata .eh_frame_hdr .eh_frame

03 .ctors .dtors .jcr .dynamic .got .got.plt .data .dynbss .bss

04 .dynamic

05 .note.ABI-tag .note.gnu.build-id

06 .eh_frame_hdr


In case of a statically linked binary that's pretty much it, however with dynamically linked binaries a lot more magic has to go on


当发现NEEDED进入点是,在程序运行之前决定哪个库要不加载,×REL× 进入点包含重定位表的地址,×VER*进入点包含符号版本信息,等等。



[john@localhost objmodel]$ readelf -d /bin/bash

Dynamic section at offset 0xd1014 contains 26 entries:

Tag Type Name/Value

0x00000001 (NEEDED) Shared library: [libtinfo.so.5]

0x00000001 (NEEDED) Shared library: [libdl.so.2]

0x00000001 (NEEDED) Shared library: [libc.so.6]

0x0000000c (INIT) 0x805d350

0x0000000d (FINI) 0x80e66ac

0x6ffffef5 (GNU_HASH) 0x804718c

0x00000005 (STRTAB) 0x8053b3a

0x00000006 (SYMTAB) 0x804a78c

0x0000000a (STRSZ) 32867 (bytes)

0x0000000b (SYMENT) 16 (bytes)

0x00000015 (DEBUG) 0x0

0x00000003 (PLTGOT) 0x81180f0

0x00000002 (PLTRELSZ) 1592 (bytes)

0x00000014 (PLTREL) REL

0x00000017 (JMPREL) 0x805cd18

0x00000011 (REL) 0x805ccd8

0x00000012 (RELSZ) 64 (bytes)

0x00000013 (RELENT) 8 (bytes)

0x6ffffffe (VERNEED) 0x805cc28

0x6fffffff (VERNEEDNUM) 2

0x6ffffff0 (VERSYM) 0x805bbb0

0x6ffffef9 (GNU_LIBLIST) 0x8052b4c

0x6ffffdf7 (GNU_LIBLISTSZ) 80 (bytes)

0x6ffffef8 (GNU_CONFLICT) 0x8052b9c

0x6ffffdf6 (GNU_CONFLICTSZ) 576 (bytes)

0x00000000 (NULL) 0x0

动态链接器的符号查找(symbol lookup by the dynamic linker)


对于每个加载的对象,RTLD(Runtime dynamic linker)保持一个加载对象的列表,叫做“查找范围(lookup scope)”,每个范围包含指向所有加载对象的指针(二进制和所有加载的库),但是不同的范围对象的顺序是不同的。可是在每个scope中binary总是第一个对象。



符号查找规则的重要性(consequences of the symbol lookup rules)




通常这是很好的,但是这可能带来一个问题,假如二进制不留意定义了一个符号,这个符号也在许多加载的库使用(think program uses GTK, which pulls in different theme and input plugins depending on the user's system config)。

假如程序定义一个函数void print_error(int error_code, char* str);同时许多插件也定义了同样名字的函数,但是另一个署名,例如int print_error(char* str), 这也许是有问题的。假如插件没有输出print_error符号,这里就没有问题,因为在插件中的代码只是直接调用合适的函数,并不需要查找符号表。

然而假如插件输出符号了,它就要自己查找符号表(因为那是由SystemV ABI规范所要求的,同时也有LSB).那么print_error将会被二进制中的符号干预,那是个不兼容的签名,将会引发一个崩溃。

解决方案(solutions for this)



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息