BGP协议学习笔记——BGP基础(BGP概念、BGP报文、BGP状态机、BGP关系建立、BGP路由通告)
说明:本文学习笔记整理自网络、华为公开产品文档、华为公开PPT及部分的自我理解
一、BGP简介
BGP定义
边界网关协议BGP(Border Gateway Protocol)是一种实现自治系统AS(Autonomous System)之间的路由可达,并选择优选路由的距离矢量路由协议。
BGP目的
为方便管理规模不断扩大的网络,网络被分成了不同的自治系统。BGP协议被用于实现在AS之间动态交换路由信息、进行路由优选、避免路由环路、更高效率地传递路由和维护大量的路由信息。
(小型网络一般使用VPN、GRE技术实现两个不同地区之间同一公司的网络互连)
BGP优点
BGP从多方面保证了网络的安全性、灵活性、稳定性、可靠性和高效性:
l BGP采用认证和GTSM(通用TTL安全保护机制,Generalized TTL Security Mechanism)的方式,保证了网络的安全性。
l BGP提供了丰富的路由策略,能够灵活地进行路由选路,并且能指导邻居按策略发布路由。
l BGP提供了路由聚合和路由衰减功能用于防止路由振荡,有效提高了网络的稳定性。
l BGP使用TCP作为其传输层协议(端口号为179),并支持BGP与BFD联动、BGP Tracking和BGP GR和NSR,提高了网络的可靠性。
l 在邻居数目多、路由量大且大部分邻居具有相同出口策略的场景下,BGP使用按组打包技术极大地提高了BGP打包发包性能。
在这里想提一下路由策略和策略路由的区别:
其共同目的都是知道报文从一个地方转移到一个地方
区别在于一个进路由表,一个不进路由表
**路由策略:**通过工具对路由或路由内部信息进行修改,次改后对各参数进行比较,选择最优的路径来达到控制路由的选路路径。
**策略路由:**不修改路由,直接以命令方式告诉路由往哪走,往哪拐就行了,不用在我这着停留,不欢迎你,只承担告知指导作用。
(以上纯属查阅资料后个人的整理及总结理解,非常欢迎指正,谢谢)
BGP的特征
l BGP使用TCP为传输层协议,TCP端口号179。路由器之间的BGP会话基于TCP连接而建立。
l 运行BGP的路由器被称为BGP发言者(BGP Speaker),或BGP路由器。
l 两个建立BGP会话的路由器互为对等体(Peer),BGP对等体之间交换BGP路由表。
l BGP路由器只发送增量的BGP路由更新,或进行触发式更新(不会周期性更新)。
l BGP能够承载大批量的路由前缀,可在大规模网络中应用。
l BGP通常被称为路径矢量路由协议(Path-Vector Routing Protocol)。
l 每条BGP路由都携带多种路径属性(Path attribute),BGP可以通过这些路径属性控制路径选择,而不像IS-IS、OSPF只能通过Cost控制路径选择,因此在路径选择上,BGP具有丰富的可操作性,可以在不同场景下选择最合适的路径控制方式。
二、BGP对等体的建立
对等体类型
如图所示,BGP邻居类型按照运行方式分为EBGP(External/Exterior BGP)和IBGP(Internal/Interior BGP)。
BGP的运行方式
EBGP:运行于不同AS之间的BGP称为EBGP。为了防止AS间产生环路,当BGP设备接收EBGP对等体发送的路由时,会将带有本地AS号的路由丢弃。
IBGP:运行于同一AS内部的BGP称为IBGP。为了防止AS内产生环路,BGP设备不将从IBGP对等体学到的路由通告给其他IBGP对等体,并与所有IBGP对等体建立全连接。为了解决IBGP对等体的连接数量太多的问题,BGP设计了路由反射器和BGP联盟。
对等体建立过程
BGP的5种报文格式
BGP对等体间通过以下5种报文进行交互,其中Keepalive报文为周期性发送,其余报文为触发式发送:
l Open报文:用于建立BGP对等体连接。
l Update报文:用于在对等体之间交换路由信息。
l Notification报文:用于中断BGP连接。
l Keepalive报文:用于保持BGP连接。
l Route-refresh报文:用于在改变路由策略后请求对等体重新发送路由信息。只有支持路由刷新(Route-refresh)能力的BGP设备会发送和响应此报文。
说明:5种BGP报文都拥有相同的报文头
TYPE值
TYPE值 | 报文类型 |
---|---|
1 | OPEN |
2 | UPDATE |
3 | NOTIFICATION |
4 | KEEPALIVE |
5 | REFRESH |
1. 头部报文
报文头格式
BGP报文头格式字段解释
字段名 | 长度 | 含义 |
---|---|---|
Marker | 16字节 | 用于检查BGP对等体的同步信息是否完整,以及用于BGP验证的计算。不使用验证时所有比特均为1(十六进制则全“FF”)。 |
Length | 2个字节(无符号位) | BGP消息总长度(包括报文头在内),以字节为单位。长度范围是19~4096。 |
Type | 1个字节(无符号位) | BGP消息的类型。Type有5个可选值,表示BGP报文头后面所接的5类报文。 |
抓包结果
2. OPEN报文
如果BGP报文头中的TYPE为1,则该报文为OPEN报文。报文头后面所接的报文内容如下,OPEN报文用于建立BGP连接。OPEN报文格式如图所示。
OPEN报文格式
OPEN报文格式字段解释
字段名 | 长度 | 含义 |
---|---|---|
Version | 1个字节(无符号位) | 表示协议的版本号,现在BGP的版本号为4。 |
My Autonomous System | 2个字节(无符号位) | 发送者自己的AS域号 |
Hold Time | 2个字节(无符号位) | 发送者自己设定的hold time值(单位:秒),用于协商BGP对等体间保持建立连接关系,发送KEEPALIVE或UPDATE等报文的时间间隔。BGP的状态机必须在收到对等体的OPEN报文后,对发出的OPEN报文和收到的OPEN报文两者的hold time时间作比较,选择较小的时间作为协商结果。Hold Time的值可为零(不发KEEPALIVE报文)或大于等于3,系统的默认为180。 |
BGP Identifier | 4个字节(无符号位) | 发送者的router id。 |
Opt Parm Len | 1个字节(无符号位) | 表示Optional Parameters(可选参数)的长度。如果此值为0,表示没有可选参数。 |
Optional Parameters | 可变 | 此值为BGP可选参数列表,每一个可选参数是一个TLV格式的单元。0 10 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5±±±±±±±±±±±±±±±±±±±±…| Parm. Type | Parm. Length | Parameter Value (variable)±±±±±±±±±±±±±±±±±±±±…Parm. Type:占1个字节(无符号位),为可选参数类型。我们现在的实现中,只在type值为2时有意义,表示携带的参数为协商能力。Parm. Length:占1个字节(无符号位),为Parameter Value的长度。Parameter. Value:根据Parm.Type的不同值填写不同的参数内容,在Parm.Type为2表示协商能力时,Parameter.Value是表示所支持的各种协商能力的列表,列表中的每一个单元是如下的一个TLV三元组:±-----------------------------+| Capability Code (1 octet) |±-----------------------------+| Capability Length (1 octet) |±-----------------------------+| Capability Value (variable) |±-----------------------------+Capability Code:所支持的能力编号,占1个字节。Code为1时,表示支持的地址族能力;Code为2时,表示支持REFRESH能力。Capability Length:表示Capability Value的长度,占1个字节。Capability Value:根据Code值的不同其内容与长度也不同。Capability Code为1:Capability Value值是一个TLV三元组,共占4个字节:0 7 15 23 31±------±------±------±------+| AFI | Res. | SAFI |±------±------±------±------+AFI:地址族标识(Address Family Identifier),占2个字节,能力所支持地址族标识信息,用以和SAFI一同确定网络层协议和IP地址间的关系,编码方式与多协议扩展中的规定相同。其值按照相关RFC中ADDRESS FAMILY NUMBERS的定义;Res:保留位,占1个字节,发送者应将其设置为零,在接受的时候忽略;SAFI:子地址族标识(Address Family Identifier),占1个字节,能力所支持的子地址族标识信息,用以和AFI一同确定网络层协议和IP地址间的关系,编码方式与多协议扩展中的规定相同。其值按照相关RFC中ADDRESS FAMILY NUMBERS的定义。Capability Code为2表示支持路由刷新能力,即Route Refresh Capability。此能力的code为2,length为零,无value部分。 需要说明的是,只有在能力协商中使用了支持Route Refresh Capability,设备才能处理REFRESH报文。我们的实现是默认情况下,支持IPv4单播能力与路由刷新能力,其他能力需要另外设定。 |
AFI及SAFI编码说明
AFI编码 | AFI说明 | SAFI编码 | SAFI说明 | 说明 |
---|---|---|---|---|
1 | IPv4地址族 | 1 | 单播 | IPv4单播 |
2 | 组播 | IPv4组播 | ||
128 | VPN | IPv4的L3VPN | ||
2 | IPv6地址族 | 1 | 单播 | IPv6单播 |
2 | 组播 | IPv6组播 | ||
128 | VPN | IPv6的L3VPN | ||
196 | 二层 | 128 | VPN | L2VPN的BGP方式 |
抓包结果
3. Update报文
如果BGP报文头中的TYPE为2,则该报文为UPDATE报文。报文头后面所接的报文内容如下,UPDATE报文用于通告路由。UPDATE报文格式如图所示。
UPDATE报文格式
UPDATE报文格式字段解释
字段名 | 长度 | 含义 |
---|---|---|
Unfeasible routes length | 2个字节(无符号位) | 标明Withdrawn Routes部分的长度。其值为零时,表示没有撤销的路由。 |
Withdrawn Routes | 变长 | 包含要撤销的路由列表,列表中的每个单元包含1字节的Length域和可变长度的Prefix域。Length:待撤销路由的掩码。其值为零时,表示匹配所有的路由。Prefix:传送的IP地址前缀必须用整字节表示。例如:假定待撤销的路由为192.168.200.200,其编码用16进制表示可如下:Mask掩码(十进制) Length Prefix32 20 C4 A8 C8 C825 19 C4 A8 C8 8020 14 C4 A8 C015 0F C4 A8 |
Total Path Attribute Length | 2个字节(无符号位) | 标明Path Attributes的长度。其值为零时,表示没有路由及其路由属性要通告。 |
Path Attributes | 变长 | 包含要更新的路由属性列表,按其类型号从小到大的顺序排序,填写更新的路由的所有属性。每一个属性单元包括属性类型,属性长度,属性值三部分。其编码采用TLV格式。如下所示。图9-6 BGP路径属性TLV格式1![]() |
其中,Attr.TYPE占2个字节(无符号位),包括1字节的Flags(无符号位)和1字节的Type Code(无符号位)。图9-7 TLV结构-Type![]() | ||
Attr.Flags:占1个字节(8个bit),表示属性的标记,其每个bit位的意义如下显示:O: Optional bit, 属性的可选性。决定属性是否为必携带属性。带可选属性(optional)设为1,公认属性(well-known)设为零。T: Transitive bit 属性的可传递性。对于可选属性,是可传递的设为1,非可传递的设为0。对于公认属性必须设为1。P: Partial bit 属性的局部性。对于可传递的可选属性是局部的设为1,是完全的设为零。对于非可传递的可选属性和公认属性,必须设为零。E: Extended Length bit 决定该属性的长度的字段(即Attr. Length)是否需要扩展。不需要扩展则设为零,Attr. Length占1个字节;需要扩展则设为1,Attr. Length占2个字节。U: Unused bits 低4位没有使用,发送时必须全部设为零,并且在接收时被忽略。Attr.Type Code:占1个字节(无符号位),表示属性的类型号。设置如表。Attr.Value:根据不同属性的类型填写不同内容。 | ||
Network Layer Reachability Information(NLRI) | 变长 | 包含要更新的地址前缀列表,每一个地址前缀单元由一个LV二元组(prefix length, the prefix of the reachable route)组成,其编码填写方法与Withdrawn Routes的填写方法相同。 |
路由属性的类型号列表
属性类型 | 属性值 |
---|---|
1:Origin | IGP |
EGP | |
Incomplete | |
2:As_Path | AS_SET |
AS_SEQUENCE | |
AS_CONFED_SET | |
AS_CONFED_SEQUENCE | |
3:Next_Hop | 下一跳的IP地址 |
4:Multi_Exit_Disc | MED用于判断流量进入AS时的最佳路由 |
5:Local_Pref | Local_Pref用于判断流量离开AS时的最佳路由 |
6:Atomic_Aggregate | BGP Speaker选择聚合后的路由,而非具体的路由 |
7:Aggregator | 发起聚合的Router ID和AS号 |
8:Community | 团体属性 |
9:Originator_ID | 反射路由发起者的Router ID |
10:Cluster_List | 反射路由经过的反射器列表 |
14:MP_REACH_NLRI | 多协议可达NLRI |
15:MP_UNREACH_NLRI | 多协议不可达NLRI |
16:Extended Communtities | 扩展团体属性 |
抓包结果
4. Notification报文
如果BGP报文头中的TYPE为3,则该报文为NOTIFICATION报文。报文头后面所接的报文内容如下,NOTIFICATION报文用于处理BGP进程中的各种错误。NOTIFICATION报文格式如图所示。
NOTIFICATION报文格式
NOTIFICATION报文格式字段解释
字段名 | 长度 | 含义 |
---|---|---|
Error code | 1字节 | 定义错误的类型,非特定的错误类型用零表示。详细错误码参见表。 |
Error subcode | 1字节 | 指定错误细节编号,非特定的错误细节编号用零表示。 |
Data | 可变长 | 指定错误数据内容。 |
BGP的错误码解释
错误码 | 错误子码 |
---|---|
1:消息头错误 | 1:连接未同步 |
2:错误的消息长度 | |
3:错误的消息类型 | |
2:Open消息错误 | 1:不支持的版本号 |
2:错误的对等AS | |
3:错误的BGP标识符 | |
4:不支持的可选参数 | |
5:认证失败 | |
6:不可接受的保持时间 | |
7:不支持的能力 | |
3:Update消息错误 | 1:畸形属性列表 |
2:不可识别的公认属性 | |
3:缺少公认属性 | |
4:属性标志错误 | |
5:属性长度错误 | |
6:无效Origin属性 | |
7:AS路由环路 | |
8:无效Next_Hop属性 | |
9:可选属性错误 | |
10:无效网络字段 | |
11:畸形AS_Path | |
4:Hold Timer溢出 | 0:没有特别的错误子码定义。 |
5:有限状态机错误 | 0:没有特别的错误子码定义。 |
6:终止 | 1:前缀超过最大值。 |
2:管理关闭 | |
3:删除邻居 | |
4:管理重置 | |
5:连接失败 | |
6:其他配置改变 | |
7:连接冲突 | |
8:资源短缺 | |
9:BFD断开连接 |
5. Keepalive报文
如果BGP报文头中的TYPE为4,则该报文为KEEPALIVE报文。KEEPALIVE报文用于保持BGP连接。KEEPALIVE报文只有BGP报文头,没有具体内容,故其报文长度应固定为19个字节。KEEPALIVE报文格式如图所示。
KEEPALIVE报文格式
KEEPALIVE报文格式字段解释
字段名 | 长度 | 含义 |
---|---|---|
Marker | 16字节 | 用于检查BGP对等体的同步信息是否完整,以及用于BGP验证的计算。不使用验证时所有比特均为1(十六进制则全“FF”)。 |
Length | 2字节 | BGP消息总长度(包括报文头在内),以字节为单位。长度范围是19~4096。 |
Type | 1字节 | BGP消息的类型。Type有5个可选值,表示BGP报文头后面所接的5类报文。Keepalive消息类型为4。 |
抓包结果
6. Route-refresh报文
如果BGP报文头中的TYPE为5,则该报文为REFRESH报文。报文头后面所接的报文内容如下,REFRESH报文用于动态的请求BGP路由发布者重新发布UPDATE报文,进行路由更新。REFRESH报文格式如图所示。
REFRESH报文格式
REFRESH报文格式字段解释
字段名 | 长度 | 含义 |
---|---|---|
AFI | 2字节(无符号位) | 表示地址族id,与OPEN报文中的定义相同。 |
Res. | 1字节(无符号位) | 所有位应全为零,在接收报文时,此位被忽略。 |
SAFI | 1字节(无符号位) | 与OPEN报文中的定义相同。 |
BGP的6种状态机
如图所示,BGP对等体的交互过程中存在6种状态机:空闲(Idle)、连接(Connect)、活跃(Active)、Open报文已发送(OpenSent)、Open报文已确认(OpenConfirm)和连接已建立(Established)。在BGP对等体建立的过程中,通常可见的3个状态是:Idle、Active和Established。
图 BGP对等体交互过程
1.Idle
Idle状态是BGP初始状态。在Idle状态下,BGP拒绝邻居发送的连接请求。只有在收到本设备的Start事件后,BGP才开始尝试和其它BGP对等体进行TCP连接,并转至Connect状态。
说明:
Start事件是由一个操作者配置一个BGP过程,或者重置一个已经存在的过程或者路由器软件重置BGP过程引起的。
任何状态中收到Notification报文或TCP拆链通知等Error事件后,BGP都会转至Idle状态。
2.Connect
在Connect状态下,BGP启动连接重传定时器(Connect Retry),等待TCP完成连接。
l 如果TCP连接成功,那么BGP向对等体发送Open报文,并转至OpenSent状态。
l 如果TCP连接失败,那么BGP转至Active状态。
l 如果连接重传定时器超时,BGP仍没有收到BGP对等体的响应,那么BGP继续尝试和其它BGP对等体进行TCP连接,停留在Connect状态。
3.Active
在Active状态下,BGP总是在试图建立TCP连接。
l 如果TCP连接成功,那么BGP向对等体发送Open报文,关闭连接重传定时器,并转至OpenSent状态。
l 如果TCP连接失败,那么BGP停留在Active状态。
l 如果连接重传定时器超时,BGP仍没有收到BGP对等体的响应,那么BGP转至Connect状态。
4.OpenSen
在OpenSent状态下,BGP等待对等体的Open报文,并对收到的Open报文中的AS号、版本号、认证码等进行检查。
l 如果收到的Open报文正确,那么BGP发送Keepalive报文,并转至OpenConfirm状态。
l 如果发现收到的Open报文有错误,那么BGP发送Notification报文给对等体,并转至Idle状态。
5.OpenConfirm
在OpenConfirm状态下,BGP等待Keepalive或Notification报文。如果收到Keepalive报文,则转至Established状态,如果收到Notification报文,则转至Idle状态。
6.Established
在Established状态下,BGP可以和对等体交换Update、Keepalive、Route-refresh报文和Notification报文。
l 如果收到正确的Update或Keepalive报文,那么BGP就认为对端处于正常运行状态,将保持BGP连接。
l 如果收到错误的Update或Keepalive报文,那么BGP发送Notification报文通知对端,并转至Idle状态。
l Route-refresh报文不会改变BGP状态。
l 如果收到Notification报文,那么BGP转至Idle状态。
l 如果收到TCP拆链通知,那么BGP断开连接,转至Idle状态。
BGP对等体交互5原则
BGP设备将最优路由加入BGP路由表,形成BGP路由。BGP设备与对等体建立邻居关系后,采取以下交互原则:
l 从IBGP对等体获得的BGP路由,BGP设备只发布给它的EBGP对等体。
l 从EBGP对等体获得的BGP路由,BGP设备发布给它所有EBGP和IBGP对等体。
l 当存在多条到达同一目的地址的有效路由时,BGP设备只将最优路由发布给对等体。
l 路由更新时,BGP设备只发送更新的BGP路由。
l 所有对等体发送的路由,BGP设备都会接收。
建立连接关系时源地址建议
l 缺省情况下,BGP使用报文出接口作为TCP连接的本地接口。
l 在部署IBGP对等体关系时,建议使用Loopback地址作为更新源地址。Loopback接口非常稳定,而且可以借助AS内的IGP和冗余拓扑来保证可靠性。
l 在部署EBGP对等体关系时,通常使用直连接口的IP地址作为源地址,如若使用Loopback接口建立EBGP对等体关系,则应注意EBGP多跳问题。
三、BGP路由的产生及通告原则
BGP路由的生成(BGP与IGP交互)
BGP与IGP在设备中使用不同的路由表,为了实现不同AS间相互通讯,BGP需要与IGP进行交互,即BGP路由表和IGP路由表相互引入。
BGP引入IGP路由
BGP协议本身不发现路由,因此需要将其他路由引入到BGP路由表,实现AS间的路由互通。当一个AS需要将路由发布给其他AS时,AS边缘路由器会在BGP路由表中引入IGP的路由。为了更好的规划网络,BGP在引入IGP的路由时,可以使用路由策略进行路由过滤和路由属性设置,也可以设置MED值指导EBGP对等体判断流量进入AS时选路。
BGP引入路由时支持Import和Network两种方式:
l Import方式是按协议类型,将RIP、OSPF、ISIS等协议的路由引入到BGP路由表中。为了保证引入的IGP路由的有效性,Import方式还可以引入静态路由和直连路由。
l Network方式是逐条将IP路由表中已经存在的路由引入到BGP路由表中,比Import方式更精确。
IGP引入BGP路由
当一个AS需要引入其他AS的路由时,AS边缘路由器会在IGP路由表中引入BGP的路由。为了避免大量BGP路由对AS内设备造成影响,当IGP引入BGP路由时,可以使用路由策略,进行路由过滤和路由属性设置。
BGP路由通告原则
BGP通告遵循以下原则:
l 只发布最优路由。
l 从EBGP对等体获取的路由,会发布给所有对等体。
l IBGP水平分割:从IBGP对等体获取的路由,不会发送给IBGP对等体。
l BGP同步规则指的是:当一台路由器从自己的IBGP对等体学习到一条BGP路由时(这类路由被称为IBGP路由),它将不能使用该条路由或把这条路由通告给自己的EBGP对等体,除非它又从IGP协议(例如OSPF等,此处也包含静态路由)学习到这条路由,也就是要求IBGP路由与IGP路由同步。同步规则主要用于规避BGP路由黑洞问题。
四、其他名词概念解释
AS概念
在互联网中,自治系统AS(Autonomous System)是指在一个(有时是多个)实体管辖下的所有IP网络和路由器的网络,它们对互联网执行共同的路由策略。
每一个AS可以支持多个内部网关路由协议。一个AS内的所有网络都被分配同一个AS号,属于一个行政单位管辖。AS号分为2字节AS号和4字节AS号。其中2字节AS号的范围为1至65535。随着时间推进,可分配的2字节AS号已经濒临枯竭,需要将AS号的范围从之前的2字节扩展为4字节,其中4字节AS号的取值范围为1至4294967295。4字节AS号还可以用X.Y的形式表示,其中X的取值范围为1至65535,Y的取值范围为0至65535。
GRE概念
通用路由封装协议GRE(Generic Routing Encapsulation)可以对某些网络层协议(如IPX、IPv6、AppleTalk等)的数据报文进行封装,使这些被封装的数据报文能够在另一个网络层协议(如IPv4)中传输。
GRE提供了将一种协议的报文封装在另一种协议报文中的机制,是一种三层隧道封装技术,使报文可以通过GRE隧道透明的传输,解决异种网络的传输问题。
优势
l GRE实现机制简单,对隧道两端的设备负担小。
l GRE隧道可以通过IPv4网络连通多种网络协议的本地网络,有效利用了原有的网络架构,降低成本。
l GRE隧道扩展了跳数受限网络协议的工作范围,支持企业灵活设计网络拓扑。
辖。AS号分为2字节AS号和4字节AS号。其中2字节AS号的范围为1至65535。随着时间推进,可分配的2字节AS号已经濒临枯竭,需要将AS号的范围从之前的2字节扩展为4字节,其中4字节AS号的取值范围为1至4294967295。4字节AS号还可以用X.Y的形式表示,其中X的取值范围为1至65535,Y的取值范围为0至65535。
GRE概念
通用路由封装协议GRE(Generic Routing Encapsulation)可以对某些网络层协议(如IPX、IPv6、AppleTalk等)的数据报文进行封装,使这些被封装的数据报文能够在另一个网络层协议(如IPv4)中传输。
GRE提供了将一种协议的报文封装在另一种协议报文中的机制,是一种三层隧道封装技术,使报文可以通过GRE隧道透明的传输,解决异种网络的传输问题。
优势
l GRE实现机制简单,对隧道两端的设备负担小。
l GRE隧道可以通过IPv4网络连通多种网络协议的本地网络,有效利用了原有的网络架构,降低成本。
l GRE隧道扩展了跳数受限网络协议的工作范围,支持企业灵活设计网络拓扑。
l GRE隧道将不连续的子网连接起来,用于组建VPN,实现企业总部和分支间安全的连接。