簡介
本文檔介紹ACI故障F3696:coop-ep-dampening和補救步驟。
背景資訊
由於COOP端點抑制功能,當EP進入「凍結」狀態時,會觸發此特定故障。EP在發現具有一致的移動行為時處於「凍結」狀態,從而在較短的時間間隔內導致對COOP的多個更新。
COOP EP Dampening是一種COOP過程保護機制,也有助於識別為什麼EP(s)。
COOP EP抑制功能在思科應用策略基礎設施控制器(APIC)版本4.2(3)中引入並預設啟用。
code : F3696
descr : 1 EPs are in freeze state.
cause : coop-ep-dampening
注意:此故障的性質和相關聯的燃盡計時器可能導致觸發故障,然後自行清除。
Intersight連線ACI交換矩陣
作為主動ACI服務的一部分,此故障會受到主動監控。
如果您有與Intersight連線的ACI交換矩陣,則會代表您生成服務請求,以指明在Intersight連線的ACI交換矩陣中發現了此故障的例項。
COOP端點抑制
Council of Oracle Protocol(COOP)用於將終端(EP)對映資訊(位置和身份)與主幹代理通訊。枝葉交換機通過COOP將端點地址資訊轉發到主幹交換機,這樣就可以確保所有主幹節點保持端點地址和位置資訊的一致複製。
一致的EP移動(如跨介面或裝置)會導致持續向主幹更新端點,以確保COOP資料庫準確。由於正在進行的終端移動導致的快速更新量可能會導致COOP資源過度利用,從而阻止有效終端更新的處理。
枝葉交換機的欺詐端點檢測功能可以防止主動的EP更新到達主幹交換機,只要這些移動的範圍是單個枝葉。也有其他EP移動場景,如跨葉EP移動,需要不同的保護機制來保護COOP。這正是使用COOP終結點抑制的地方。
為減輕EP移動情況下的COOP壓力,主幹交換機要求所有枝葉交換機忽略指定時間段內來自已標籤端點的更新。當發生這種情況時,任何此類端點的阻尼狀態為「凍結」,並生成故障F3696。
有關懲罰值和閾值的更多詳細資訊在配置指南連結(例如4.2配置指南連結)中提及。
https://www.cisco.com/c/en/us/td/docs/switches/datacenter/aci/apic/sw/4-x/basic-configuration/Cisco-APIC-Basic-Configuration-Guide-42x/Cisco-APIC-Basic-Configuration-Guide-42x_chapter_0101.html#Cisco_Task.dita_b4647f36-3e4f-43bc-bea3-7572badebc01
請參閱版本特定的配置指南連結瞭解此功能的最新資訊。
注意:必須顯式啟用其他主動EP更新保護功能,如欺詐EP控制和EP環路保護。 有關這些功能的更多詳細資訊,請參閱ACI交換矩陣終端學習白皮書
https://www.cisco.com/c/en/us/solutions/collateral/data-center-virtualization/application-centric-infrastructure/white-paper-c11-739989.html
EP凍結的可能原因
導致該欄位出現此行為的2種典型場景是:
- 伺服器具有2個獨立的枝葉連線,使用主用 — 主用,而不是單個邏輯鏈路(vPC)配置
- 下游網路裝置上的環路
快速開始解決故障
- 確定哪些終端進入「凍結」狀態
- (可選)如果發現資料平面影響,請清除凍結的EP以臨時解決影響
- 確定並理解EP移動的原因,以及網路設計中是否預期和需要此功能。
- 如果不需要,請採取措施解決導致EP移動的基本情況
- 如果有關移動是網路設計所必需的,請考慮禁用COOP EP Dampening。
註:COOP EP阻尼是COOP流程的保護機制。通常,優選在可能的情況下採取減少不必要的EP移動的動作。
解決故障的詳細步驟
識別「凍結」端點
使用此交換機CLI過程檢視主幹或枝葉節點中所有受阻端點。
- 登入到主幹或枝葉交換機CLI並輸入命令:
- switch# show coop internal info repo ep dampening
(可選)清除「凍結」終結點
通過GUI
當通過GUI執行時,這將清除所選節點上的所有凍結EP。 此操作必須在凍結端點的所有主幹交換機和源枝葉交換機上執行。
- 在選單欄中,按一下「交換矩陣」>「清單」。
- 在「導航」窗格中,展開Pod和主幹或枝葉節點。
- 按一下右鍵該節點,然後選擇「清除阻尼的端點」。
- 按一下「是」確認操作。
註:如果所討論的EP仍位於枝葉交換機上的終端表中,則終端將發佈到主幹交換機COOP資料庫。否則,阻尼端點將在兩分鐘後從主幹交換機COOP資料庫中刪除。
通過交換機CLI
通過交換機CLI執行時,此過程一次只能清除單個端點。此操作必須在終端的所有主幹交換機和源枝葉交換機上執行。
- 登入到主幹或枝葉交換機CLI並輸入命令
- switch# clear coop internal info repo ep dampening key <bd_vnid> <mac>
註:如果所討論的EP仍位於枝葉交換機上的終端表中,則終端將發佈到主幹交換機COOP資料庫。否則,阻尼端點將在兩分鐘後從主幹交換機COOP資料庫中刪除。
禁用COOP EP抑制
一般來說,不建議這樣做。但是,如果您發現您的網路設計需要EP移動,則可以禁用COOP EP抑制。
使用disableEpDampening="true"的/api/policymgr/mo/.xml的HTTP POST將禁用COOP EP抑制。
可以使用相同的請求重新啟用COOP EP抑制,但需設定disableEpDampening="false"。
POST api/policymgr/mo/.xml
PAYLOAD:
disableEpDampening="true">
通過APIC CLI
在APIC CLI上,icurl命令可以方便執行所需的HTTP POST。
禁用COOP EP抑制:
apic# icurl -X POST -d '
true">
' http://localhost:7777/api/policymgr/mo/.xml
驗證是否已禁用COOP EP抑制:
apic# moquery -c infraSetPol
Total Objects shown: 1
# infra.SetPol
disableEpDampening : yes
dn : uni/infra/settings
其他詳細資訊
COOP EP Dampening - DamgFactor定製
在5.2.4d及更高版本中,可以修改「阻尼因子」,以增加與COOP EP阻尼功能相關的特定值。
在以下情況下可以考慮修改DampingFactor:預期在預設閾值之外將達到某個EP移動級別,並且您不想禁用COOP EP抑制。
阻尼罰函式有3個閾值是串聯的。在更改DamnFactor時,會修改以上所有3個值。
閾值名稱 |
說明 |
預設值 |
zhiReuseThresh |
當EP從「凍結」狀態移回正常狀態時,重新使用閾值 |
2500 |
zhiSat閾值 |
阻尼飽和閾值。當EP超過此罰值時,將進入「凍結」狀態 |
10000 |
阻尼閾值 |
嚴重狀態閾值。如果EP停留在它上方10分鐘,則它進入「凍結」狀態 |
4000 |
預設的DamnFactor設定為1。可以將DamnFactor修改為介於1和5之間的值。
修改COOP EP DamnFactor
要將阻尼係數更改為值的4倍,您可以在APIC上使用以下帖子 —
apic# icurl -X POST -d '
dampFactor=4>
' http://localhost:7777/api/policymgr/mo/.xml
通過檢查coopRepP類,可以對每個回放的每個主幹驗證已修改的閾值:
apic# moquery -c coopRepP
# coop.RepP
...
dampReuseThresh : 10000
dampSatThresh : 40000
dampThresh : 16000