SHADOW-WIELDER
TonTon Hsien-De Huang Ph.D.
TonTon (at) TWMAN.ORG
https://github.com/Deep-Learning-101/SHADOW-WIELDER
Unleashing an AI-Agent-Driven Framework for Dark Web Threat
SHADOW-WIELDER:釋放 AI 代理驅動的暗網威脅情報框架
Abstract
暗網仍然是網絡安全威脅的關鍵樞紐,包括數據洩露(例如,在論壇上交易的被盜憑證)、金融欺詐(例如,勒索軟件即服務平台)和國家安全風險(例如,國家資助的黑客工具)。傳統方法依賴於碎片化的工具(例如 TorBot、OnionSearch)和手動分析,這些方法難以應對動態內容、加密和可擴展性問題。
利用 AI Agent,提出一種新穎的暗網威脅情報方法論,並通過開源的 SHADOW-WIELDER 框架將其實作。該方法整合了用於統一工具編排的 MCP(模型上下文協議)、以基於角色的代理為特色的多智能體 LLM 工作流,以及用於上下文分析的 RAG(檢索增強生成)。具體而言,MCP 驅動的編排標準化了 LLM 與多樣化安全工具之間的通信,以實現彈性、自動化的數據收集。協作式 AI 代理按角色進行專業化分工,自動化情報生命週期,減少了人工干預。此外,RAG 增強的上下文關聯將暗網發現與 CVE 詳細信息等實時外部知識相關聯,從而實現準確的評估和歸因。
該方法論,通過 SHADOW-WIELDER 框架實施後,使安全團隊能夠主動識別威脅並生成結構化的情報(例如 STIX 報告),這些情報已為下游的 SOAR 平台做好準備,有效地將暗網情報轉化為具體的檢測能力。
Contribution
一種新穎的 AI Agent 驅動方法論,用於暗網威脅情報,並透過 SHADOW-WIELDER 框架實作。此方法論的關鍵創新方面及其益處包括:
* 新穎的 MCP 集成用於編排:我們首次在此領域應用 MCP,實現了 LLM 與多樣化工具(如 Tor 瀏覽器和 CVE 數據庫)的統一編排。這通過自動化複雜的工具交互和確保彈性的數據訪問,使分析師受益。
* 專業化的基於角色的代理設計:我們的方法論利用專業化代理(爬蟲、分析器、報告器)來實現高效且可擴展的任務分配。這種模塊化設計使安全團隊能夠自定義情報工作流,並顯著減少手動處理的工作量。
* 以威脅為中心的 RAG 提供可操作上下文:我們專門應用 RAG 將暗網討論與實時漏洞數據(NVD)相關聯。這提供了關鍵的上下文,增強了發現的可解釋性,並產生了為自動化響應系統(SOAR)格式化的可操作情報,從而實現更快的響應。
Challenges
* 數據碎片化:分散的工具(例如 TorBot、OnionSearch)缺乏集成的分析能力,導致洞察孤立。
* 人工負擔:分析師花費過多時間手動收集、處理和關聯大量的暗網數據。
* 上下文缺失:現有工具常常無法將暗網討論與關鍵的外部上下文(如已知的漏洞 CVE)聯繫起來。
* 可操作性差距:收集到的情報往往難以轉化為及時、具體的防禦行動或自動化響應。
應用 SHADOW-WIELDER 方法論直接解決了這些關鍵差距。它利用自動化的代理工作流、MCP 驅動的協同、RAG 增強的上下文準確性,並生成結構化、可操作的情報(例如 STIX 格式),適合被 SOAR 平台和其他安全工具直接吸收,從而實現更快、更有效的威脅緩解。
3 Takeaways
* 使用 MCP 自動化數據收集:應用 MCP 原則,在代理框架內統一您現有工具(如 Tor 訪問方式)與 LLM 之間的交互,從而能夠更無縫、自動地從暗網等具有挑戰性的來源收集數據。
* 通過代理專業化提升效率:考慮在您的威脅情報工作流中設計或部署專業化的、基於角色的 AI 代理(例如,用於爬取、分析、報告),以顯著減少手動處理時間,讓分析師能專注於更高價值的工作。
* 利用 RAG 生成為 SOAR 就緒的情報:不僅將 RAG 用於分析,更要專門用它來以外部上下文(如 CVE 數據)豐富暗網發現,並生成結構化、可操作的報告(例如 STIX 格式),這些報告已準備好直接輸入 SOAR 平台,將洞察轉化為自動化響應。
Outline
暗網威脅與情報收集介紹
* 演變中的威脅現狀:
* 具體案例:勒索軟件即服務 (RaaS) 的演變、初始訪問經紀人 (IABs) 的興起、特定被盜數據集的交易(示例說明)。
* 影響:經濟損失、運營中斷、聲譽損害、國家安全影響。
* 傳統方法與工具的局限性:
* 工具缺陷:碎片化(如獨立的爬蟲、搜索工具、人工分析),缺乏上下文(如 TorBot、OnionSearch 的限制)。
* 人工分析瓶頸:無法擴展、分析師精力耗盡、因數據量大而錯失關鍵聯繫。
自動化暗網分析的核心挑戰
* 自動化的技術障礙:
* 環境導航:不斷變化的 .onion 域名、鏡像站點、登錄要求。
* 對抗反分析措施:驗證碼 (CAPTCHAs)、JavaScript 挑戰、指紋識別、速率限制。
* 可擴展性與性能限制:高效處理 TB 級的非結構化文本/圖像數據。
* 上下文理解差距:超越關鍵字匹配,理解意圖、諷刺、語碼轉換,並將討論與真實世界的漏洞 (CVE) 聯繫起來。
倫理考量與安全研究實踐
* 把握法律與倫理界限:
* 數據最小化與目的限制:僅收集必要數據,遵守法律框架。
* 避免交互:嚴格禁止參與非法交易或通信的協議。
* 研究人員的操作安全 (OpSec):
* 隔離基礎設施:專用虛擬機 (VMs)、強化操作系統、安全網絡隔離 (VPNs)。
* 身份保護:匿名化技術,謹慎處理研究人員的數字足跡。
SHADOW-WIELDER 方法論與框架架構
* 概念基礎:AI 代理驅動方法
* 核心原則:代理自主性、專業化(基於角色)、協同編排。
* 基本原理:為何此範式適合暗網情報的動態、去中心化特性。
* MCP (模型上下文協議) 核心:實現統一編排
* 機制:標準化 API 調用和數據格式,用於 LLM 與外部工具/知識庫之間的通信。
* 用例示例:控制 Tor 瀏覽器實例(IP 輪換、會話管理)、查詢 NVD/MITRE ATT&CK 數據庫。
* 益處:促進工具集成、模塊化和彈性的數據訪問。
* 基於角色的代理工作流設計與實現:
* 爬蟲代理 (Crawlers):
* 輸入:目標站點列表、關鍵字。
* 過程:採用技術處理動態內容/基本反爬取;結構化原始數據(HTML、文本)。
* 輸出:清理、結構化的數據隊列供分析。
* 分析代理 (Analyzers):
* 輸入:來自爬蟲的結構化數據。
* 過程:
* 初步評估:關鍵字提取、基本實體識別(用戶名、加密地址)。
* RAG 實施:生成上下文感知查詢 -> 檢索相關 CVE/威脅行為者信息 -> LLM 綜合豐富分析,評估相關性和潛在威脅。
* 威脅分類與置信度評分(如適用)。
* 輸出:帶有威脅評估、CVE 關聯的豐富數據對象。
* 報告代理 (Reporters):
* 輸入:已分析的數據對象。
* 過程:整合發現,聚合相關事件,按照 STIX 2.1 標準格式化。
* 輸出:機器可讀的 STIX 包(指標、漏洞、威脅行為者、關係等),為下游系統做好準備。
框架實作、演示與結果
* ShadowWielder 開源工具包:
* 技術棧(關鍵庫):Python、LangChain/LlamaIndex(或類似庫)、用於 Tor 交互和 STIX 生成的特定庫。
* 模塊化:可自定義代理模板和 MCP 連接器概述。
* 現場演示流程 (基於演示內容描述):
* 可視化 MCP 操作(工具通信)。
* 逐步展示多智能體工作流(爬蟲 -> 分析器 -> 報告器數據流)。
* 展示 RAG 如何利用 CVE 上下文豐富發現(例如 Log4j 示例)。
* 突出顯示為 SOAR 準備好的最終 STIX 輸出。
* 實驗結果與評估:
* 準確率發現:展示基於策劃的暗網數據集評估的 CVE 鏈接精確率/召回率/F1 分數(說明數據集特徵)。
* 效率成果:與特定情報任務(例如分析 X 個論壇帖子)的估計手動分析相比,處理時間/吞吐量的量化比較。
* 可擴展性觀察:討論框架在數據負載或代理數量增加時的性能。
* 案例研究深入探討:
* 場景:追踪與特定漏洞(例如 Log4j)或威脅行為者相關的討論。
* 過程:展示 SHADOW-WIELDER 如何自動收集相關帖子,通過 LLM/RAG 分析情緒/技術細節,鏈接到正確的 CVE,並生成全面的 STIX 報告。
結論與未來方向
* 貢獻總結:重述新穎方法論及其益處(自動化、上下文、可操作性)。
* 方法論與框架的未來工作:
* 高級代理協作:探索更複雜的協商或層級代理結構,用於多階段威脅分析。
* 擴展情報來源:通過專業化代理集成表層網絡論壇、社交媒體監控。
* 可解釋性 (XAI) 增強:提高代理決策制定和 RAG 推理過程的透明度。
* 雙向 SOAR 集成:開發 API 不僅用於輸出,還可能允許 SOAR 平台向 SHADOW-WIELDER 代理下達任務。
Releasing a New Tool?
本研究聚焦於新穎的方法論、其底層概念、實施策略和研究發現,不是工具演示。
然而,為了促進社群採納此方法並進行後續研究,我們將會發布 ShadowWielder 工具包(開源,Apache-2.0 授權)。此工具包是本研究中所討論的方法論的一個實踐實作。計劃發布的工具包關鍵方面包括:
* 用於 MCP 驅動的多智能體集成核心組件:提供 LLM、Tor 瀏覽器接口以及如 CVE 數據庫等外部知識庫之間統一通信的基礎。
* 模塊化基於角色的代理模板:提供預配置但可自定義的工作流,用於爬取、分析(帶 RAG 接口)和 STIX 報告等基本任務,允許用戶根據自身特定需求調整框架。
* 可獲取性:包含該工具包的 GitHub 倉庫將在演講之後或錄用後公開發布。
DEMO
是,將展示 SHADOW-WIELDER 方法論在實際運作中的關鍵方面:
* 實時爬取模擬:演示框架的 Tor 瀏覽器集成,從受控的、模擬的暗網市場/論壇環境收集數據,以說明數據接收過程。
* 代理協作可視化:可視化地追踪數據在多智能體工作流中的流動:爬蟲代理傳遞結構化數據 -> 分析代理使用 RAG 將其豐富並識別潛在威脅 -> 報告代理生成最終的結構化 STIX 輸出。
* RAG 輸出與可操作性示例:展示一個具體案例,其中 RAG 將捕獲的暗網帖子(討論利用技術)與 CVE-2021-44228 (Log4j) 的漏洞詳細信息相關聯,並突出顯示最終生成的結構化 STIX 輸出如何準備好被 SOAR 平台吸收以自動化響應。