使用AI进行解析:更快,更准确


网络安全日志是系统运行时状态和系统活动和事件消息的无处不在的记录。它们成为系统行为的主要来源,并且在否则正常系统执行中的异常时至关重要。日志通常是非结构化的文本消息,因为它们是创建的速度不断增加的速度,难以手动进行。来自日志的原始数据是非结构化的,嘈杂和不一致的;因此,一些预处理和解析是必不可少的。

具有正则表达式的解析日志是网络日志分析的最广泛利用的方法。正则表达式(正则表达式)是指定如何匹配一系列字符的字符序列。在一次性解析之外,您最有可能使用正则表达式以反复解析并将日志文件正常化为分析基础架构的一部分。但是,由于日志文件格式更改,正则表达式失败,这可能会在处理和评估日志数据的情况下创建故障。由于日志结构在源,格式和时间内变化,这通常是这种情况。随着源的数量增加,自定义Regex解析器的数量也增加。

NLP的进步

为了减轻为每个日志创建数百个自定义解析器的需要,现在使用自然语言处理(NLP)方法来自动执行解析网络安全日志的任务。这些初始NLP技术是N-GRAM分析,距离措施(JAccard,Levenshtein)和Word Embeddings(Word2VEC)。这些方法尝试评估原始日志数据,从IT(源,时间,动作)中提取必要的功能,并以使用公共技术可以分析的方式重构登录。当日志的特征未知时使用NLP方法。

过去几年在NLP中产生了进展,这利用更复杂的神经网络字表示而不是Word2VEC中看到的。谷歌研究人员推出的变压器(BERT)的双向编码器表示是一种这样的创新。双向编码器需要两个编码序列;一个是正​​常序列,另一个是它的反面。它由两个编码器组成,用于编码两个序列。对于最终输出,考虑编码结果。语言模型的双向培训使其更深入地了解文本的背景。

进入Cyber​​.

虽然BERT已经实现了与书面人类语言相关的各种NLP任务,但将其预训练基础模型直接应用于网络安全日志,所需的额外实验和培训以及输入序列的大小的调整可以进入BERT模型。这导致了Cyber​​(https://github.com/rapidsai/clx/tree/branch-0.11/notebooks/cybert.)。

Cyber​​ Project是一个持续的实验,可以培训和优化变压器网络,以提供对异构网络安全数据的日志的灵活性和强大的解析。它是网络日志加速器(CLX)库的一部分,用于将Rapps的GPU加速到现实世界的网络安全使用情况。Cyber​​和CLX的目标是允许网络安全人员,网络数据师,数字法医分析师,以及威胁猎人开发不需要自定义Regex解析进程的网络安全日志数据工作流,以将数据纳入评估和诊断的格式。

网络安全日志包含文件路径,IP地址,端口号和始终订单中的十六进制值与您将在典型的单词字符串中看到的内容。这些日志输入的组合可以导致复杂的正则表达式,可以根据源或创建时间而改变。Cyber​​t删除了创建Regex解析器的需要,因为它直观地确定每个日志输入,而无需考虑每个字符的组合。

游戏更换器

Cyber​​t是一个足够的一般性,使一个组织可以接受并培训它的自定义网络行为。使用自定义销售器和从划痕的大型网络日志上的划痕培训,而不是使用BERT中的默认英语单词语料库。提供由NLP提供支持的工具集以执行日志解析是一个游戏更换器在网络安全的关键和时间敏感区域中。