首页 驱动下载 正文

邮箱破解 用朴素贝叶斯算法,一键破解垃圾邮件的秘密语言!

用朴素贝叶斯算法,一键破解垃圾邮件的秘密语言!

本文从贝叶斯算法切入,深入讲解了其原理,以垃圾邮件为例,分析其应用步骤和使用边界,就让我们一起来看看吧!

朴素贝叶斯算法,这个名字听起来有些

“朴 素” ,但其实它是一个非常实用的机器学习算法。在机器学习领域,朴素贝叶斯算法就像一个勤劳的园丁,帮助我们在数据花园里分类和预测各种花卉的品种。

它的核心思想是通过已知的部分信息,来推测未知的信息。 那它到底是如何“施展拳脚”进行垃圾邮件分类的呢?我们来一起深度分析一下。

一、朴素贝叶斯算法的原理

朴素贝叶斯算法基于两个关键概念:贝叶斯定理条件独立性假设

先说说贝叶斯定理。贝叶斯是由一名英国数学家提出来的,贝叶斯就是这个数学家的名字。同时它也是概率论中的一个重要公式,用于计算在已知一些相关事件发生的情况下,另一事件发生的概率。具体来说,贝叶斯定理的公式如下:

P(A|B) = [P(B|A) * P(A)] / P(B)

这里,P(A|B) 是在已知 B 发生的情况下 A 发生的概率(后验概率),P(B|A) 是在已知 A 发生的情况下 B 发生的概率(条件概率),P(A) 和 P(B) 分别是 A 和 B 的先验概率。

后验概率:已经看到某个事情发生了,再判断这个事情发生原因的概率;条件概率:事件 B 在另一个事件 A 已经发生条件下的概率;先验概率:事件 A 或 事件 B 是根据经验来判断发生的概率。

再来说说条件独立性假设。

这是朴素贝叶斯算法的“朴素” 之处。它假设所有特征在类别给定的情况下都是相互独立的。

那特征之间的相互独立是什么意思呢?

简单来说,一个人的性别是女性和她是中国国籍这两项特征就是相互独立的,因为她的国籍不会影响到她的性别。那特征之间不相互独立也很好理解了,像是一个人的身高会影响他衣服的尺码,所以身高和衣服的尺码就不是相互独立的。

二、朴素贝叶斯案例之垃圾邮件分类

通常在职场中,我们都需要用到邮件发送一些重要文件或者通知,也会用自己的邮件账号来注册网站,然而这些网站同时会推给我们很多营销类的或诈骗类的邮件,令我们非常困扰。解决这个垃圾邮件的问题就可以使用今天的主角——朴素贝叶斯算法来做预测和分类,将垃圾邮件送到垃圾箱,进而实现将一些垃圾邮箱拉黑。具体分为三步:

1. 步骤一:数据预处理

收集数据:获取一个包含已标记为垃圾邮件和非垃圾邮件的邮件数据集。数据清洗:去除无关字符(如标点符号、数字等),并将所有文本转换为小写。文本分词:将每封邮件分割成单词或短语列表。构建词典:统计所有邮件中出现过的唯一单词,并为每个单词分配一个唯一的索引。

2. 步骤二:学习或训练

计算先验概率 P(Y):对于每个类别(垃圾邮件和非垃圾邮件),计算其在数据集中的比例。

假设我们有1000封邮件,其中200封是垃圾邮件,那么:

P(Spam) = 200 / 1000 = 0.2

P(Not Spam) = 800 / 1000 = 0.8

计算条件概率 P(Xi|Y):对于每个类别和每个单词 i,在该类别下的邮件中,计算该单词出现的频率。

例如,如果我们有一个单词 “free”,它在垃圾邮件中出现了50次,在非垃圾邮件中出现了10次,那么:

P(“free”|Spam) = 50 / (总垃圾邮件单词数)P(“free”|Not Spam) = 10 / (总非垃圾邮件单词数)

3. 步骤三:预测或分类

对于新的未知邮件,首先进行同样的数据预处理步骤(清洗、分词等)。

使用训练得到的先验概率和条件概率,计算邮件属于每个类别的后验概率 P(Y|X)。假设新邮件只包含单词 “free”,我们可以通过以下公式计算其作为垃圾邮件的概率:

P(Spam|”free”) = [P(“free”|Spam) * P(Spam)] / P(“free”)

其中,P(“free”) 是 “free” 在整个邮件数据集中的概率,可以通过 Spam 和 Not Spam 中 “free” 的概率相加并归一化得到。

比较 P(Spam|X) 和 P(Not Spam|X),选择后验概率更大的类别作为邮件的预测类别。

在这个例子中,朴素贝叶斯算法通过计算每个单词在不同类别邮件中出现的条件概率,以及各类别的先验概率,来判断新邮件是否为垃圾邮件

三、朴素贝叶斯算法的应用步骤

接下来,我们来看看朴素贝叶斯算法的步骤。以帮我们巩固一下知识。主要包括以下三步:

数据预处理: 清洗和整理数据,将非数值数据转换为数值形式,可能需要进行标准化或归一化。学习或训练: 使用训练数据集来计算每个类别的先验概率 P(Y) 和每个特征在给定类别下的条件概率 P(Xi|Y)。预测或分类: 对于新的未知样本,根据贝叶斯定理和条件独立性假设,计算其属于每个类别的后验概率 P(Y|X)。选择后验概率最大的类别作为该样本的预测类别。

计算公式如下:

P(Y|X) = [P(Y) * P(X1|Y) * P(X2|Y) * … * P(Xn|Y)] / P(X)

其中,X1, X2, …, Xn 是特征,Y 是类别。

四、朴素贝叶斯算法的适用边界和优缺点

(1)适用边界

适用于大规模数据集。特征之间高度独立或者弱相关的问题效果较好。在数据稀疏的情况下也能取得不错的效果。

(2)优点部分

计算简单快速,易于实现。对缺失数据不太敏感。可以处理多分类问题。

(3)缺点部分

条件独立性假设过于简化,可能导致预测精度下降。对输入数据的分布有一定的假设,如果实际数据与这些假设不符,效果可能会受影响。

五、最后的话

总的来说,朴素贝叶斯算法是一种基于贝叶斯定理和条件独立性假设的分类方法。虽然它的假设可能过于简化,但在许多实际问题中仍能取得良好的效果。尽管它的名字听起来有些“朴素”,但它的实用性和高效性让我们在机器学习领域离不开它。

当然,我们也要注意它的适用边界和优缺点 ,以便更好地发挥它的作用。希望带给你一点启发,加油。

作者:柳星聊产品,公众号:柳星聊产品

本文由 @柳星聊产品 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

2)邮箱账户暴力破解尝试

仅有原始日志,未发现外对内的邮箱账户爆破告警,因此未截图

监测分析阶段

1、查看告警“邮箱账户暴力破解尝试”

● 查看相关告警,确认攻击IP、邮箱用户名

2、威胁情报查询

● 查询攻击IP威胁情报,确认是否被标记

3、查询是否存在爆破成功日志

● 查询近7天内该攻击IP的原始日志,确认是否存在邮箱爆破成功的日志或其它异常行为日志。

排查处置阶段

1、若存在登录成功日志,则联系相关责任人登录邮箱查看是否对外发送异常邮件,同时排查该邮箱账户是否为弱密码,邮箱服务器是否设置密码复杂度策略;

2、若仅为爆破行为,则在安全设备封禁攻击IP即可;

相关问答

如何 破解邮箱 密码-ZOL问答

如果是你想破解别人的信箱,提供一个思路1、暴力破解,寻找破解软件,通过电子字典生成密码,不停测试邮箱与密码,直至成功2、利用鸽子或网页挂马入侵信箱主人的电脑...

电子邮件不能被 破解 吗?

电子邮件不能被破解。因为电子邮件是由线上的邮件收发平台运营的,而电子邮件收发都有密码和安全保护装置,是不会被破解的电子邮件不能被破解。因为电子邮件是...

破解邮箱 在黑客里算什么水平?

3、硬件能力黑客们需要精通计算机硬件层面的知识,需要掌握最底层的原理!所以,答案就是破解邮箱的过程:如果“破解邮箱”的过程是一个成体系的过程的话,...

要怎么解锁 强制解除小米账号锁定 解除 - 懂得

如果手机产品是2016年之前出产的就可以刷适配本机型号的第三方系统包解除或刷miui6之前的系统可以解除,但以后千万别再升级。无法强制解除的,现在...

为什么文档导入邮件里就乱码了?

展开全部一般来说,乱码邮件的原因有下面三种:(1)由于发件人所在的国家或地区的编码和中国大陆不一样,比如我国台湾或香港地区一般的E-mail编码是BIG5码,如果...

为什么 邮箱 没激活

你申请好邮件后,要登陆一次,在收件箱里会看到一封系统给你发的信,你点击一下链接就激活了。还有一些网站设置的是180天内没有登陆你的邮箱就要上去...

校园网wifi怎么 破解 啊 - 懂得

不好破解,双重认证。弄个卡皇,然后有光盘,或者在网上下载破解软件,BT4,BT5等。你试试。反正家庭的可以用这个方法

sohu 邮箱 为什么发一封邮件会发出很多封,

成乱码的原因多种多样,比如:a、操作系统和使用的软件设置不同导致的;b、发送邮件时发送程序采用不同的编码标准,而您所用的操作系统程序没有能力将...

怎么 破解 被封掉的usb?

我们去网吧,或者是在单位的公用电脑上,经常插入U盘不能被识别,这其实就是电脑把USB存储设备禁用的情况,以防止随意拷贝文件带来安全隐患。其实我们常用的Wind...

我在QQ找了个人 破解 竞争对手的 邮箱 ,但是这个人把我们的聊天...

属于犯罪未遂,涉嫌侵犯商业秘密罪。这种行为构成了对公司的侵权,公司可以要求员工承担赔偿责任。如果侵犯商业秘密情节严重,可能构成犯罪。刑法第...