(19) 国家知识产权局 (12) 发明专利申请 (10) 申请公开号 CN A (43) 申请公开日期 2022.08.19 (21) 申请号 2.9H04L 101/69 (2022.01) (22) 申请日期 2022.04。 20(71)申请人哈尔滨工业大学(威海)地址山东省威海市环翠区文化西路2号(72)发明人张兆新、孟跃阳、柴婷婷、赵东、陈俊仁(74)专利代理机构 威海中植一航专利代理事务事务所(普通合伙) 37388 专利代理人 唐晓刚 (51)Int.Cl.H04L 9/40 (2022.01)G06N 3/04 (2006.01)G06K 9/62 (2022.01)H04L 61/ 4511(2022.01)权利要求第2页说明书第4页,附图第1页(54)发明名称:一种基于全流通主域名的不良网站灰名单过滤方法(57)摘要:本发明提供了一种基于全流通主域名的不良网站灰名单过滤方法,包括以下步骤: 步骤一、构建基于字符相似度的不良网站域名名称判别模型,实现对疑似不良网站域名的粗略过滤在所有域名中;步骤2.确定域名是否可以解析并用于Web服务;步骤3.基于IP基于相似度进行粗略过滤;步骤4.基于IP定位技术对域名的地理区域进行分类;步骤5、分析粗滤得到的不良网站域名灰名单的准确性;步骤 6. 执行粗略过滤步骤 1 和 3。迭代优化。
该方法通过过滤域名字符相似度和服务IP相似度,很大程度上减少了现有域名的大小,大大减少了获取和解析网页文本和快照所带来的时间消耗,同时实现了高效、准确 7 4 8 过滤所有域名。 2 9 4 1 1N C CN A 权利要求第1/2页 1、一种基于全流通主域名的不良网站灰名单过滤方法,其特征在于,包括以下步骤: 步骤一、从现有不良网站域名中提取从字符串中提取特征,构建不良网站关键词词库,建立基于字符相似度的不良网站域名名称判别模型,对所有域名中疑似不良网站域名进行粗过滤;步骤2、快速构建IP和端口 扫描模型,获取疑似不良站点域名的服务IP和端口属性信息,识别该域名是否可以解析并用于Web服务;步骤3、利用已有的不良站点服务IP组,建立不良站点域名的IP映射范围模型。根据IP相似度进行粗略过滤;步骤4.基于IP定位技术按地理区域对域名进行分类;步骤5、利用现有的不良网站识别技术,分析粗过滤得到的不良网站域名灰名单的准确性;步骤5. 6. 对粗过滤步骤1和3进行迭代优化。 2. 根据权利要求1所述的基于全流通主域名的不良网站灰名单过滤方法,其特征在于: 不良网站域名的结构形式分为两类,第一类是含有英文单词或者是汉语拼音的域名。第二种是由字符序列随机组成的域名。基于字符相似度模型的方法中,针对第一类域名,构建色情赌博关键词短语库来匹配关键词。对于第二类域名,通过训练LSTM神经网络模型,可以判断字符序列是否是随机生成的。
3.根据权利要求2所述的基于全流通主域名的不良网站灰名单过滤方法,其特征在于:色情赌博关键词词库的构建方法为将37万英文单词词典和405个汉语拼音合并创建英汉拼音词典,从39万个色情赌博域名集合中匹配最长的单词,提取频繁出现的色情赌博英文拼音短语,形成色情赌博关键词词组库,用于后续关键词匹配和过滤。 4.根据权利要求3所述的一种基于全流通一级域名的不良网站灰名单过滤方法,其特征在于:所述LSTM神经网络模型的训练方法为使用70万个Alex域名和78万个随机字符序列域名作为训练集和测试集用于训练LSTM模型。 LSTM神经网络分为3层: 1.预处理层将域名字符序列的长度扩展到75,然后将字符特征映射到整数索引,最后将正整数索引转换为固定的大的Dense向量小尺寸用作字符嵌入; 2、长短期记忆层中,单元数设置为128,并设置为0.5,避免过拟合; 3.输出层采用2分类输出。 5.根据权利要求4所述的一种基于全流通主域名的不良网站灰名单过滤方法,其特征在于:对疑似不良网站域名的粗略过滤方法是首先通过已经构建的色情赌博关键词库。进行关键词匹配,判断域名中是否包含色情赌博关键词短语。如果存在,则认为该域名可能被不良网站使用。如果没有敏感关键词,则使用训练好的LSTM神经网络模型进行字符序列分析。随机性的判断决定域名是否由随机字符组成。如果是,则认为该域名可能被不良网站利用。
6、 根据权利要求 5所述的基于全流通主域名的不良站点灰名单过滤方法, 其特征在于: 所述基于 IP 相似度的粗过滤方法是利用现有的 IP 映射范围模型结合步骤 2。对存储的IP进行相似度分析。如果该IP落在该模型的映射范围内,则认为该IP用于提供不当内容。 7、 根据权利要求 6所述的一种基于一级域名全流通的不良网站灰名单过滤方法, 其特征在于: 迭代优化粗过滤步骤 1 和 3 的具体方法为: 步骤 S1,动态更新颜色赌博关键词词组库,将新出现的、高频的赌博英文拼音词组添加到词组库中,删除词组库中长期未使用的词组; 22 CN A索赔第2/2页步骤S2、动态更新IP映射范围模型,将新出现的不良站点服务IP纳入模型中,并减少模型中长期遗漏的IP范围。 33 CN A说明书第1/4页 一种基于全流通一级域名的不良网站灰名单过滤方法 技术领域 [0001] 本发明涉及不良网站域名灰名单建设技术领域,具体涉及提出一种基于全流通主域名灰名单的不良网站过滤方法。背景技术 [0002] 随着计算机网络的快速发展,互联网已经成为人类生活中不可缺少的一部分。
其中,域名系统为网络中的应用和服务提供IP地址和域名之间的相互映射功能。通过域名,人们可以更加方便地访问互联网。然而,现如今,互联网上充斥着大量的色情、赌博、诈骗等不良网站。它们不仅危害人们的心灵,甚至会严重损害财产安全。因此,不良站点的识别、监控和控制就显得尤为重要。 [0003] 全球流通的主域名数量约为2.6亿个,每天新增动态域名约30万个,每天新增过期域名约30万个。目前,识别不良网站的主要方法是基于网页文本和网页快照,但获取和解析网页文本和快照的时间成本非常高。因此,目前缺乏一种有效的系统方法来过滤所有流通的主域名,导致无法有效构建完整的不良网站域名灰名单。 [0004] 本发明针对现有的基于网页文本和网页快照的全域名灰名单过滤方法存在耗时长、成本高的技术问题,提出了一种不良网站灰名单过滤方法。基于全流通主域名的列表过滤方法。 ,该方法通过域名字符相似度和服务IP相似度的过滤,很大程度上减少了现有域名的大小,大大减少了获取和解析网页文本和快照所带来的时间消耗,同时实现了全面的域名解析。域名的控制。高效、准确的域名过滤。 [0005] 为此,本发明的技术方案是一种基于主域名全流通的不良网站灰名单过滤方法,包括以下步骤: [0006] 步骤一、提取现有的字符串不良网站域名特征并建立不良网站关键词词库,建立基于字符相似度的不良网站域名名称判别模型,对所有域名中疑似不良网站域名进行粗略过滤; [0007] 步骤2、构建IP和端口快速扫描模型,获取疑似不良站点域名的服务IP和端口属性信息,识别该域名是否可以解析并用于Web服务; [0008] 步骤三、通过现有不良网站服务IP组建立不良网站域名的IP映射范围模型,基于IP相似度进行粗略过滤; [0009] 步骤四、基于IP定位技术,对域名进行地理区域分类; [0010] 步骤五、利用现有的不良网站识别技术,分析粗略过滤得到的不良网站域名灰名单的准确性; [0011] 步骤6、对粗过滤步骤1和3进行迭代优化。
进一步地,不良网站域名的结构形式分为两类。第一类是域名中包含英文单词或汉语拼音,第二类是基于字符相似度模型的方法,域名由字符序列随机组成。其中,针对44 CN A手册第2/4页的一级域名,构建色情赌博关键词短语库来匹配关键词。对于二类域名,训练LSTM神经网络模型来判断字符序列是否是随机生成的。歧视。进一步地,彩赌关键词词库的构建方法是将37万个英文单词词典和405个汉语拼音合并为英汉拼音词典,并从39万个彩赌域名集合中进行最长的单词匹配,将出现提取高频色情赌博英文拼音词组,形成色情赌博关键词词组库,用于后续关键词匹配和过滤。进一步地,LSTM神经网络模型的训练方法是使用70万个Alex域名和78万个随机字符序列域名作为训练集和测试集来训练LSTM模型。 LSTM神经网络分为3层:1.预处理层,将域名字符序列的长度扩展到75,然后将字符特征映射到整数索引,最后将正整数索引转换为固定大小的稠密向量作为字符嵌入; 2.长短期记忆层,单元数设置为128,设置为0.5,避免过拟合; 3.输出层,采用2分类输出。
进一步地,对疑似不良网站域名进行粗略过滤的方法是,首先通过已经构建的色情赌博关键词库进行关键词匹配,判断该域名是否包含色情赌博关键词。如果存在,则认为该域名可能被不良网站使用。如果没有敏感关键词,则利用训练好的LSTM神经网络模型判断字符序列的随机性,从而判断域名是否由随机字符组成。如果是这样,则该域名被认为是可能的。用于不良网站。进一步地,基于IP相似度进行粗过滤的方法是通过现有的IP映射范围模型来分析步骤2中存储的IP的相似度。如果该IP落在该模型的映射范围内,则认为该IP用于提供不当内容。 [0017] 进一步地,粗过滤步骤1和3迭代优化的具体方法为: [0018] 步骤S1,动态更新彩赌关键词词组库,将新出现的高频的彩赌英文拼音词组添加到词组库,同时删除词组库中长期不用的词组; [0019] 步骤S2,动态更新IP映射范围模型,将新出现的坏站服务IP纳入模型中,减少漏检的IP范围。 [0020] 本发明的有益效果是,在过滤主域名全流通不良网站灰名单时,通过域名字符相似度和服务IP相似度的过滤,域名数量级范围为2.6亿减少了90%。在大幅减少获取和解析网页文本和快照所带来的时间消耗的同时,实现了对所有域名的高效、准确过滤。
通过本发明提出的方法,可以实现对所有域名的高速、高精度过滤。附图说明 [0021] 图1为本发明构建关键词库、LSTM神经网络模型和IP映射范围模型的实现结构示意图; [0022] 图2为本发明实现不良站点灰名单过滤的流程示意图。具体实施方式 [0023] 下面结合实施例对本发明作进一步说明。 [0024] 如图1所示,本发明的第一阶段需要两个步骤分别构建字符相似度模型和IP映射范围模型。具体步骤如下: [0025] 步骤(1):在对不良网站的域名进行分析时,发现不良网站的域名结构形式分为两类。第一类是域名中含有英文单词或中文拼音(不同语言有不同的形式。对于中文色情赌博网站55 CN A手册3/4页网站,域名中含有拼音形式较多),例如:等。第二种是域名由随机字符序列组成(可以通过算法随机生成),例如:vdqw-,。因此,在基于字符相似度模型的方法中,针对第一类域名,构建色情赌博关键词短语库来匹配关键词。对于第二类域名,训练LSTM神经网络来判断字符序列是否是随机生成的。 (1)彩赌关键词词库建设:将37万个英文单词词典和405个汉语拼音(不含音标)合并为英汉拼音词典。
对39万个色情赌博域名集合进行最长词匹配,提取出现频率较高的色情赌博英文拼音短语,形成色情赌博关键词短语数据库,可用于后续关键词匹配和过滤。 (2)LSTM神经网络模型的训练:使用70万个Alex域名和78万个随机字符序列域名(由39万个彩赌域名中的随机字符序列域名和DGA域名组成)作为训练集和测试集来训练LSTM模型。神经网络分为3层:1.预处理层,将域名字符序列长度扩展到75,然后将字符特征映射到整数索引,最后将正整数索引转换为固定大小的稠密向量作为字符嵌入。 2.长短期记忆层:将单元数设置为128和0.5,避免过拟合。 3、输出层:采用2分类输出。最终,训练集的准确率为 94%,测试集的准确率为 96%。 [0028] 步骤(2)、对现有的39万个彩赌域名进行DNS解析,获取全部服务IP地址。在考虑申请使用IP时,通常会申请一批连续的IP地址作为备份。因此,对所有彩赌IP范围进行映射,并构建彩赌IP映射范围的模型,以供后续过滤。 [0029] 如图2所示,一种基于全流通主域名的不良网站灰名单过滤方法,具体步骤如下: [0030] 步骤一:从现有不良网站域名字符串中提取特征,建立不良网站site关键词词组库,构建基于字符相似度的不良网站域名识别模型,对所有域名中疑似不良网站域名进行粗略过滤。
使用2.6亿个完整主域名作为输入数据,过滤域名字符相似度。其中,过滤分为两部分。首先,通过已经构建的色情赌博关键词库进行关键词匹配,判断该域名是否包含色情赌博关键词。如果存在,则认为该域名可能被不良网站利用。如果没有敏感关键词,则使用训练好的LSTM模型来判断字符序列的随机性,从而判断域名是否由随机字符组成。如果是,则认为该域名可能被不良网站利用。利用这两部分对疑似不良网站域名进行粗略过滤。 [0031] 步骤二、构建IP和端口快速扫描模型,获取疑似不良站点域名服务IP和端口属性信息,识别该域名是否可以解析并用于Web服务。通过上一步获取到的域名集合,获取其服务IP和端口属性。通过DNS解析,获取其A记录并存储所有可用的IP。然后进行端口扫描,查看80、443、8080等端口是否开放,过滤掉用于Web服务的IP。 [0032] 步骤3、通过现有的不良站点服务IP组,建立不良站点域名的IP映射范围模型,并基于IP相似度进行粗略过滤。使用现有的IP映射范围模型对步骤2中存储的IP进行相似度分析,如果该IP落入该模型的映射范围内,则认为该IP用于提供不当内容。
通过IP相似度粗略过滤不良站点。 [0033] 步骤四:基于IP定位技术,对域名进行地理区域分类。通过业务IP定位技术,获取IP物理地址属性,并细分为国内、国外。将上述步骤过滤的IP与域名关联并存储。 [0034] 步骤五、利用现有的不良网站识别技术对粗过滤得到的不良网站域名灰名单的准确性进行分析。通过现有的不良站点识别模型,对经过上述步骤过滤的域名进行准确判断。本次判断 66 CN A 手动 4/4 页面模型是基于网页内容和快照,因此获取文本内容和快照比较耗时。但通过上述过滤步骤,域名范围已经缩小了90%,过滤后的域名集合都是高度怀疑被不良网站利用的域名。因此,该步骤可以有效过滤掉不良网站域名灰名单,并评估上述步骤的过滤效果。 [0035] 步骤六:迭代优化粗过滤的各步骤方法,将所有色赌域名存入灰名单,并对步骤一和步骤三进行迭代优化。具体优化方法为:步骤S1,动态更新色赌关键词词组库,将新的、常用的色情英语拼音词组添加到词组库中,删除词组库中长期不用的词组。步骤S2:动态更新IP映射范围模型,将新出现的不良站点服务IP纳入模型中,减少模型中长期遗漏的IP范围。
[0036] 本发明在对主域名全流通中的不良站点灰名单进行过滤时,通过域名字符相似度和服务IP相似度的过滤,将2.6亿个域名量级范围缩小了90%,大大减少了因获取和服务IP而引起的问题数量。实现了对所有域名的高效、准确过滤,同时减少了解析网页文本和快照带来的时间消耗。通过本发明提出的方法,可以实现对所有域名的高速、高精度过滤。然而,以上仅为本发明的具体实施例。当本发明的实施范围不能由此限制时,在本发明的专利保护范围内进行的等同部件的替换或者等同的变化和修改,仍应落入本发明的权利要求所涵盖的范围之内。发明。 77 CN A 手册附图 1/1 页 图 1 图 288
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。