An analysis and classification of public information securiy data sources used in research and practice
课程作业,选题数据质量评价方法,所以看了这篇文章
Abstract#
是对当前公共信息安全数据源的分类与分析。对于信息安全数据来源多样且质量不一的情况进行研究分析,从六个维度进行分类和比较:(1) Type of information, (2) Integrability, (3) Timeliness, (4) Originality, (5) Type of Source,and (6) Trustworthiness。共收集和比较了68个公开的信息安全数据源,结果表明由于来源不同,数据异构繁多,加大了统一集成和使用的难度。
Introduction#
信息安全数据源:提供有关脆弱性、威胁、攻击、风险、受影响资产或可用对策的信息源
例如NVD、twitter的数据源等
当前研究gap:至今为止,对这些数据源的实证研究不多见,缺乏对这些数据源可用性、特征、依赖性和如何使用的系统且全面的概述。也没有对这些数据源的对比结果。
研究目标:对数据源进行分类,定性定量分析。
研究从以下三个问题入手:1、怎么分类;2、特征是什么;3、数据源之间有什么依赖关系
#
- Steinberger et al. 分析现有用例,根据数据交换格式和协议,给出了结构化认识
- Hernandez-Ardieta et al. 提出基于交换格式的实时信息安全数据共享模型
- Rader and Wash 分析三类安全数据源:文章、网页、个人经历,发现主要内容为attack和结果
- Massacci and Nguyen 分析14个漏洞库,比较信息格式
- Tripathi and Singh 对几个漏洞库的漏洞分类方案进行分析,希望提出更高的分类方案
- Tounsi and Rais 对不同的威胁情报类型进行了分类。关注新的标准、趋势和技术问题。
- Mavroeidis and Bromander 对共享标准和策略进行分类
- Zhao and White概述了信息安全数据共享的重要性,并提供了重要共享的信息安全数据类型列表。
- …
总结:目前的研究大多集中在信息安全数据交换或威胁情报共享方面,而对脆弱性数据库等信息安全数据源的分析研究还不多见。
Research methodology#
将问题2划分为很多子问题如下:
- 2.1 数据源存在哪些特征
- 2.2 信息结构是什么
- 2.3 获取数据的接口是什么
- 2.4 谁提供了这些信息
- 2.5 信息分享的时间
- 2.6 提供的信息是最原始的信息吗
问题3 划分:
- 3.1 提供的不同类型的信息之间有什么关系
- 3.2 接口如何与提供的不同类型的信息相关?
整体章节结构如下:
Literature Review#
基于snowballing方法,方法步骤如下:
- 定义文章的起始点集合
- 执行snowballing迭代(包括向前snowballing,例如确定引用被检查论文的新论文,以及向后snowballing,例如查看所考虑论文的参考文献)
定义起始点:通过关键字搜索各大数据库获得对应的文章(遵从snowballing的5大原则)
迭代:前向后向各进行三十次迭代直到没有新的paper进入集合,通过引用和被引等信息,经过blabla最后选出了42份优质论文
Data collection on twitter#
利用关键词,使用爬虫爬和CVE有关的tweets,pattern匹配CVE-\d{4}-\d{4}
,(现在这个pattern已经不够用了)
一共搜集到了20160523-20180327间的709880个tweets,平均每个tweet中有0.8个url指向了包含详细信息的网页。一共有11437个不同的详细信息链接,选取了其中的top50
Exploratory survey#
调研公共安全数据源的使用,通过问卷的方式对29个大公司进行调研:What public available information security data sources are you using as input to information security risk management processes?
让他们从87个备选数据源中挑选最常用的3个,然后最后根据调研选出了32个数据源
Selection of information security data sources#
从上面的42,50,32中选取开源、英语并且和attack、risk等相关的,其他的商用、非英语什么的丢掉
Development of classification taxonomy#
没用的章节
Classification and analysis of information security data sources#
好像也没什么用,总之是为了减小个人看法对分类结果的影响,分类也是人工分的
Results#
Classification taxonomy#
分类结果如下:
根据信息类型 按照IEC2014划分为Vulnerability、Threat、Countermeasure、Attack、Risk、Asset
根据可集成性 按照IEC/ISO27005,描述了信息自动化聚集的程度,分为结构性的,非结构性的格式和接口等
根据及时性可以分为常规的日报月报和突发两种
根据独创性分为一手和二手资料
根据信息源类型分为 新闻网页、博客、安全产品网页、漏洞库、邮件、社交网络等
根据信赖程度分为 可信性、可追溯性、反馈机制
后面的东西与课程作业内容不是很相关所以就不看了,都是回答前面抛出的的questions
这六个分类维度和选题还算有点关系