2020-04-15 ycdxsb papers / security / security_situation_awareness9 分钟读完 (大约 1413 个字) 0次访问

An analysis and classification of public information securiy data sources used in research and practice

课程作业，选题数据质量评价方法，所以看了这篇文章

Abstract#

是对当前公共信息安全数据源的分类与分析。对于信息安全数据来源多样且质量不一的情况进行研究分析，从六个维度进行分类和比较：(1) Type of information, (2) Integrability, (3) Timeliness, (4) Originality, (5) Type of Source,and (6) Trustworthiness。共收集和比较了68个公开的信息安全数据源，结果表明由于来源不同，数据异构繁多，加大了统一集成和使用的难度。

Introduction#

信息安全数据源：提供有关脆弱性、威胁、攻击、风险、受影响资产或可用对策的信息源

例如NVD、twitter的数据源等

当前研究gap：至今为止，对这些数据源的实证研究不多见，缺乏对这些数据源可用性、特征、依赖性和如何使用的系统且全面的概述。也没有对这些数据源的对比结果。

研究目标：对数据源进行分类，定性定量分析。

研究从以下三个问题入手：1、怎么分类；2、特征是什么；3、数据源之间有什么依赖关系

Related work#

Steinberger et al. 分析现有用例，根据数据交换格式和协议，给出了结构化认识
Hernandez-Ardieta et al. 提出基于交换格式的实时信息安全数据共享模型
Rader and Wash 分析三类安全数据源：文章、网页、个人经历，发现主要内容为attack和结果
Massacci and Nguyen 分析14个漏洞库，比较信息格式
Tripathi and Singh 对几个漏洞库的漏洞分类方案进行分析，希望提出更高的分类方案
Tounsi and Rais 对不同的威胁情报类型进行了分类。关注新的标准、趋势和技术问题。
Mavroeidis and Bromander 对共享标准和策略进行分类
Zhao and White概述了信息安全数据共享的重要性，并提供了重要共享的信息安全数据类型列表。
…

总结：目前的研究大多集中在信息安全数据交换或威胁情报共享方面，而对脆弱性数据库等信息安全数据源的分析研究还不多见。

Research methodology#

将问题2划分为很多子问题如下：

2.1 数据源存在哪些特征
2.2 信息结构是什么
2.3 获取数据的接口是什么
2.4 谁提供了这些信息
2.5 信息分享的时间
2.6 提供的信息是最原始的信息吗

问题3 划分：

3.1 提供的不同类型的信息之间有什么关系
3.2 接口如何与提供的不同类型的信息相关？

整体章节结构如下：

Literature Review#

基于snowballing方法，方法步骤如下：

定义文章的起始点集合
执行snowballing迭代（包括向前snowballing，例如确定引用被检查论文的新论文，以及向后snowballing，例如查看所考虑论文的参考文献）

定义起始点：通过关键字搜索各大数据库获得对应的文章（遵从snowballing的5大原则）

迭代：前向后向各进行三十次迭代直到没有新的paper进入集合，通过引用和被引等信息，经过blabla最后选出了42份优质论文

Data collection on twitter#

利用关键词，使用爬虫爬和CVE有关的tweets，pattern匹配CVE-\d{4}-\d{4}，（现在这个pattern已经不够用了）

一共搜集到了20160523-20180327间的709880个tweets，平均每个tweet中有0.8个url指向了包含详细信息的网页。一共有11437个不同的详细信息链接，选取了其中的top50

Exploratory survey#

调研公共安全数据源的使用，通过问卷的方式对29个大公司进行调研：What public available information security data sources are you using as input to information security risk management processes?

让他们从87个备选数据源中挑选最常用的3个，然后最后根据调研选出了32个数据源

Selection of information security data sources#

从上面的42，50，32中选取开源、英语并且和attack、risk等相关的，其他的商用、非英语什么的丢掉

Development of classification taxonomy#

没用的章节

Classification and analysis of information security data sources#

好像也没什么用，总之是为了减小个人看法对分类结果的影响，分类也是人工分的

Results#

Classification taxonomy#

分类结果如下：

根据信息类型按照IEC2014划分为Vulnerability、Threat、Countermeasure、Attack、Risk、Asset

根据可集成性按照IEC/ISO27005，描述了信息自动化聚集的程度，分为结构性的，非结构性的格式和接口等

根据及时性可以分为常规的日报月报和突发两种

根据独创性分为一手和二手资料

根据信息源类型分为新闻网页、博客、安全产品网页、漏洞库、邮件、社交网络等

根据信赖程度分为可信性、可追溯性、反馈机制

后面的东西与课程作业内容不是很相关所以就不看了，都是回答前面抛出的的questions

这六个分类维度和选题还算有点关系

支付宝

微信