splunk针对机器学习的一个计算占用1 core的痛点 ,splunk加入了 深度学习Deep learning Toolkit、ai ml dl 深度学习Deep learning Toolkit分为3中模式: 一、监督式学习 二、无监督式学习 三、半监督式学习 目的是强化机器学习解决之前的痛点,是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。 其中重点说明了 1)监督式 输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,在建立预测模型的时候,监督式学习建立一个学习过程,将预 测结果与“训练数据”的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。 监督式学习的常见应用场景如分类问题和回归问题。 常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network) 此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。 机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)? 最简单也最普遍的一类机器学习算法就是分类 (classification)。 对于分类,输入的训练数据有特征(feature),有标签(label)。 所谓的学习,其本质就是找到特征和标签间的关系(mapping)。 这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如 果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。 2)无监督式 我们有一些问题,但是不知道答案,我们要做的无监督学习就是按照他们的性质把他们自动地分成很多组,每组的问题是具有类似性质的(比如数学问题会聚集在一组,英语问题会聚集在一 组,物理…)。 所有数据只有特征向量没有标签,但是可以发现这些数据呈现出聚群的结构,本质是一个相似的类型的会聚集在一起。 把这些没有标签的数据分成一个一个组合,就是聚类(Clustering)。 比如Google新闻,每天会搜集大量的新闻,然后把它们全部聚类,就会自动分成几十个不同的组(比如娱乐,科技,政 治…),每个组内新闻都具有相似的内容结构。 无监督学习还有一个典型的例子就是鸡尾酒会问题(声音的分离),在这个酒会上有两种声音,被两个不同的麦克风在不同的地方接收到,而可以利用无监督学习来分离这两种不同的声音。 注意到这里是无监督学习的原因是,事先并不知道这些声音中有哪些种类(这里的种类就是标签的意思)。 目前分类算法的效果还是不错的,但相对来讲,聚类算法就有些惨不忍睹了。确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。 这也正如我们在高中做题,答案(标签)是非常重要的,假设两个完全相同的人进入高中,一个正常学习,另一人做的所有题目都没有答案,那么想必第一个人高考会发挥更好,第二个人会 发疯。 这时各位可能要问,既然分类如此之好,聚类如此之不靠谱,那为何我们还可以容忍聚类的存在? 因为在实际应用中,标签的获取常常需要极大的人工工作量,有时甚至非常困难。例如在自然语言处理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句话的标签…… 从splunk社区老杨哪里得知他的朋友们感觉splunk 的syslog不太友好,而且很多设备数据接入都是syslog数据类型无法清晰的分辨他们自己开发了一个splunk connect for syslog。 第三方Splunk Connect for Syslog(SC4S)是一个社区项目,致力于减轻将syslog数据源引入Splunk的痛苦。SC4S解决的主要痛点包括以下内容…… 社区中缺乏丰富的syslog专业知识 syslog服务器部署之间的不一致带来了支持挑战 标记了全部源类型“ syslog”的数据源限制了Splunk分析 Splunk索引器之间的数据分配不均会影响搜索性能 Splunk Connect for Syslog应该由需要通过syslog到Splunk加载数据源的任何Splunk客户使用。 下载链接:https://github.com/splunk/splunk-connect-for-syslog 从百度安全人员哪里学习到了lookup的用途以及快速查找的用途,他们有一个痛点是针对tcp6的ip无法定位以及时间上他们用脚本的方式进行校准,还有一个很好用的slookup-file- editor_332,可以清楚的看到你创建的lookup表、以及讲述了splunk SAS插件模板的好处可以参考思科的 SAS app。 更多的讲述了splunk的8.0+的新功能、对字段的权限控制、自定义指标、工作负载管理等、针对app他们还提供了一个splunk-dashboards-app-beta_032(仅支持8.0版本)可以自定义开发复 制json 制作相同案例的APP DEMO(针对开发人员)。 介绍了安全的对接架构Splunk Enterprise Security、Splunk Phantom Splunk 、User Behavior Analytics、Splunk Business Flow。 以上仅个人记忆整理并不代表全部内容。 |
|
来自: BIGDATA云 > 《splunk数据趴》