当「小土狼」遇上「大洋狮」:创业公司凭何击败大公司  红沙发

 

从前有一座金矿,摆在你和一个比你强壮10倍的外国肌肉男面前。...



视频来源于陈军的分享实录,点击阅读原文跳转日志易

↑ 时长:10′46″,体积:22MB

分享者

陈军,日志易创始人&CEO。拥有17年IT及互联网研发管理经验,曾就职于Cisco、Google、腾讯和高德软件。他发明了4项计算机网络及分布式系统的美国专利,拥有美国南加州大学计算机硕士学位。

背景

日志易是一款日志集中管理与搜索分析产品,致力于将复杂的日志分析做得像Google搜索一样简单高效,提供实时搜索、分析、监控、统计和可视化等功能,帮助企业进行运维监控、安全合规审计及业务数据挖掘。

简介

「日志」对于小编这样非技术背景的人来讲,是一个既熟悉又陌生的名词。然而为了不愧对大家对RC的宠爱,小编拿出严肃地科学精神,检索到了以下这段来自一本通篇都是“简单地说”的学术著作里的解释:

简单地说,日志数据 ( log data ) 的核心就是日志消息或者日志。日志消息就是计算机系统、设备、软件等在某种刺激下反应生成的东西,确切的刺激在很大程度上取决于日志消息的来源。

换句话说,日志数据就是一条日志消息里用来告诉你为什么生成日志消息的信息。例如,Web服务器一般会在有人访问Web页面请求资源(图片、文件等等)的时候记录日志。

日志(log)这个术语实际上指的是用于展示某些事件全貌的日志消息的集合。

——Anton A.Chuvakin《日志管理与分析权威指南》



考虑到翻译等坑爹的因素,如果到现在你依然能忍住不对我说:“什(W)么(T)鬼(F)”,小编敬你是条汉子,赶紧端上一壶七牛云存储创始人许式伟的大数据良心科普给你压压惊。

这么说吧,如果把一切IT系统都看作要吃喝拉撒、有七情六欲的人类,日志就像那个小时候在你身边如影随形,幽灵般地记录你一天喝了几次水、上了几次厕所、见了几个早恋对象的老妈。(好吧,我听到了你们内心不耻的声音:只有小编你才有这样的老妈好嘛?)

既然日志数据在IT系统中无处不在,听起来也还蛮重要的(”妈妈问这些是为了你好“,这话没少听吧?),那为什么会出现许式伟提到的那种“不但其价值远未被挖掘,甚至还不断被删除”的状况呢?

小编以为,与其说是过去几十年,大家都没有意识到日志数据的价值,不如说是今天的商业环境和技术创新,使得挖掘日志数据这样的非结构化数据的价值,成为了一种新的需求和可能。举个例子,在你给手机充值还靠买卡的年代,其实也没有那么多非要用特定软件才能分析的日志数据呢。

另一方面,回顾日志系统的进化历程,可以看到大致分成三个阶段:1.0是数据库时代,无法支持任意格式的数据;2.0是Hadoop时代,特点是只能做离线挖掘,无法做在线分析,从而也无法满足互联网越来越高的运维监控和查询要求;3.0就是现今的日志时时搜索分析引擎时代,而支撑这个时代到来的,正是2009年诞生于伯克利大学AMPLab的Spark技术。

在过去多年来,一个众所周知的事实是,新技术往往诞生在大洋彼岸的美国,因此最先受惠于此的也是硅谷那批从事技术应用的科技型创业公司。2012年,日志易的对标公司、成立9年的Splunk成功登陆纳斯达克。据上市时公布的财报显示,Splunk在上市前几年的毛利率一直保持在90%左右。这也正体现出SaaS公司运营稳定后,边际成本几乎为零,而ARPPU(每付费用户平均收入)却可以保持稳定、LTV(用户生命周期价值)理论上可无限延伸等特征

值得一提的是,数人科技的CEO王璞在分享中(点击跳转)谈到中美to B领域创业时曾说:

目前来讲虽然国内toB领域的技术创新,还是落后于美国,落后于Google,尤其在互联网技术创新这个层面。但是在这些互联网相关技术的应用层面,国内可以说不输于美国了。

之前Hadoop这个大数据技术出来的时候,国内可能过了三四年左右才开始慢慢应用上,但是到了Spark这个更新的大数据技术的应用,国内最多落后美国一两年的时间,再到最新的Docker容器的技术,国内的应用已经跟美国在同一起跑线上,Docker在2013出来,国内2014年就很热,美国也是从2014年开始很热。

未来我相信再有更新的企业级技术、互联网技术出来的时候,中国和美国在应用层面会保持同步的,在应用层面保持同步后,下一个阶段就会进入创新的阶段。

这段话概括一下就是:地球变得越来越平,小伙伴们Copy to China的手速变得越来越快(ง •̀_•́)ง。关于如何选择Copy to China的对标,OneAPM的CEO何晓阳在2014年录制RC时有过一段分享(点击跳转),有兴趣的小伙伴可以结合最近两年的一些热门公司,看看SaaS行业是不是发生了一些有趣的改变。

在何晓阳的分享中,他提出了一些在小编现在看来也觉得颇为犀利的观点,特摘出其二与大家探讨:

1. SaaS这个领域的产品,都不是一个个单个的点,每一个SaaS产品都是可以互相融合的。因此国内的SaaS小伙伴们,看待这个市场的心态还可以再开放点。事实上除了何晓阳,Worktile的CEO王涛也分享过同样的看法。(点击跳转)

2. 做一些能够垄断的领域。无论这个领域多小,只要你能垄断,你就有定价权。 放眼中国的互联网环境,这种野生纯天然的壁垒,你有心总能找到不少。不信你瞧日志易对外公布的用户清单:国家开发银行、国家电网、中移动......也就不难理解,为什么已经成为一家跨国巨头公司的Splunk在中国的市场份额一直无法提高啦。

最后谈一谈标题中,创业公司到底凭啥能打败大公司的问题。友情提醒不关心SaaS的小伙伴们,可别连本期分享中的这部分也一块错过啦。对这个问题,B站陈睿也有一番精彩的见解(点击跳转)。陈睿认为:“为什么诺基亚打不过苹果,是因为诺基亚无法放弃功能机。为什么大公司在新需求上打不过小公司,是因为大公司还有‘更重要’的事要做。”
以下是硬广的分割线
说了这么多小公司、大公司和大数据
如果你也恰好跟IT桔子啊、RC啊这些一样
是一家狂拽炫酷的小公司
(没错,这年头要脸的人还敢出来创业?)
或者是正期待并关注着未来一年可能出现的机遇风口
那你一定不能错过这个解码行业大数据的机会!
↑ 上海场传送门  
↑ 武汉场传送门
附全文

非结构化数据的金矿

以前我们讲数据,像数据库、数据仓库,其实都是结构化数据,都是存在数据库的表里面,就像一个excel的表。比如说一个公司的员工的名册,叫什么名字、证件号码、什么时候加入公司、生日、电话号码、联系方式、地址,每一个字段,一个表格每一列都是对应的一个属性,这种叫结构化数据。以前讲的这些数据基本上都是结构化数据。

那后来就出现了这种文本的数据,一篇文章或者一条日志;然后还有声音、图像,这些都是非结构化数据。有机构做过调查,结构化数据其实占了现在所有信息数据里面不到5%,超过95%都是非结构化数据。日志也是一种非结构化数据,它就是带有时间戳,后面就是一段文本(文字),而且是程序员在程序里写,然后程序再输出来的。所以它也叫时间序列机器数据,它就是带时间戳的。

从服务器、网络设备还有物联网的传感器这些机器里输出的数据,这叫做时间序列机器数据。这些数据它本身那条信息也是非结构化的,非结构化的数据机器要来处理,最常用的一种方式就是用搜索引擎。就像百度google这样的搜索引擎,任何的网页它都能搜索,用搜索引擎来处理它就是非常灵活,它里面任意的字段都可以搜出来。

另外对你感兴趣的字段,把这些字段提取出来,那就叫做把这个非结构化数据转成结构化数据了。你提取出这些字段,每一个字段它的值是多少,都有这种key-value。有了这种字段键与值的对应关系之后,你就可以做各种统计分析,做各种图表,包括可视化,就可以用一些结构化数据的处理方式来处理了。
像BAT这种大公司有足够多的用户数据,还有很多银行也有很多用户的数据,其实每一家公司都有数据,每一家公司都有金矿。像BAT他的研发实力比较强,他自己开发各种工具去挖掘金矿。但很多传统行业、传统企业,他没这个研发实力,他就得利用第三方的工具去挖掘金矿。

如何挖掘日志数据的价值

日志又是一个最基础的数据,所有的IT系统都会产生日志,只要是有电脑,有网络设备,就会每天每时每刻源源不断地产生日志。这些日志过去都丢在那里,没有一个有效的工具去集中管理,去分析,去把它的价值挖掘出来。

日志数据的挖掘主要应用场景就三个:一个就是运维监控。就从日志里包含的错误信息,能够马上监控到IT系统是否出故障。第二条就是安全审计。从日志里面看有没有安全入侵,系统被黑客入侵攻击了,从日志里去发现。特别是现在所谓的高级持续攻击APT,主要就是通过从日志里发现。第三条就是用户数据和业务数据的挖掘。从日志里把这些业务数据给统计分析出结果,提供给决策使用。

日志数据在过去其实是被忽略的,就基本上是散落在各台服务器没有集中管理。出了事情都是事后追查,运维工程师登录到各台服务器上去查看日志。但因为这些服务器,或网络设备它的存储也有限,磁盘满了日志就被删除了。如果他晚了几天去登录、去看,那日志已经不在了。或者黑客入侵之后,他第一件事情可能就去删除日志,把他入侵的痕迹抹除。

那这些运维工程师,登录到这些设备上去查看日志,用的都是很基本的linux的命令,或用一些简单的脚本程序,就还是一种手工操作去看。所以第一个是没有集中管理,第二个是工具非常落后

那我们提供的就是,把日志集中采集、集中管理,并且提供了非常高级有效的分析方法。我们是可以在搜索框里,像写脚本程序来分析日志。所以当年云计算刚出现的时候,百度的李彦宏讲过框计算,其实我们这个东西就是个框计算。我们是可以在搜索框里,写几十行上百行的脚本程序,来对日志进行非常复杂的分析。

我们有几个案例。中移动某个省的分公司,我们在那里是帮他做业务数据的分析。网上营业厅缴费的流程,办一笔业务整个的流程中,他的日志会经过多个子系统。每个子系统都产生日志,我们可以把一笔交易所经过的多个子系统的日志给串起来,还原成一笔交易一个事务,然后来统计分析它每一笔交易总的延时,还有它在每一个子系统的延时,让它非常清楚的知道业务的状况。这个是用在业务分析上面。

另外一个是国家电网,我们给它做安全审计。因为电网是关系到国计民生,是非常基础的东西,就容不得有任何差错。如果被黑客攻击进来,会造成非常大的损失。通过日志就可以看有没有渗透、有没有攻击。

创业公司如何击败大公司



↑ 创业公司与大公司优劣势对比分析

我当年在思科的时候,是经历了思科和华为的那场竞争。当时是02到04年那段时间,我也看到一个中国起来的公司,是怎么去击败美国的国际巨头的。思科当年是一头狮子,华为是一个土狼,这个土狼是怎么去击败狮子的。

在中国市场上面,我当时是作为在思科那边的员工,来经历这个事情的。当时在思科,在中国这边基本上没什么决策权,这也是所有跨国大公司的通病。特别是产品研发方面,中国这边就是销售和客户支持,所有产品研发都是美国总部做决定。整个决策流程也非常慢,不管客户需要什么功能那都得层层审批。

因为思科是做全球市场的,中国只是它众多市场之一,收入占的百分比也并不是太高,所以对中国市场的这些需求并不是太重视。而且本身公司也非常大,比如内部我们修一个bug,修这个bug也就花两个小时,但这个bug能提交进代码库,可能得层层审批,得花两周时间才能提交进去。就整个决策流程都非常慢,这个流程管理非常不灵活。

当时看到华为的工程师可以直接在客户现场改代码,客户如果发现什么bug,当场就改,当场就修好。客户需要什么功能,一些小的功能,工程师在现场就改了。这种灵活性、这种本地的支持,是思科当时根本没办法做的。所以我们当时在思科内部是专门有个邮件组,叫做beat华为,就是怎么打败华为。当时是经历过这些事情,看到里面好多讨论,等于是在战败的一方经历过整个过程。

国内公司的优势就是本地的团队,了解本地市场,满足本地客户的需求,本地的服务,这些是跨国公司所不具备的。而且这种灵活性,这种为客户贴身的定制化的服务,这些都是国际大厂做不到的。因为中国可能只占了它收入的几个百分点而已,它不会为这几个百分点的收入,而投入太多的研发力量。所以它在中国卖的,基本就是它一个标准的产品,任何定制化的东西都没有。这个是美国大厂的劣势,是中国本土企业的优势。

美国大厂它的优势,是它的研发投入比较多。而且它做的时间长,产品更成熟、功能更多。但它功能多对客户来讲,意义其实又不大。这个就像你用的一部手机或者汽车一样,它其实很多功能用户都用不到的,用户关心的只是用户需要用到的功能

甚至一个后创立的公司像我们,用的一些技术,反而是那些老公司所没用到的。因为他们总有历史包袱,他们是十年前十几年前创办的,所以他们用的一些技术还是十几年前的技术。那我们是14年创办的,我们直接就用到14年最新的技术。所以从创新性这一条来讲,不管是中国美国,创业公司用的技术总要比那些大公司更先进。其实这个也是创业公司的优势。因为讲市场渠道,讲资金成本,讲品牌,那肯定是大公司更有优势。但是小公司的优势,就在于它的创新和灵活性,它用的都是最新的技术
合作小伙伴
GDG社区 小饭桌 七牛开发者最佳实践日
华兴逐鹿X 口袋巴士
中国移动开发者俱乐部 IT高管会
真驿站 众创学院 以太学堂 方创资本
IDG资本 ZhenTalk InnoSpace PMCamp UCloud
GameLook GitCafe SegmentFault GirlUp OneAPM
新浪创业课 接力成长营 常青藤论坛 苏河汇
微链 触宝大咖吧 天使茶馆 DBRC
联合创业办公社 腾讯众创空间 太库  XNode 优客工场
红沙发 RedCouch
我们纪录时代的创造者
分享互联网创业的经验、新知与思想
科技不息,分享不止
微信号 RC4Startup
点击右上角分享
长按二维码关注


    关注 红沙发RedCouch


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册