大数据的第二个十年，普通开发者的危与安

资讯作者：又拍云 2021-11-23 22:07:01 阅读：644

大家好，我是又拍云的一名低端小码农，但是我今天想和大家分享的题目却很大：“在大数据的第二个十年，普通开发者的安与危”。为什么我要分享这么宏大的命题呢？尼古拉斯·赵四曾经说过：“渣渣码农一思考，技术大牛就发笑。”所以这篇文章发出来的主要目的是供大家逗乐解闷，其次是想讨论一下“快 2022 年了这时开始搞大数据是不是好的一个选择，是不是已经晚了？当下工作与大数据没有关联的岗位，在这第二个十年会不会受到它的冲击？”

乌衣巷

朱雀桥边野草花，乌衣巷口夕阳斜。旧时王谢堂前燕，飞入寻常百姓家。

第一个问题: “大数据目前还热不热”？

如果这个问题放到十年之前是不言自明的，那时大数据还是“火箭科技（rocket science）”，套用 Sheryl Sandberg 的话来说，“If you're offered a seat on a rocket ship, don't ask what seat. Just get on”。而今天当初风光无限的 Hadoop 三大发行商已黔驴技穷，Cloudera 先是在 2019 年与宿敌 Hortonworks 合并，又在今年私有化黯然退市。另一个发行商 MapR 被 HPE 收购后，早已泯然众人矣，在当前毫无市场影响力。另外，从 2021 年 4 月 1 日起，Apache 软件基金会（ASF）宣布 19 个将退休的开源项目中，其中 13 个与大数据相关，10 个属于 Hadoop 生态系统。

如果你认为大数据就是指 Hadoop 相关的话，那么大数据已经 “凉凉” 。现在存储海量数据，除了 Hadoop 还有更多的选择方案。存储的数据如果是非结构化数据如图片或音视频，那么选择分布式对象存储更合适。现在的分布式数据库不仅功能强大，而且部署和运维也远比 Hadoop 简单，进行数据分析可以直接写 SQL 并不用像 HDFS 那样需要搭配另外的组件。如果存储结构化数据那选择就更多了。

而如果你认为 Hadoop 不能代表大数据，那么大数据的研发热度也早已降温。降温的标志性特征是已经连续几年没有“明星项目” 出现了。这或许令人难以置信，但是我们可以看一下，Flink 开始于 2015 年，“突然” 火起来的 ClickHouse 早在 2016 年就发布了。现如今在大数据初期 Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming VS Storm 等开源软件相爱相杀的盛况，已成绝响。

但与之相对的，是大数据在如今变得廉价和方便，各种文字、视频教程俯拾皆是。普通开发者想学习了解大数据，啃“生涩”的官方英文文档不再是唯一途径。如果想要尝试一下 wordCount (大数据中的“hello world”) 也能在一小时内搞定。大数据从业者不再是 “高端稀缺人才”，中小型公司也雇得起。创业公司需要使用大数据时直接开通相关的云产品即可，连“招聘大数据开发自建大数据集群” 这步也免了。而对各大互联网巨头来说，当前开源的很多大数据组件在性能上有些捉襟见肘，已经不能满足它们的 “胃口”，于是纷纷去研发多层一体化存储系统、面向异构硬件的调度支持等前沿技术。

“旧时王谢堂前燕，飞入寻常百姓家”, 大数据“遇冷” 的背后，折射出的是“大数据进入技术普惠和业务大规模应用的阶段”。

云和 AI

第二个问题：面对越来越物美价廉的云上大数据产品，中小公司的自建大数据集群还能坚持多久？

众所周知的是，大数据的诞生背景是谷歌用廉价的小型机撑起了海量的互联网搜索业务。在需要强调的是，所谓“廉价”是相对于大型机的“昂贵”比较而言。

目前大部分小公司可能都面临营收能力欠佳，精打细算过日子的情况，在这个前提下招聘几名专职大数据开发的员工，再租上一批比普通 Web 服务器贵上许多的机器来搞大数据，对于企业而言是一个不小的负担。但如果公司的主营业务不是大数据或 AI 方向，大数据只是主打产品的一个子功能或是内部平台功能的话，放弃自建集群裁掉相关开发使用云上的大数据产品，然后按需按量付费，这难道不比支付高额成本自研大数据香吗？不过这其中还是有一个隐患的，也就是所谓的“上云容易下云难”。

因为客户上云后会因为基础的 IaaS 层，甚至包括 PaaS 层在内的协议、端口、适配等等原因形成对云供应商的被动性依赖。

而对这种情况的应对方式，这两年大火的公司 Snowflake 带来了新的思路。Snowflake 属于 DaaS （Data warehouse As A Service），主要基于云服务提供数据仓库的 SaaS 服务。简单来说就是 Snowflake 这个公司在各大云厂商的基础服务上做了一个抽象层，然后基于这个抽象层构建自己的数据仓库产品。这样就不太会出现被某个特定的云厂商“绑定” 的情况，还可以根据各云厂商的价格及服务动态调节以控制成本。

第三个问题：“你负责的业务比无人驾驶还复杂吗?”

在大数据领域，很多公司的数据规模已经是 PB 或 EB 级，如此海量的数据仅靠过去的“人海战术” 来分析和运维就显得不太现实。因此基于人工智能（AI）做系统优化就变成了一种新的潮流，这也代表大数据会变得越来越智能。

那么“目前这种写各种脚本拖数据，写几千行 SQL 筛数据” 的工种，离被 AI 取代还有多远？

上面这个问题可能大部分同学觉得有些离谱，毕竟当下的人工智能比起智能更感觉是“人工智障”。但如果因此而觉得 “自己的工作离被 AI 替代还远着呢”，那就错了！我们不如反问一下自己：“我负责的业务比无人驾驶还复杂吗？”。如果以研发无人驾驶或“阿尔法狗” 的复杂度来对比自己的工作，那肯定是远比不上的。这也是一个现实，之所以 AI 还没有取代自己的工作，较大原因是我们比 AI 要便宜很多。那么如果 AI 也变得便宜且好用呢？

正如大数据技术上云后成本不断被摊薄一样，云上的各种 AI 产品价格也越来越亲民。举个例子，当前调用一次人脸识别的接口价格还不到 1 分钱, 因此越来越多的公司更倾向于调用第三方人脸识别接口，这就让公司不再需要研发人脸识别的技术人员，不再需要人工审核的员工。

随着大数据技术和 AI 技术的成熟，AI For System 落地后带来的很可能是开发方式上翻天覆地的变化，现在的我们也许还能自信地认为 AI 无法取代自己。但在 AI 已经优化掉一些职业的情况下，我们真的能信誓旦旦地说未来的自己也不会被 AI 取代吗？《三体》中有句话很值在这里提出来：“毁灭你，与你有何相干？”，我想我们也应当有所警醒。

夸父逐日

夸父与日逐走，入日；渴，欲得饮,饮于河，渭；河，渭不足，北饮大泽。未至，道渴而死。弃其杖，化为邓林。

看到这里，相信大家已经有了一点模糊的概念，我们不妨把它点明。在 AI 已是不可抗拒潮流的现在，为 AI 提供数据支持的大数据必定也会迎来新的转机。所以担心大数据饭碗问题的同学可以把心放到肚子里了。但如果你是想在中小型公司不关心业务仅提供大数据支持服务，那肯定是不行的，因为这块市场只会不断被云服务侵占。

那作为一个普通开发者的我们要怎么办呢？去 Github 上的项目下留言 “学不动了” 之类的话吗？那肯定不行，也太丢人现眼了。不妨选择以夸父之姿，对技术常怀赤子之心，积极地拥抱技术浪潮吧。告别投机心态，选择坚持长期主义在一个行业深耕，或许为你带来从追逐者到引领者的蜕变。具体来讲我们可以从以下几点出发：

定投半衰期长的知识

定投是一个投资上的概念，指定期定额投资某种金融产品。半衰期是一个物理学概念，指的是放射性物质减少一半质量（辐射衰弱）所需的时间。而信息也有半衰期，信息的半衰期指的是一半的信息量变得无关紧要或者彻底过时所需的时间。

定投半衰期长的知识，可以理解为坚持不断地学习不容易过时的知识。大数据领域有哪些算半衰期长的知识呢？Java 和开源项目背后的论文这两个我认为是算的。

目前来看 Java 是一门保值的语言, 无论是企业级的后台开发还是大数据方面都有非常广泛的应用。最近几年的数据湖无论是 Hudi、Iceberg 还是号称取代 Hadoop 的 Ozone 都依旧基于 Java 构建。由此可见无论是大数据业务开发还是深刻理解开源项目源码，Java 都必不可少。所以定投 Java，夯实语言基础是一个很好的选择。

在组件方面，大数据的相关组件数量之多，但是这些琳琅满目的项目要解决的问题从头到尾都是同一个。如果不断去追寻大数据项目的 API，很容易因为疲于追赶陷入“学而不思则罔”的状态。这时咬牙去啃一啃项目背后的论文，揣摩各项目在因果关系链上的脉络，从项目的原理出发去提纲挈领地学习和实践，才能在后续的工作中起到事半功倍的效果。

拥抱云和 AI

不谋全局者，不足谋一域。做出正确选择的第一步是对全局形势作出了正确的判断。举个例子，如果你明白云和 AI 是当前的一个大势，那你看大数据分析引擎 Flink 近期版本迭代是朝着“支持 Flink on K8S” 和“发展 PyFlink 的客户端”的方向发展也就不足为奇了。进一步来说，如果想向 Flink 社区共享代码，朝着上述方向去努力是能快速地得到 Commmiter 的支持的。

另外我还想着重强调 AI 技术，既然 AI 和大数据发展为 Mysql、Redis 等这类普及工具的趋势已无法避免，那还有何理由不把它纳入你的编程武器库呢？尽管我们可能无法像专职的机器学习工程师那样精通，但是熟悉和掌握一些业已成熟的工具和方法，再将它和我们手头的业务相互融合碰撞，说不准就能有惊人的收获!

在一个行业沉淀五到十年

尽管热门行业在待遇方面会有优待，但是众所周知“热门行业”是不断变化的。没有领军人物能够领军全部的热门行业，大部分行业的佼佼者都是在行业内浸淫已久的领域专家，成为热门行业领军人只不过是所在的行业变得热门。因此我们大可放心大胆在一个行业坚持五到十年，沉淀该行业特有的领域。

为什么是五到十年呢？那篇盛名已久的《十年学会编程》中曾引用过这样一个研究 “研究表明 (Hayes，Bloom)在任何一种领域内，象下棋、作曲、绘画、钢琴演奏、游泳、网球、以及原子物理学和拓扑学，等等，要达到专家水平大约都要化十年时间”。中国古诗中也有“十年磨一剑，霜刃未曾试” 的金句。所以把自己打磨成某一个领域的专业，应该真的需要十年这么久。那为什么在这里又要给这个期限加上一个弹性，称之为“五到十年”呢？因为中国是一个飞速发展充满变数的神奇国度，你选择了P2P、虚拟币或在线教育等行业，“树欲静而风不止” 想不变都难吧。

今天我想要和大家谈的就到这里，谢谢大家听我絮絮叨叨地讲了这么久。如果上文观点与您的见解不同，那肯定是我错了，毕竟我从事大数据相关工作的时间不是很长，难免漏洞百出，望各位读者大大们海涵。如若留言赐教更是拜谢不尽。

参考资料

11 天里 13 个 Apache 开源项目宣布退休，Hadoop 的时代结束了：https://www.infoq.cn/article/8iproq9a7qxuslmpurfo
“后红海时代”，独家揭秘当下大数据体系：https://developer.aliyun.com/topic/download?id=7984
凭什么“上云容易下云难”：https://tech.ifeng.com/c/87sNFmq3EWF
Snowflake：数据仓库的终极形态？：https://zhuanlan.zhihu.com/p/54439354
《科技爱好者周刊》第 103 期：https://www.ruanyifeng.com/blog/2020/04/weekly-issue-103.html
十年学会编程：http://daiyuwen.freeshell.org/gb/misc/21-days-cn.html