编程十七年心得与流水账

删除回忆录丶 提交于 2020-04-04 02:47:59

前言:

好些年没有写博客了。

最近公司很忙很忙,在从早到晚连轴转的情况下,感觉需要花点多思考思考自己的事情。从03年高一正式学习编程算起,已经经过了17年了。工作也十年了。回想起这17年,突然有种想记录一下流水账:一方面不希望有些东西之后忘记了,另一方面也希望自己的经历和教训能够帮助到别人。

高中三年 (2003-2006):

我03年上高一,高中是全国比较有名的搞计算机竞赛的学校,出了几位OI金牌和银牌。这点上是一个很好的机遇,之前对电脑是非常的爱好,那时候是比尔盖茨、乔布斯的年代,为了学习编程,刚上高中就开始了编程竞赛训练。当时高中时期就经常做ACM题库的训练,也做了美国的计算机竞赛的题目练习(USACO)。高一的那次竞赛准备时间很短,成绩很不理想,做到高二的时候已经对动态规划,各种搜索之类的非常熟悉了,差不多刷了PKU、USACO前前后后几百道题。写个堆啊快排啊BFS啥的也基本上可以闭着眼睛写完。高二的那次省赛也没什么包袱,还记得400分的总分拿了380分,扣掉的20分是有一个搜索剪枝没有写好。当时信心爆棚觉得自己应该半只脚踏进清华了。

后来没有想到自己在省队选拔赛里面做得非常不理想,现在都还记得当时有个Dijkstra需要用堆来优化的算法没有写好,所以与省队失之交臂,基本上是煮熟的鸭子都飞掉的感觉。然后后面的选择就是,要么靠着省赛一等奖的高考20分加分去高考,或者参加自主招生免掉高考。因为我对应试考试并不擅长,差不多也就能考600分出头,加上加分差不多能够上10名左右的大学。所以我就几乎无脑去参加自主招生了。

自主招生总体是个很愉快的过程,第一次独自一人,去跑了几个城市,最后拿到了华科的资格,专业选择了自动化,因为感觉自动化是一个跟机器人相关的专业,而机器人是一个未来的专业。华科的自动化的专业排名很高。然后就去了。

另外高中竞赛时期,在编程之外,很愉快地和小伙伴们在机房里面玩星际,极品飞车,并且在保送后的三四个月里面疯玩因为不需要再考虑高考的事情了。也算是一个很特别的高中回忆。

对我来说,省选失败的经历应该是远远超过了获奖,任何获得的奖都是过去的荣誉,而失败的教训却适用于之后的一生。这个经验一直到现在都无比的好用。

另外最近几年回学校去跟之前的老师聊天,这几年的小同学做OI比赛要更加有针对性了,为了加分和保送,并且计算机专业的大火也让很多高中同学更多的参与。不过看下来少了一些纯粹和个人的动力,有些时候觉得从长远来看未必最好。

大学的四年(2006-2010),武汉:

上了大学之后才发现自动化跟机器人确实有一些关系,不过博士的研究课题里面可能更多一些。控制理论那些东西看到就觉得没劲,也没兴趣学习傅里叶变换、拉普拉斯变换之类的。对于电路、芯片编程还有传感器也是兴趣寥寥,可以说自动化的专业课程直到毕业的时候一点都不会。

不过好在华科除了学习考试以外,有几个跟计算机相关的比赛可以搞一搞,比如说微软创新杯,ACM ICPC之类的。本来被拉去参加ACM集训,后来去了几天感觉做的事情跟高中刷题没差别,就没再去了。后来看到微软创新杯好像有些有趣的项目,我大学的前两年参加了两次,因为对游戏比较感兴趣,参加项目是给一个类似于RTS的游戏写AI,控制机器人采矿交战之类的。第一年没有做好,第二年进了全球第二轮,具体名次记不住了,大概能排到全球前20。

第三年的时候就觉得不想参加这个游戏AI的比赛了,后来想了一个架起来的自行车加传感器做输入设备,在3d的世界中骑行的一个项目。类似于 https://zwift.com/ 这种项目。当时整个暑假开始召集小伙伴,然后没日没夜的做这个项目。后来用这个项目去参加微软创新杯的软件设计比赛,进入了中国前八。不过很遗憾没有进去中国前三,错过了那年在埃及办的决赛。

创新杯回来后,萌生了用这个项目去创业的想法,跟一些天使投资人聊了一下,也写了一些创业计划书什么的。后来聊了一圈之后觉得这个市场并不好做,体育这个领域也并不是自己很喜欢的领域,我连环法都没有好好的看过。并且真的没有找到人愿意做天使,第一次创业未遂就这么草草结束了。

后来一转眼就到了大四,当时在考虑要不要去读个研,身边人都劝自己最好去读一个不然会碰到天花板之类的。我当时的想法是,如果能保研到一个还不错的学校那么就去读一下,考研的话就算了,本校我也兴趣不大。后来找好朋友推荐了一下一个清华的老师,过去跟这位老师聊了一下感觉比较好,他也非常希望我过去,做一做搜索引擎和AI相关的东西。但是需要我搞定一个华科外推保研的名额。但是华科的推研成绩要top 15%,我的成绩估计是bottom 10%,要推研需要特批。后来想办法找到同学要了校长李培根(根叔)的电话,在某个晚上打电话给他自我介绍了一下,看看是否能有办法特批。根叔当时答应说会帮忙找教务处问问,然后就再也没有消息了。

后来感觉自己去工业界混混也应该能够学到不少的东西,三年读研不是一个很短的时间,然后我很快就开始找工作了。现在回想起来,这个可能是最明智的决定之一:研究生学位在公司招聘的时候如果候选人专业水平类似的时候可能会看看,在水平差不多的情况下,反而本科优势更大。

因为自己之前对3D的东西比较喜欢也有一些积累,自己也用D3D来写了一些玩具级别的3D引擎,最初的想法是找一个游戏的公司。腾讯游戏和网易游戏面试后希望我能加入他们,不过我发现自己对腾讯和网易的游戏产品(当时主要是网游)毫无兴趣,总觉得是坑害无知青少年的工具。直到现在我都几乎没有玩过他们的游戏。后来听了阿里云王坚关于云的宣讲,突然一下感觉到眼前一亮,那是我第一次关注到云和企业市场,觉得会是一个非常有趣的市场。因为在解决复杂问题的同时还能给企业带来各种各样的帮助。后来顺利面试完,就加入阿里云(北京)了。

在阿里云(2009-2011),北京

阿里云在当时看起来应该是一个最有硅谷特质的中国公司,公司是满满的工程师文化,很新潮的感觉。加入的团队是阿里云的算法团队,实习的时候就开始做了一些机器学习算法的研发,主要跟文本分类还有聚类相关的一些东西。后来在实习完,正式入职的时候团队碰到Reorg(阿里就是Reorg多),之前我实习时候的团队就已经散伙了,几位同事去了淘宝。

加入之后做了一些跟数据处理平台相关的东西,也就大概一两个月,所以细节记不太清楚了,自己的兴趣也不是特别大。过了不多久碰到新老板品数入职,我就毛遂自荐加入内部叫做XLab的一个项目,之后是ODPS的前身。那段时间就天天拿着MPI去写矩阵运算的程序,和一位数学PHD搭档,他负责研究公式,我负责把公式实现成MPI并且做性能测试。也给MPI写了一个Adapter让MPI可以跑在飞天(阿里云内部自研类似于Hadoop的系统)上。另外就花了很多时间学习机器学习的知识,这个博客里面关于机器学习的文章基本上都是那个时期写出来的。

其中跟团队一起搞出的成就是超大规模的矩阵SVD分解等矩阵操作,晚上的时候就在东三环北路附近吃肯德基,还是非常快乐的时间。

入职的前半年(一直在2011年初)的阿里云也是路子很野的时期,一方面公司的士气高昂,希望自研所有的大数据系统,基本上把上古神仙如盘古女娲之类的名称都用了一个遍。另一方面自研系统缺少理性的思考和全局的架构,导致很多系统做了一半之后发现不可用。工程师陷入加班写码,重新推倒,再加班写码的循环之中。

后来阿里云也有一些内部的危机,由于飞天的性能一直上不去,关键的业务也不敢跑在飞天上。所以阿里云在集团内部备受质疑。在工作之中也接触了一些开源项目,同事在讨论的时候也经常说哎呀这个东西Hadoop都有了,我们也实现一下吧等等。所以我当时的想法是,与其在飞天的基础上做,还不如做真正的开源Hadoop。后来收到了EMC Greenplum Hadoop团队的邀请,就去了上海。

如果要复盘的话,当年在阿里的技术选择还是比较正确的,云计算,机器学加上大数据。如果按我现在的心智可能当时跳槽的时候还会再稳一稳,至少不会因为内部或者的质疑而轻易换工作,因为每个工作不开心的地方其实都差不多,当时年幼的我可不懂这些,而这些也往往只有跳过几次槽之后才领悟得到。不过从另一个方向来看,出去走走也是很有意思的事情。

EMC Greenplum / Pivotal (2011-2014),上海

2011年是Hadoop刚开始在企业市场里面开始火起来,Hadoop的名字基本上是和大数据连在一起的,说起大数据,人们的第一反应就是Hadoop。那一年也是Hortonworks成立的时候。后来Greenplum,CloudFoundry从EMC和VMWare里面分出来,成立了Pivotal,所以我就把他们写在一起了。

在Pivotal里面花了大几个月做了跟Hadoop周边的一些数据ETL的工具,类似于Hadoop Distcp的++版本。不过后来真正一个有趣的项目是叫做Hamster (MPI on YARN),当时Pivotal挖来了年过半百的Ralph Castain (OpenMPI的创始人之一)。Hamster把OpenMPI跑在Hadoop上面(Hadoop And openMpi on the Same cluSTER)。当时Pivotal对Hadoop有源码有比较深入认知的工程师非常少(虽然惭愧说来我们是主打Hadoop的团队),后来跟Ralph联系了一下,Ralph也是很开心的跟我一起合作。

但是为了完成Hamster这个项目,YARN那边其实有很多跟资源调度的功能还不具备,比如说Gang Scheduling。另外一方面为了给用户提供一个完整的体验,我们希望mpirun后面的事情都是用户不会看见的,所以需要对OpenMPI做深度定制。后来跟Ralph一起参与了很多MPI社区的会议和讨论。这个其实算是我第一次融入进开源社区的沟通之中。

另外一个重要的经历是参与了Hadoop社区:记得最早使用YARN的时候,那时YARN还主要称为MRv2。那时YARN很多东西都不完善,当时针对做MPI on YARN需要的一些功能,在社区里面提出了好一些JIRA,其中花时间最多的是YARN Container的垂直扩缩容的功能。花了两周的时间写了设计文档、代码等等,结果没想到社区反响挺大,当时Spark社区在犹豫是否用Container的垂直扩缩容还是后来的动态申请新的Container的功能。如果能够有垂直扩缩容对Spark的帮助比较大。通过参与Hadoop也感觉到了Hadoop社区和MPI社区的不同,个人更喜欢Apache社区更开放的方式,也坚定了继续在Hadoop项目里面继续走下去的决心。

Hortonworks/Cloudera (2014-今天)

做Hadoop YARN哪家强呢?当然就是Hortonworks了,当时觉得Pivotal内部做开源还是限制太多,社区里面也几乎没人能够帮得到忙,另外自己也想去硅谷工作看看(12年的时候出差去过一次,印象还是挺不错的)。所以当时就想着找找Hortonworks试试看,结果几面下来很顺利就有了Offer,而且是最心仪的YARN团队。

后来四月入职Hortonworks,先在中国短暂的工作了几个月,十月份去了美国。身边都是都是各个Apache项目的committer,短暂的适应了之后就开始代码的贡献了。Hortonworks算是一个很诚心经营社区的公司,公司在开始的几年内对开源几乎是无保留的状态,很多项目从内部到开源几乎不需要什么批准,Hortonworks的贡献在很多时候也被大公司比如说AWS、Azure不费一分钱就可以拿去盈利,并且几乎不贡献回社区。由于这种吃免费午餐的公司太多,这几年开源的生态也变化很多。

在Hortonworks的四年多里面,经历了Hadoop与大数据从鼎盛到被人唱衰的完整周期。最开始的时候只要是Hadoop相关的东西都会得到极大的关注,Apache Mahout这种粗制滥造的项目都可以火确实从另一方面证实了泡沫也多大。

后来Hortonworks与Cloudera合并,我也转行做了管理, 现在编程不是义务而是爱好,更多的时间也是花在项目管理、团队设计和架构设计方面。这两年还是投入了很多时间到开源社区和mentoring新人和现有的项目。也有机会把几个项目比如说Submarine, YuniKorn 推进到Apache里面,建立社区、让更多的公司能够使用,也能够让自己的公司有机会从这几个项目中取得商业的价值。

因为开源的缘故,可以接触到非常多的公司,从最开始的Yahoo是社区中流砥柱,到后来Microsoft大举进入,然后Yahoo的从如日中天到被Verizon Media贱价买入。到后面的Linkedin、Uber进入,这几年国内的公司也在开源领域发力。在过去的六年最有意思的事情是在开源的世界里面认识了很多的朋友,也尽力的帮助各个公司参与开源。这几年几乎走遍了硅谷所有的大公司(不只是蹭饭 😛),这个经历很独特也很有趣。

开源也是一个复杂的小世界,有各种真心无私的、帮助社区的人,也有盯着功名利禄、用开源作为跳板的人。有真心开源、无私奉献技术的公司、项目,也有只是用开源作为幌子,挂羊头卖狗肉的商业公司。

虽然 “Business is business”,不过从做技术的角度来说,真心开源的公司和人比开源为跳板要可爱很多。

总结一下这几年最重要的经验吧:

  • 失败永远是无所谓的,不多尝试多失败不可能成功。
  • 这很多年观察下来,从工作的成就而言,个人的动力的正面影响往往会超过物质的回报。而在强烈的个人动力驱动下,物质的回报只是一个副产品而已。
  • 真心帮助别人是很重要的(而不求回报),虽然现在开源社区的一些同学发的邮件和问题我很难一一回复,不过我也会尽量的帮助别人找到需要的信息。虽然商业社会提倡互惠而非单方向的帮助,不过个人的观察下来,在能力相当的情况下,抱着理想主义的giver会走的比taker更远。

好吧流水账先写到这里。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!