来自GitHub的基础设施工程师Micheal Haggerty发表了一篇博文,解释他们是如何使用Spokes进行跨数据中心复制的。包括如何减少网络往返次数、引入三阶段提交、优化参考更新的性能以及其他各种调优。

多台服务器同步如何让数据一致

Haggerty解释说,GitHub通过跨数据中心复制代码仓库来大化弹性和降低延迟。一旦数据中心发生故障,需要由另一个区域的副本接替工作,为了得到好的性能,需要为用户提供距离最近的副本。

Spokes用于复制用户的代码仓库,确保代码仓库之间是同步的。它就像代理一样,在应用层面透明地执行复制任务。Haggerty说,以前只有距离很近的代码仓库之间才能进行复制作业,后来通过降低延迟和优化参考更新性能等方式解决了这个问题。

之前在进行复制时延迟会不断增加,阻碍了Spokes进行参考更新的速度。虽然这对大多数用户来说并不是大问题,但有些Git工作流在这方面有很高的要求:

大部分用户不会经常提交代码,但GitHub托管着将近7000万个代码仓库,有些用户的工作流你根本无法预测到。我们努力让GitHub能够应付所以场景,也非常关注一些极端情况。

Haggerty也解释了GitHub内部是如何处理参考更新的。GitHub基于内部的测试来决定是否合并或rebase一个PR.如果某个分支有多个PR,每个PR都需要通过测试。

减少网络往返次数可以有效降低延迟。GitHub使用三阶段提交协议来更新副本,同时使用分布式锁来保证更新次序。不过这样需要四个网络往返,成本有点高。他们也在努力确保在等待网络调用结束之前先完成其他的任务。

GitHub的工程师也参与了Git项目,包括处理参考更新的事务机制,该机制基于副本是否有能力执行参考更新来决定是提交还是回滚事务。还有其他一些与参考更新操作相关的改进。

Spokes使用自定义的校验和来比较副本,如果校验和相同,说明它们包含相同的内容。校验和是通过增量的方式算出来的,并不是每次都从头开始算。

内务(book keep)操作被合并到少量的事务当中,因为有些单次提交操作会造成数百次内务更新,需要耗费三分之一秒的时间。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-20 10:45:13
市场情报 一个有生命力的开源社区应该是怎么样?
尽管如此,在具体建设社区生命力并非一朝一夕的事,中国信通院云计算与大数据研究所云计算部副主任郭雪表示,需规范社区治理、社区运营、社区开发、基础设施这四方面相关指 <详情>
2019-12-11 13:30:24
国内资讯 GitHub或正式登陆中国!拟在中国设立分公司
据猜测,GitHub进军中国的猜测有两种。一种可能是,将服务器放置在离中国开发者更近的地方,也许是在中国香港或新加坡。 <详情>
2019-11-07 21:11:31
云技术 拥抱协同式开发,腾讯开源进入“深水区”
11月7日,腾讯Techo开发者大会开源技术分论坛上,腾讯技术委员会对外开源管理办公室执行总监许勇首次披露,腾讯开源目前已进入“深水区” <详情>
2019-06-20 14:54:13
云资讯 微软 GitHub 收购一个付费代码工具,然后免费开放了
2019 年 6 月 17 日,微软宣布收购 GitHub 工具供应商 Pull Panda,具体收购金额不详。微软计划使用 Pull Panda 的技术来改进 GitHub 上的代码审查工作流程,减少周转时间 <详情>
2019-02-21 09:50:26
国内资讯 他用代码终结“撒贝宁”,21123 个岗位急招 AI 程序员!
2019央视网络春晚,人工智能主播“小小撒”亮相舞台了!据报道,不管是撒贝宁的外形、声音、眼神,还是脸部动作、嘴唇动作,首次上岗的人工智能虚拟主播,与真人撒贝宁的相 <详情>