游戏开发论坛

 找回密码
 立即注册
搜索
查看: 5604|回复: 1

打破故障处理既定规则,将习惯变工具

[复制链接]

1万

主题

1万

帖子

2万

积分

管理员

中级会员

Rank: 9Rank: 9Rank: 9

积分
20443
发表于 2015-4-2 01:39:24 | 显示全部楼层 |阅读模式
08155645410.jpg

  QQ炫舞遭受网络攻击要较其他业务要高许多,同时其抗网络波动能力较弱,这会导致同一网络波动QQ炫舞会比其他游戏多掉线30%左右。

  关于网络攻击类的故障,QQ炫舞与腾讯宙斯盾团队进行了深入的合作。高频率的调整防御策略,以防御各类型的攻击;黑洞设备的覆盖与扩容,极大的提升了防御范围与能力(超大流量)。保障了99%的攻击对业务无影响。

  高频率的现网掉线导致运维每天都会接收到掉线告警,并需要上线去确认原因。这有损玩家体验、同时也增加了运维的工作量。因此运维侧开发了”掉线原因自动分析“app。在掉线告警产生的同时,通过固化的流程分析出原因,并及时周知;并生成掉线周报、月报,针对性的推动IDC改善网络环境,推动开发商优化网络模块。

  通过此app及后续的项目,QQ炫舞的日掉线率下降了70%。

  如下图是掉线故障处理新的思路,并已经通过工具实现自动化处理。

08155748301.jpg

  DNF的突发多为版本bug导致。

  针对类似问题,我们除了要求开发商提升版本质量、加大测试力度之外,还需要对突发的前、中、后进行控制。接入腾讯铁算盘,对金币、关键道具进行监控,以便在问题变严重前及时发现并处理;突发发生中,我们需要及时评估,通过停服、关闭单个活动等手段控制影响,并协调干系同事实时验证并确定修复方案;突发后需要回顾过程,如优化监控策略,缩短DB回档时间,减少停服时长等。

  下图为对游戏内金币、道具产出的监控:

08155925682.jpg

  为减少停服时间,运维侧制定了灵活(可以针对不同的大区或模块)的停服、起服作业(ijobs作业)

  国内开发商在BUG类突发处理的配合度较高,会及时分享进度、原因、以及后续的规避方案;而韩国开发商在信息共享方面做得较少,只是单方面的进行bug修复,所以会出现一些重复的bug。因此运维需要与韩国开发商保持的良好沟通(最后一章节介绍了如何与开发商沟通)并建立信任关系,这样才能获得更多的信息,并获得更多的话语权。

  由于韩国网络状况较好、外挂较少,所以开发商会把更多精力放在游戏的内容玩法上,高频率的版本更新节奏,会带来较多的游戏bug及安全漏洞,运维侧需要做好监控、提升操作效率、固化流程,以减少bug对游戏带来的影响。


via:腾讯大讲堂

0

主题

30

帖子

173

积分

注册会员

Rank: 2

积分
173
发表于 2015-4-2 10:36:35 | 显示全部楼层
沙发.......
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

作品发布|文章投稿|广告合作|关于本站|游戏开发论坛 ( 闽ICP备17032699号-3 )

GMT+8, 2025-1-31 10:23

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表