|
问题:网游类似魔兽世界的服务器维护都是在干嘛?
也算是个困惑很久的问题了,今天等WOW开服一等就是一天,真是从白天到黑夜,所以很奇怪网游的服务器维护这么长的时间,究竟要做要哪些工作呢!?
回答者:林路翔,全职程序员,喜欢围棋
来, 我作为前网易游戏从业人员来说说真正服务器维护时候在做什么.
服务器维护分成两种, 紧急维护和日常维护.
紧急维护一般就是硬件故障或者严重Bug. 这个时候是各个团队最紧张的时候. 每个团队都忙个不停.
1.运营团队会发布公告, 安慰玩家, 统计损失, 编写故障报告, 评定故障等级等等
2.策划团队可能会考虑Bug的影响程度, 决定要不要回档, 或者赔偿什么, 赔偿会不会影响经济系统等等.
3.程序团队最重要的是缩小Bug的影响, 比如热更新屏蔽玩法, 然后解决Bug. 有时候硬件故障会导致整个服务器某些结点负载不均衡, 或者万一数据库服务器挂了就得赶紧切数据库. (悄悄吐槽一下IBM的硬件.. 真心故障率太高)
4.QC团队会继续测试一下, 包括改好的版本, QC老大一般有一票否决权决定某个版本是不是放
5.SA团队会有人值班紧跟, 如果硬件问题就联系IT去换啊之类的.
日常维护就流程化多了
1.运营团队会提前放出更新内容, 做好新玩法预热
2.策划会最后在内服上跑一跑玩法看看有没有问题, 然后等着正式开服以后去论坛看玩家反应
3.程序一般就是更新代码, 部署到服务器内部测试, 如果架构有改动, 就和SA配合一起跑脚本改架构. 同时, 另一拨人会跑一堆脚本, 包括和计费的对账脚本, 导数据的脚本, 更新各种榜单的脚本, 预热数据库和cache的脚本等等. 每个人也会对自己的模块再测试一遍, 然后会盯着各种警报
4.QC团队也会在服务器上面把本周新玩法和主流程再测试一遍.
5.其他支持团队就是日常配合工作.
另外看到很多答案都说重启服务器, 其实我想说, 我们真的很少重启服务器的. 每次重启代价都很大. 除非硬件更新或者特殊情况是不会重启服务器的.
第一次补充
很多人关心重启的问题, 我详细讲一下
1.其实一般意义上讲服务器重启可以理解为两种, 一种是硬件重启, 一种是服务器进程重启. 硬件重启比较少, 服务器进程重启基本上是必须的.
2.很多人问为什么硬件重启代价很大. 感觉大家的回答. 我直接把评论补充上来.
@曦和风
如果是自动启动的程序的话没有问题,但是服务器很多系统配置和软件设置都要开机后重新折腾,同时,还要和其他的服务器通信,恢复到启动前的状态,或者从其他服务器同步信息,正确处理关机期间的各种操作,事情多,任务重,出错概率大,都不愿意重启吧。
有人问关于IBM机器的故障问题.. 我只能说也许我们那一批运气不好. 好几台机器的内存坏了. 给我们造成了不小的影响. IBM的口碑很好. 所以才会让我觉得很诧异
还有人提问为什么维护了这么长时间.. 我想说. 请去客服专区或者论坛发帖, 会有一大波运营人员过来安抚你的.
还有人抱怨一个礼拜维护两次这种. 我想说EVE这种神作是每天早上维护一次呢. 维护也是为了大家能更好的游戏啊. (吐槽一下谁让EVE用的是Windows服务器呢.)
回答者:子默,我的名字叫子默
挨个跑副本复活BOSS,交易给他装备。
不过现在BOSS掉落方式改了,可能不用交易了。
回答者:Alan Silver,以不学术的方式解决问题
给没干劲的杂兵发放福利。
给闹脾气不想干的Boss们进行心理疏导。
再三告诫各位联盟部落的大佬注意形象,不要没事跑到别人卧室里。
修复因各种事件被破坏的建筑和魔法装置。
给飞行点的神奇生物改善伙食。
组织相亲会以解决广大雄性生物的幸福问题。
应付动物保护主义势力。
维护大陆生态平衡,具体来就说人工配种。
警告私设赌局的熊猫人不法团伙。
治疗因去熊猫人饭店的进餐而食物中毒的群众,很明显病都很难治。
处理存在安全隐患的商家,但地精工会表示他们对此无可奈何。
给各位任务NPC提供奖励物品,顺便处理一下少数人员任务信息发布错误,不提供奖品的恶劣行为。
警告艾泽拉斯电视台无视健康文化要求的行为。
给裸奔中下线的玩家挂上幕布,因为多个种族的大妈表示这样的行为有伤风化要严厉取缔。
以及试图把掉进奇怪地方的玩家捞出来。
感谢某抖机灵的答案,没必要反对呀~
回答者:森盛,什么都想试试
题主可能完全不懂服务器维护的相关知识,那我来做一个简单的科普咯~
首先我们需要知道的一点就是:这个世界上不存在完美的游戏!
因为游戏也是程序的一种,程序都是人类编写出来的,不存在完美的游戏一说,再好的游戏也会有各种bug漏洞出现,而只不过我们是没有发现而已。
那么,这些游戏的运营厂商每一次更新的内容到底是啥呢?我去找了几个有代表性质的游戏更新说明(里面会有以下画下划线需要注意的地方),来看一下:
魔兽世界-补丁6.0.3-http://www.battlenet.com.cn/wow/zh/game/patch-notes/6-0-3
角色模型
●解决了某些头盔会导致亡灵的下巴错误消失的问题。
●解决了人类模型的肤色与示意图不符的问题。
英雄联盟-11月28日0点停服更新公告-11月28日0点停机更新公告
人机对战
扭曲丛林的电脑玩家会更乐于去防守他们的基地,而不是去占领圣坛。
在兵营遭到攻击时,扭曲丛林的电脑玩家将不再定在召唤师平台处。
房间模式下的召唤师峡谷电脑玩家,现在会使用与人机对战(简单难度)一样的逻辑,以解决一些电脑玩家会卡在地图上的问题。
增加了一条寻路变通方案,以预防召唤师峡谷里的电脑玩家被陷在地图上的某些区域(例如男爵巢穴)
实战训练营的电脑玩家将不再会在训练过程中被卡住了。
地下城与勇士-1月22日早07点/08点半停机更新公告-1月22日早07点/08点半停机更新公告
整个维护过程预计需要3个小时,因开机顺序以及数据维护内容差异,部分大区会提前开放。因停机给大家带来的不便,我们深表歉意。
因开机有效性确认的需要,第二批大区会根据第一批的测试情况而提前或延后开启,请各位相互转告!
为减少维护造成无法游戏,本次维护会对部分区服实行不停机更新安全组件。
好滴,我们看到他们修改了很多游戏中出现的错误,这些错误来源可能有很多原因,比如游戏代码编写时候的逻辑问题(比如上面的英雄联盟、WOW里面下巴错误小时),比如服务器的策略或者相关的配置问题(经常的卡顿啊,突然的掉线啊),定期需要维护以便让游戏保持稳定(DNF里面的维护过程),好的,那我们把这三点分开来说:
一般的游戏背后有这样的几个团队组成:研发中心、运维团队、营销团队、运营团队(准确的说有市场部,策划部,客服部,技术部,海外部,渠道部)
研发团队:主要就是负责前期的设计、制作、生产出成品的游戏,或者是引进游戏后的本地化,如果引进的游戏是国外的团队的游戏,还需要在当地的游戏公司设立一个联络点;然后就是根据玩家或者客服的反馈等等不断的对游戏进行优化或者改进
运维团队:对游戏服务器的维护啊,游戏逻辑错误的地方,检查问题啊,确保游戏在正式运行的时候不要出问题
营销团队:游戏策划?推出一个新的活动?决定要不要根据游戏的新特性或者问题做什么措施之类的。
运营团队:接受玩家的反馈啥乱七八糟的,发布公告,统计一下游戏在运行的时候出现的各种问题
大概游戏的团队就是上面几个方面,不过大多的游戏公司会对各方面进行细分
然后呢,游戏的服务器是分为内网和外网的,内网顾名思义就是用来测试有没有bug有没有问题测试新版本的服务器,而外网则是广大玩家可以解除到的服务器啦~
正常的服务器patch更新或者是服务器update的流程是
运营团队发现了好多问题,反馈→运维团队来看看,居然真的是这样,看看哪些我可以改进,卧槽这么严重,反馈→研发团队一看,卧槽居然真的有问题,啥都不说了赶紧改吧,这个问题是怎么引起的怎么去屏蔽去修正,恩,感觉没啥问题了,再自己看看,好像是好了→运维团队在内网测试一下,恩,好像真的没有问题了(如果还有需要返工),那就这样吧,发布补丁或者更新服务器→运营团队(写公告,来看看这次这个bug的影响大不大)+营销团队(恩,问题大的话就补偿点装备或者游戏时间吧,不过一定别再造成问题了,不然游戏里面的平衡性和物价系统可能会崩溃)→运营团队(各位亲,我们已经更新游戏了哦,快来看看吧)顺便及时跟进看看会不会出现新的问题+运维团队(我也怕出现新的问题啊!!!)
ok,上面这一大块已经花费了好多时间了吧。而在上面的下划线这一个地方也要花时间哦~
更新代码更新脚本!!!(code)
同步信息同步配置!!!(毕竟要和以前有一个同步嘛,不能感觉穿越了时间一样)
备份文件备份信息!!!(万一这个更新失败了呢?留一手咯)
确认损失和经济的影响!(妈蛋的别一个漏洞补丁造成的后续影响比停机一次的代价都大)
@林路翔 顺便说一下林老师说的其实挺完全的,我打算补充一下,后来发现好像要花很多文字去补充……
回答者:邱半城,数字媒体技术/半吊子美工/骑行爱好/脸控…
自己架过次小服务器
分两大:硬件和软件
硬件上
一般指服务器的硬件
比方说CPU更换内存磁盘扩容
最屌就是整体数据搬迁更换服务器
一般来说CPU和内存不太会因为不够服务器运行而更换除非物理损坏
绝大多数硬件维护都是增加磁盘 因为服务器运行时间越长产生的数据就越多
然后是软件部分
首先当然是操作系统啦 打打系统补丁啥的 避免被黑 保持稳定运行 少跳蓝屏
其次是应用程序维护 比方说游戏的服务端以及相应的各种服务程序 这些程序也要相应的升级除Bug
再者就是数据的维护 主要是备份工作 偶尔有处理死锁 但基本上不太会出现这类情况
最后就是安全维护 通过检查数据库 系统运行日志 看看网络数据流 对未知攻击进行判断以及后期预防
然后维护形式也分例行维护和紧急维护
一般的例行维护 基本上就是重启服务端或者重启系统让系统自动清理无用缓存 释放一下内存 准备下一次被玩家蹂躏
突发的紧急维护(临时维护) 有可能是惊现Bug服务器紧急下线维护避免玩家的不必要损失和不正当得利 如果时间相对较长 有可能在联系制作商重新编写吧或者遭受到网络攻击了
基本上就这些吧内部事故总结
来自:知乎
|
|