主页 > 教程合集 > 工具推荐 >

接口级故障的应对方法

时间:2022-01-20 阅读:0

什么是接口级故障?

异地多活方案主要是应对影响大但发生概率较小的系统级故障,而发生概率更高但故障影响较小的故障就是接口级的故障。

接口级故障的典型表现:业务出现问题,但不是系统宕机或网络中断,比如响应慢、访问超时、访问异常、无法连接数据库等。

接口级故障的应对方法

接口级故障原因

主要原因:系统压力太大、负载太高,导致无法快速处理业务请求

内部:程序bug导致死循环、某接口导致数据库慢查询、程序逻辑不完善导致内存耗尽

外部:黑客攻击、促销或抢购引入超量用户、第三方系统大量请求、第三方系统响应缓慢

接口级故障的应对方法

核心思想:优先保证核心业务、优先保证绝大部分用户

应对方法一:降级

定义:系统将某些业务或者接口的功能降低,可以是只提供部分功能,也可以是完全停掉所有功能。核心思想就是丢车保帅,优先保证核心业务。

两种降级方式:

系统后门降级

系统预留了后门用于降级操作

实现成本低

效率较低,且有一定安全隐患

独立降级系统

设计独立的降级系统,降级指令通过降级系统发送给非核心业务系统实现降级

安全性高,可实现复杂权限管理、批量管理

实现成本高

应对方法二:熔断

定义:当本系统依赖的外部系统接口出现响应慢的情况时,立即返回错误,避免本系统被拖慢或拖死。降级的目的是应对系统自身的故障,而熔断的目的是应对依赖的外部系统故障的情况。

实现关键:需要一个统一的API调用层,由API掉用层进行采样或统计;需确定一个熔断阈值。

应对方法三:限流

定义:从用户访问压力的角度着手,只允许系统能够承受的访问量进来,超出系统访问能力的请求将被丢弃。

常见的两类限流方式:

基于请求限流

从外部访问请求角度限制总量或限制时间量

限制总量的方式是限制某个指标的累积上限,常见的是限制当前系统服务的用户总量

限制时间量指限制一段时间内某个指标的上限

实现简单,但难以找到合适的阈值

适用于业务功能比较简单的系统,如负载均衡系统、网关系统、抢购系统

基于资源限流

从系统内部角度找到影响性能的关键资源,限制其使用上限

常见内部资源:连接数、文件句柄、线程数、请求队列

可以更加有效地反映当前系统压力

难点在于如何确定关键资源和关键资源的阈值

应对方法四:排队

定义:限流的一个变种,限流是直接拒绝用户,排队则是让用户等待一段时间。如12306网站抢票排队。

实现方式:

需设计独立的系统实现,包含排队模块、调度模块、服务模块

排队模块需临时缓存大量业务请求

调度模块负责排队模块到服务模块的动态调度,不只传递请求,还需要调节系统处理能力

服务模块负责返回处理结果

开通特权,即可免费下载全站所有千余TB网络资源,点击 >>> 资源目录 查看所有资源,覆盖音乐、影视、有声书、电子书、漫画、动漫、课程等,不限时间次数,永久免费,点击 >>> 特权详情 了解更多!

余斗余斗
  • 版权声明:原创文章由发表在工具推荐分类下,2022-01-20最后更新,转载注明出处。

相关推荐

返回顶部