分析诊断某电信公司省核心业务库异常故障
2011-03-31 21:05
281 查看
今早一到办公室,首先打开工作QQ和邮箱,这是我一直以来的习惯,邮箱一打开,除了几封不相关的邮件,部门老大有封邮件,让我协助帮忙解决某省某电信公司某项目数据库服务器的异常问题,并随邮件发来了AWR报告,其实,昨天这件事情我知道一个同事在处理,他是在外驻场的DBA,他当时谈到了job堆积问题,我也顺便和他聊了两句,以为是他们那边的问题,原来是另外一个省电信公司的服务器,后来讨论了两句,也没当回事,没想到老大最后找到了我,只能开工。
下了AWR报告,大体看了下,其中有两个问题引起了我的注意,第一是enqueue:tx等待超长,达到了3s之多;另一个是关于log_buffer的问题,但不是很严重。接着往下看,发现和这个enqueue:tx等待是一张数据库登录信息相关的表,也就是每次用户的登录和注销,都会在这个表里留下信息,后来捕捉到对这张表操作的两个语句,又获取了表中记录多达上千万条,而且该表上没有任何索引,这就可以理解了,该表在每次用户登录或注销时,都会引起操作,登录时是insert还好,糟糕的是注销时update操作,因为没索引,这会引起对该表的fts,如果有用户登录注销比较频繁,那么就会引起很大的性能问题,难怪现场人员描述最近多次卡死,CPU跑满的现象。后来查了半天,也没查到引起这两个操作的原因,分析是建立了系统级的触发,现场人员说没有(没有远程,是我提要求他们查),请求应用人员协助,结果,他们都说不认识这张表。随着这个表数据的增加,系统性能会越来越差,没办法,最后写出了处理意见,除了处理这张表外,还有两条关于job参数和log_buffer的意见,提交了,暂时这样,回头再慢慢查怎么回事,如果处理了这个表后,问题不再发生,应该就是这张表的事情。
下了AWR报告,大体看了下,其中有两个问题引起了我的注意,第一是enqueue:tx等待超长,达到了3s之多;另一个是关于log_buffer的问题,但不是很严重。接着往下看,发现和这个enqueue:tx等待是一张数据库登录信息相关的表,也就是每次用户的登录和注销,都会在这个表里留下信息,后来捕捉到对这张表操作的两个语句,又获取了表中记录多达上千万条,而且该表上没有任何索引,这就可以理解了,该表在每次用户登录或注销时,都会引起操作,登录时是insert还好,糟糕的是注销时update操作,因为没索引,这会引起对该表的fts,如果有用户登录注销比较频繁,那么就会引起很大的性能问题,难怪现场人员描述最近多次卡死,CPU跑满的现象。后来查了半天,也没查到引起这两个操作的原因,分析是建立了系统级的触发,现场人员说没有(没有远程,是我提要求他们查),请求应用人员协助,结果,他们都说不认识这张表。随着这个表数据的增加,系统性能会越来越差,没办法,最后写出了处理意见,除了处理这张表外,还有两条关于job参数和log_buffer的意见,提交了,暂时这样,回头再慢慢查怎么回事,如果处理了这个表后,问题不再发生,应该就是这张表的事情。
相关文章推荐
- 网络故障典型诊断实例分析-ZT
- 关于“网络诊断工具—利用网络通讯分析系统诊断网络故障”抄袭一事申明 推荐
- 利用网络通讯分析系统诊断网络故障
- 【Java核心设计模式】DAO开发实战业务分析
- 非并发原因引起的乐观锁异常故障分析
- 【硬 盘】故障分析与诊断
- 浅谈公司核心业务数据表的重构——结合Memcache分析缓存策略与系统数据交互
- 《Spark商业案例与性能调优实战100课》第19课:商业案例之NBA篮球运动员大数据分析核心业务逻辑代码实战
- VB.Net 2003 “应用程序生成了一个无法处理的异常”故障分析与解决
- 【无法开机】故障分析与诊断
- java平台故障分析与诊断
- 用JDK中的 jps、jinfo、jstat、jstack、jmap、jconsole等命令对JVM,内存,线程进行分析和故障诊断
- 故障分析:数据库一致性关闭缓慢问题诊断
- JVM 中的 jps、jinfo、jstat、jstack、jmap、jconsole等命令使用(线程进行分析和故障诊断)
- glassbox故障诊断结果的简要分析
- Win7系统下安装腾讯QQ提示“安全组件异常错误0x00008C02”的故障分析及解决方法
- 浅谈公司核心业务数据的重构——结合Memcache分析缓存策略与系统数据交互
- 同时大量PPPoE连接请求,攻击PPPoE服务器,导致的用户异常掉线故障分析
- 互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(七)——电商核心业务知识之订单商品模块
- 【Core Dump】核心转存 故障分析