首页 » 智能家居 » 线上数据库故障?按这十个步骤排查80%可以定位到问题,会话的英文。

线上数据库故障?按这十个步骤排查80%可以定位到问题,会话的英文。

金螳螂建筑装饰股份通讯 2024-09-09 0

扫一扫用手机浏览

文章目录 [+]

碰着此类问题,首先是心态,一定不能慌,要沉着镇静、胆大心细,而其余一个非常主要的便是诊断思路和赞助脚本,今天主要先容碰到问题时的通用途理思路,分享用到的一些脚本,帮助大家快速定位问题并办理,减少业务的中断事宜。

1、查看操作系统负载

登上数据库做事器后,第一个便是通过系统命令确认下CPU、内存、I/O是否非常,每个别系的命令不一样,常见的有top、topas、vmstat、iostat。

线上数据库故障?按这十个步骤排查80%可以定位到问题 线上数据库故障?按这十个步骤排查80%可以定位到问题 智能家居

2、查看等待事宜

查看活动的等待事宜,这是监控、巡检、诊断数据库最基本的手段,常日81%的问题都可以通过等待事宜初步定为缘故原由,它是数据库运行情形最直接的表示,如下脚本是查看每个等待事宜的个数、等待时长,并打消了一些常见的IDLE等待事宜

线上数据库故障?按这十个步骤排查80%可以定位到问题 线上数据库故障?按这十个步骤排查80%可以定位到问题 智能家居
(图片来自网络侵删)

col event for a45SELECT inst_id,EVENT, SUM(DECODE(WAIT_TIME, 0, 0, 1)) \"大众Prev\"大众, SUM(DECODE(WAIT_TIME, 0, 1, 0)) \公众Curr\"大众, COUNT() \公众Tot\公众 , sum(SECONDS_IN_WAIT) SECONDS_IN_WAITFROM GV$SESSION_WAITWHERE event NOTIN ('smon timer','pmon timer','rdbms ipc message','SQLNet message from client','gcs remote message') AND event NOT LIKE '%idle%' AND event NOT LIKE '%Idle%' AND event NOT LIKE '%Streams AQ%'GROUP BY inst_id,EVENTORDER BY 1,5 desc;

这里就须要节制一些常见非常等待事宜的缘故原由,并形成条件反射,比如library cache lock、read by other session、row cache lock、buffer busy waits、latch:shared pool、gc buffer busy、cursor: pin S on X、direct path read、log file sync、enq: TX - index contention、PX Deq Credit: send blkd、latch free、enq: TX - row lock contention等等,如果非常等待事宜的个数和等待韶光很长,那么排查缘故原由的入口就在这里。

3、根据等待事宜查会话

得到非常等待事宜之后,我们就根据等待事宜去查会话详情,也便是查看哪些会话实行哪些SQL在等待,其余还查出来用户名和机器名称,以及是否被壅塞。
其余如下脚本可改写成根据用户查会话、根据SQL_ID查会话等等。

SELECT /+rule / sid, s.serial#, spid, event, sql_id, seconds_in_wait ws, row_wait_obj# obj,s.username, s.machine, BLOCKING_INSTANCE||'.'||blocking_session b_sess FROM v$session s, v$process p WHERE event='&event_name' AND s.paddr = p.addr order by 6;

4、查询某个会话详情

得到会话列表之后,可以根据如下SQL查询某个会话的详细信息,如上次个实行的SQL_ID,登录韶光等,该SQL也可改写成多个。

SELECT s.sid, s.serial#, spid, event, sql_id, PREV_SQL_ID, seconds_in_wait ws, row_wait_obj# obj,s.username, s.machine, module,blocking_session b_sess,logon_time FROM v$session s, v$process p WHERE sid = '&sid' AND s.paddr = p.addr;

5、查询工具信息

从前面两个SQL都可以看到会话等待的工具ID,可以通过如下SQL查询工具的详细信息

col OBJECT_NAME for a30select owner,object_name,subobject_name,object_type from dba_objects where object_id=&oid;

6、查询SQL语句

根据SQL_ID、HASH_VALUE查询SQL语句。
如果v$sqlarea中查不到,可以考试测验DBA_HIST_SQLTEXT视图中查询。

select sql_id,SQL_fullTEXT from v$sqlarea where (sql_id='&sqlid' or hash_value=to_number('&hashvale') ) and rownum<27、查询会话壅塞情形

通过如下SQL查询某个会话壅塞了多少个会话。

select count(),blocking_session from v$session where blocking_session is not null group by blocking_session;

8、查询数据库的锁

通过如下SQL查询某个会话的锁,有哪些TM、TX锁,以及会话和锁关联查询的SQL,把稳这里指定了ctime大于100秒,30%的情形是人为误操作锁表,导致运用SQL被壅塞,无法运行。

--查询某个会话的锁select /+rule/SESSION_ID,OBJECT_ID,ORACLE_USERNAME,OS_USER_NAME,PROCESS,LOCKED_MODE from gv$locked_object where session_id=&sid;--查询TM、TX锁select /+rule/ from v$lock where ctime >100 and type in ('TX','TM') order by 3,9;--查询数据库中的锁select /+rule/s.sid,p.spid,l.type,round(max(l.ctime)/60,0) lock_min,s.sql_id,s.USERNAME,b.owner,b.object_type,b.object_name from v$session s, v$process p,v$lock l,v$locked_object o,dba_objects b where o.SESSION_ID=s.sid and s.sid=l.sid and o.OBJECT_ID=b.OBJECT_ID and s.paddr = p.addr and l.ctime >100 and l.type in ('TX','TM','FB') group by s.sid,p.spid,l.type,s.sql_id,s.USERNAME,b.owner,b.object_type,b.object_name order by 9,1,3

9、杀会话

常日情形下,初步定为问题后为了快速规复业务,须要去杀掉某些会话,特殊是批量杀会话,有时还会直接kill所有LOCAL=NO的进程,再杀会话时一定要检讨确认,更不能在别的节点或者别的做事器上实行。

set line 199col event format a35--杀某个SID会话SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess FROM v$session s, v$process p WHERE sid='&sid' AND s.paddr = p.addr order by 1;--根据SQL_ID杀会话SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess FROM v$session s, v$process p WHERE sql_id='&sql_id' AND s.paddr = p.addr order by 1;--根据等待事宜杀会话SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess FROM v$session s, v$process p WHERE event='&event' AND s.paddr = p.addr order by 1;--根据用户杀会话SELECT /+ rule / sid, s.serial#, 'kill -9 '||spid, event, blocking_session b_sess FROM v$session s, v$process p WHERE username='&username' AND s.paddr = p.addr order by 1;--kill所有LOCAL=NO进程ps -ef|grep LOCAL=NO|grep $ORACLE_SID|grep -v grep|awk '{print $2}' |xargs kill -9

10、重启大法

如须要修正静态参数、内存等问题,须要重启数据库,千万不要在这个时候去世磕问题缘故原由、当作课题研究,我们的紧张任务是规复业务。

tail -f alert_.logalter system checkpoint;alter system switch logfile;shutdown immediate;startup

以上便是碰着数据库问题用到的一些脚本,特殊是运用反应慢、卡的情形,其余建议首先对脚本足够熟习然后再利用,还可以根据自己的环境改写。
后面会分享更多devops和DBA方面的内容,感兴趣的朋友可以关注一下~

标签:

相关文章