首页 > 代码库 > 一次BI系统事故教训
一次BI系统事故教训
描述: 突然之间,BI服务无法对外提供服务,整个BI+报表系统是ORACLE11G+OBIEE11G+Weblogic11G+Informatica8.6 构成,整个系统几乎是一己之力完成到上线。昨天甲方人员打电话给我,突然之间所有BI的站点,报表都无法登陆,查看后台服务,都正常。于是建议对方重启。还是没有解决,于是仔细分析日志。最终定位到问题所在。
1. OBIEE11G sawserver 的7001 anaytics web界面登陆,密码用户甲方确认无误。登陆还是现实密码或用户名错误 。 问题有点不对劲
2. 试用OBIEE11G Administrator Tool 连接 在线逻辑模型,登陆显示报错 。
[nQSError: 37001]无法连接 Oracle BI Server 实例
3. 查看ORACLE BI Server 服务, opmnctl status 所有服务都处于激活状态。 可以排除 BI Server 端口占用的问题, 捉摸着是中间件的bi_platform中的服务有些可以崩溃了。 进一步查看 ORACLE BI Server 的日志 。
有如下报错
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] [85004] MDX Member Name Cache subsystem recovered entries: 0, size: 0 bytes.
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] [13026] Error in getting roles from BI Security Service: ‘Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。 ‘
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: ac8] nqsserver: Clustered Oracle BI Server started. Version: 11.1.1.6.0.120104.0152.000.
[2013-04-18T14:35:17.000+00:00] [OracleBIServerComponent] [NOTIFICATION:1] [] [] [ecid: 00iEJCMVhq4F0Fg5xFDCiW0000Xo000000] [tid: 94c] [43071] A connection with Cluster Controller bi-4lna2lrlna7w:9706 was established.
[2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c] Error Message From BI Security Service: PolicySet Invalid: WSM-06102 PolicyReference 策略引用 URI "oracle/wss_username_token_service_policy" 无效。
[2013-04-18T14:35:39.000+00:00] [OracleBIServerComponent] [ERROR:1] [] [] [ecid: 00iEJCO8qy8F0Fg5xFDCiW0000Xo000003] [tid: a6c] [nQSError: 43126] Authentication failed: invalid user/password.
4.可以定位问题了,基本是由于
This issues occur, when the application wsm-pm is not running. To resolve this, login to EM -> Application Deployments -> Internal Applications. The two applications wsm-pm on AdminServer and managed server should be up and running.
5.进入Weblogic Em 查看 WSM-PM服务 ,该服务处于崩溃状态。 重新启动。报错如下:
RDBMS Error,ORA-28001: the password has expired。 恍然大悟,非天灾人祸也。
6. Oracle 11G 有个新特性可以设置密码过期时间,
通过SQL查看
SQL> conn DEV1_MDS/Admin123
ERROR:
ORA-28001: the password has expired
通过SQL查看
SQL> select * from dba_profiles where profile=‘DEFAULT‘ AND resource_name=‘PASSW
ORD_LIFE_TIME‘
2 ;
PROFILE RESOURCE_NAME RESOURCE
------------------------------ -------------------------------- --------
LIMIT
----------------------------------------
DEFAULT PASSWORD_LIFE_TIME PASSWORD
360
更改 DEV1_MDS 的口令
新口令:
重新键入新口令:
口令已更改
已连接。
SQL> conn DEV1_BIPLATFORM/Admin123
ERROR:
ORA-28001: the password has expired
更改 DEV1_BIPLATFORM 的口令
新口令:
重新键入新口令:
口令已更改
已连接。
7.重新启动 wms-em 服务,启动成功。
8.登陆 BIEE Administrator Tool ,登陆成功.
9.登陆报表和BI系统,登陆成功。
总结:这个案例比较的典型,进入大数据时代的集成系统的问题。 原来的OLTP或者BS的系统,问题比较单一,瓶颈比较单一,大部分瓶颈问题集中在数据库。
现在进入大数据时代,是个多数据源整合(分布式系统),业务单元网状集成的状况,不是说数据库DBA和中间件不重要了,是各个环节都有可能成为问题环境,要做到 开发运维一条心 ,还真不容易,扯的有点远,废话有点多。 总之跟我有点关系,当初在开发完成交付时,没有强调这个过期密码的问题 。最近出问题是必然娘的。
转:http://www.cnblogs.com/jerryxing/archive/2013/04/18/3028660.html
一次BI系统事故教训