淘宝数据库专家深入解析数据仓库架构实施(1)(2)
数据挖掘实现全面的商业智能
在近期推出的《i淘宝》个性化推荐的计算中,通过使用Oracle RAC 跨节点并行技术。“淘宝数据仓库实现了相关模块计算时间的显著缩短,最多的缩短了2小时以上,最少的也缩短了30分钟,为淘宝成功实施个性化推荐提供了重要保障”,江枫进一步指出:“淘宝还将利用数据仓库为用户提供更多的服务,比如提供店铺内推荐、精确邮件定向营销以及购物风尚榜等服务项目,这些服务项目和数据指标在前台使用起来非常简单,其实它们都是来自于海量数据的高度浓缩,Oracle RAC的高性能平台很好地支持了这些非常复杂的计算过程。”
淘宝的研发团队有超过2000人的规模,其中做数据产品的技术团队超过100人,包括30多名DBA专家组成的团队。抽取分布在不同环境下的数据集中到数据仓库中的工具ETL,就是淘宝的技术团队自己研发的。“这个叫做天网的系统,也是基于Oracle开放的架构平台之上完成的”,江枫说:“对于二次研发的把控性来说,我们更愿意选择开放架构的平台,同时对于不同的大存储量或者大规模的产品语句来评估Oracle的解决方案,他都是更适合淘宝业务的一个选择,事实也证明了这一点。”
未来淘宝的定位会是一家数据公司,所以数据将是淘宝的核心价值所在。数据不仅让淘宝的用户有更明确的市场定位,同时,对于淘宝内部来说,根据不同用户在数据上显示出的不同特性,对淘宝的运营策略是非常重要的数据支持。从数据管理的角度,淘宝也有自己的一整套监控系统进行支持,包括防欺诈、防恶意数据等。“淘宝所有的数据至少是1比1的在两个机房同时备份来保证数据安全,当然也包括有异地的数据备份机制”,江枫谈到:“我们可以保证一个机房在断电或者是火灾的情况下,另外一个机房在很短的时间内继续向淘宝网的用户提供服务。”



