This paper introduces the position-coding technology to ETL of data warehouse,presents a new examining algorithm of approximately duplicated records,and brings forward a dynamic method of varian...
英
美
- 该文将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法,并给出了不同级别匹配阈值的动态确定方法。通过实验表明该算法具有较好的检测效果。
