欧美精品久久一级a,日韩精品视频一区二区三区在线观看,久久国产成人精品麻豆

主頁 > 知識(shí)庫 > Redis實(shí)現(xiàn)布隆過濾器的方法及原理

Redis實(shí)現(xiàn)布隆過濾器的方法及原理

布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實(shí)際上是一個(gè)很長(zhǎng)的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)。布隆過濾器可以用于檢索一個(gè)元素是否在一個(gè)集合中。它的優(yōu)點(diǎn)是空間效率和查詢時(shí)間都比一般的算法要好的多，缺點(diǎn)是有一定的誤識(shí)別率和刪除困難。

本文將介紹布隆過濾器的原理以及Redis如何實(shí)現(xiàn)布隆過濾器。

應(yīng)用場(chǎng)景

1、50億個(gè)電話號(hào)碼，現(xiàn)有10萬個(gè)電話號(hào)碼，如何判斷這10萬個(gè)是否已經(jīng)存在在50億個(gè)之中？（可能方案：數(shù)據(jù)庫，set, hyperloglog）
2、新聞客戶端看新聞時(shí)，它會(huì)不斷推薦新的內(nèi)容，每次推薦時(shí)都要去重，那么如何實(shí)現(xiàn)推送去重？
3、爬蟲URL去重？
4、NoSQL數(shù)據(jù)庫領(lǐng)域降低數(shù)據(jù)庫的IO請(qǐng)求數(shù)量？
5、郵箱系統(tǒng)的垃圾郵件過濾？

布隆過濾器（Bloom Filter）就是專門來解決這種問題的，它起到去重的同時(shí)，在空間上還能節(jié)省90%以上，只是存在一定的誤判概率。

認(rèn)識(shí)布隆過濾器

布隆過濾器是一種類似set的數(shù)據(jù)結(jié)構(gòu)，只是不太準(zhǔn)確，當(dāng)用bf.exists判斷元素是否存在時(shí)返回結(jié)果存在但真實(shí)不一定存在；當(dāng)返回不存在時(shí)肯定是不存在，所以判斷去重時(shí)有一定的誤判概率。
當(dāng)然，誤判只會(huì)發(fā)生在過濾器沒有添加過的元素，對(duì)于添加過的元素不會(huì)發(fā)生誤判。
特點(diǎn)：高效地插入和查詢，占用空間少，返回的結(jié)果是不確定性的。

布隆過濾器原理

每個(gè)布隆過濾器對(duì)應(yīng)到Redis的數(shù)據(jù)結(jié)構(gòu)中就是一個(gè)大型的位數(shù)組和幾個(gè)不同的無偏hash函數(shù)，無偏表示分布均勻。

添加key時(shí)，使用多個(gè)hash函數(shù)對(duì)key進(jìn)行hash運(yùn)算得到一個(gè)整數(shù)索引值，對(duì)位數(shù)組長(zhǎng)度進(jìn)行取模運(yùn)算得到一個(gè)位置，每個(gè)hash函數(shù)都會(huì)得到一個(gè)不同的位置，將這幾個(gè)位置都置1就完成了add操作。

查詢同理，只要有一位是0就表示這個(gè)key不存在，但如果都是1，則不一定存在對(duì)應(yīng)的key。

空間占用估計(jì)

布隆過濾器的空間占用有一個(gè)簡(jiǎn)單的計(jì)算公式，但推導(dǎo)比較繁瑣。布隆過濾器有兩個(gè)參數(shù)，預(yù)計(jì)元素?cái)?shù)量n，錯(cuò)誤率f，公式得到兩個(gè)輸出，位數(shù)組長(zhǎng)度L（即存儲(chǔ)空間大小bit），hash函數(shù)的最佳數(shù)量k。

k = 0.7*(1/n)
f = 0.6185^(L/n)

1、位數(shù)組相對(duì)長(zhǎng)度越長(zhǎng)，錯(cuò)誤率越低；
2、位數(shù)組相對(duì)長(zhǎng)度越長(zhǎng)，需要的hash函數(shù)越多；
3、當(dāng)一個(gè)元素平均需要一個(gè)字節(jié)（8bit）的指紋空間時(shí)（L/n=8)，錯(cuò)誤率大約為2%。

實(shí)際元素超出時(shí)，誤判率會(huì)怎樣變化？

f = (1-0.5^t)^k # t為實(shí)際元素與預(yù)計(jì)元素的倍數(shù)
1、當(dāng)錯(cuò)誤率為10%時(shí)，倍數(shù)比為2時(shí)，錯(cuò)誤率接近40%；
2、當(dāng)錯(cuò)誤率為1%，倍數(shù)比為2時(shí)，錯(cuò)誤率15%；
3、當(dāng)錯(cuò)誤率為0.1%，倍數(shù)為2時(shí)，錯(cuò)誤率5%

Redis實(shí)現(xiàn)簡(jiǎn)單Bloom Filter

要想使用redis提供的布隆過濾器，必須添加redis 4.0版本以上的插件才行，具體參照網(wǎng)上安裝步驟。

布隆過濾器有兩個(gè)基本指令，bf.add添加元素，bf.exists查詢?cè)厥欠翊嬖?，bf.madd一次添加多個(gè)元素，bf.mexists一次查詢多個(gè)元素。

> bf.add spiderurl www.baidu.com
> bf.exists spiderurl www.baidu.com
> bf.madd spiderurl www.sougou.com www.jd.com
> bf.mexists spiderurl www.jd.com www.taobao.com

布隆過濾器在第一次add的時(shí)候自動(dòng)創(chuàng)建基于默認(rèn)參數(shù)的過濾器，Redis還提供了自定義參數(shù)的布隆過濾器。

在add之前使用bf.reserve指令顯式創(chuàng)建，其有3個(gè)參數(shù)，key，error_rate， initial_size，錯(cuò)誤率越低，需要的空間越大，error_rate表示預(yù)計(jì)錯(cuò)誤率，initial_size參數(shù)表示預(yù)計(jì)放入的元素?cái)?shù)量，當(dāng)實(shí)際數(shù)量超過這個(gè)值時(shí)，誤判率會(huì)上升，所以需要提前設(shè)置一個(gè)較大的數(shù)值來避免超出。

默認(rèn)的error_rate是0.01，initial_size是100。

利用布隆過濾器減少磁盤 IO 或者網(wǎng)絡(luò)請(qǐng)求，因?yàn)橐坏┮粋€(gè)值必定不存在的話，我們可以不用進(jìn)行后續(xù)昂貴的查詢請(qǐng)求。

總結(jié)

以上所述是小編給大家介紹的Redis實(shí)現(xiàn)布隆過濾器的方法及原理，希望對(duì)大家有所幫助，如果大家有任何疑問歡迎給我留言，小編會(huì)及時(shí)回復(fù)大家的！

您可能感興趣的文章:

Redis使用元素刪除的布隆過濾器來解決緩存穿透問題
布隆過濾器(bloom filter)及php和redis實(shí)現(xiàn)布隆過濾器的方法
Redis 中的布隆過濾器的實(shí)現(xiàn)
Redis BloomFilter實(shí)例講解

標(biāo)簽：定州南寧畢節(jié) 泰州伊春拉薩河源甘南

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Redis實(shí)現(xiàn)布隆過濾器的方法及原理》，本文關(guān)鍵詞 Redis,實(shí)現(xiàn),布隆,過濾器,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。