欧美在线一区二区三区_久久精品电影免费动漫_添人人躁日日躁夜夜躁夜夜揉_香蕉eeww99国产精选播放_国产日韩在线观看

財(cái)訊中國(guó)

人工智能之K近鄰算法(KNN)

來(lái)源:網(wǎng)絡(luò) 2022-01-25 22:30:07

前言:人工智能機(jī)器學(xué)習(xí)有關(guān)算法內(nèi)容,請(qǐng)參見公眾號(hào)“科技優(yōu)化生活”之前相關(guān)文章。人工智能之機(jī)器學(xué)習(xí)主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點(diǎn)探討一下K近鄰(KNN)算法。 ^_^

K近鄰KNN(k-Nearest Neighbor)算法,也叫K最近鄰算法,1968年由 Cover 和 Hart 提出,是機(jī)器學(xué)習(xí)算法中比較成熟的算法之一。K近鄰算法使用的模型實(shí)際上對(duì)應(yīng)于對(duì)特征空間的劃分。KNN算法不僅可以用于分類,還可以用于回歸。

KNN概念:

K近鄰算法KNN就是給定一個(gè)訓(xùn)練數(shù)據(jù)集,對(duì)新的輸入實(shí)例,在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的K個(gè)實(shí)例(K個(gè)鄰居),這K個(gè)實(shí)例的多數(shù)屬于某個(gè)類,就把該輸入實(shí)例分類到這個(gè)類中。

如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。K近鄰算法使用的模型實(shí)際上對(duì)應(yīng)于對(duì)特征空間的劃分。

通俗地講,就是“物以類聚,人以群分”。

分類策略,就是“少數(shù)從屬于多數(shù)”。

算法描述:

KNN沒(méi)有顯示的訓(xùn)練過(guò)程,在測(cè)試時(shí),計(jì)算測(cè)試樣本和所有訓(xùn)練樣本的距離,根據(jù)最近的K個(gè)訓(xùn)練樣本的類別,通過(guò)多數(shù)投票的方式進(jìn)行預(yù)測(cè)。具體算法描述如下:

輸入:訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),...,(xn,yn)},其中xi∈Rn,yi∈{c1,c2,...,cK}和測(cè)試數(shù)據(jù)x

輸出:實(shí)例x所屬的類別

1) 根據(jù)給定的距離度量,在訓(xùn)練集T中找到與x距離最近的k個(gè)樣本,涵蓋這k個(gè)點(diǎn)的x的鄰域記作Nk(x)。

2)在Nk(x)中根據(jù)分類規(guī)則(如多數(shù)表決)確定x的類別y:

核心思想:

當(dāng)無(wú)法判定當(dāng)前待分類點(diǎn)是從屬于已知分類中的哪一類時(shí),依據(jù)統(tǒng)計(jì)學(xué)的理論看它所處的位置特征,衡量它周圍鄰居的權(quán)重,而把它歸為到權(quán)重更大的那一類中。

kNN的輸入是測(cè)試數(shù)據(jù)和訓(xùn)練樣本數(shù)據(jù)集,輸出是測(cè)試樣本的類別。

KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對(duì)象。KNN算法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來(lái)決定待分樣本所屬的類別。

算法要素:

KNN 算法有3個(gè)基本要素:

1)K值的選擇:K值的選擇會(huì)對(duì)算法的結(jié)果產(chǎn)生重大影響。K值較小意味著只有與輸入實(shí)例較近的訓(xùn)練實(shí)例才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用,但容易發(fā)生過(guò)擬合;如果 K 值較大,優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差,但缺點(diǎn)是學(xué)習(xí)的近似誤差增大,這時(shí)與輸入實(shí)例較遠(yuǎn)的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用,使預(yù)測(cè)發(fā)生錯(cuò)誤。在實(shí)際應(yīng)用中,K 值一般選擇一個(gè)較小的數(shù)值,通常采用交叉驗(yàn)證的方法來(lái)選擇最優(yōu)的 K 值。隨著訓(xùn)練實(shí)例數(shù)目趨向于無(wú)窮和 K=1 時(shí),誤差率不會(huì)超過(guò)貝葉斯誤差率的2倍,如果K也趨向于無(wú)窮,則誤差率趨向于貝葉斯誤差率。

2)距離度量:距離度量一般采用 Lp 距離,當(dāng)p=2時(shí),即為歐氏距離,在度量之前,應(yīng)該將每個(gè)屬性的值規(guī)范化,這樣有助于防止具有較大初始值域的屬性比具有較小初始值域的屬性的權(quán)重過(guò)大。

對(duì)于文本分類來(lái)說(shuō),使用余弦(cosine)來(lái)計(jì)算相似度就比歐式(Euclidean)距離更合適。

3)分類決策規(guī)則:該算法中的分類決策規(guī)則往往是多數(shù)表決,即由輸入實(shí)例的K個(gè)最臨近的訓(xùn)練實(shí)例中的多數(shù)類決定輸入實(shí)例的類別。

算法流程:

1)準(zhǔn)備數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。

2)選用合適的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)訓(xùn)練數(shù)據(jù)和測(cè)試元組。

3)設(shè)定參數(shù),如K。

4)維護(hù)一個(gè)距離由大到小的優(yōu)先級(jí)隊(duì)列(長(zhǎng)度為K),用于存儲(chǔ)最近鄰訓(xùn)練元組。隨機(jī)從訓(xùn)練元組中選取K個(gè)元組作為初始的最近鄰元組,分別計(jì)算測(cè)試元組到這K個(gè)元組的距離,將訓(xùn)練元組標(biāo)號(hào)和距離存入優(yōu)先級(jí)隊(duì)列。

5)遍歷訓(xùn)練元組集,計(jì)算當(dāng)前訓(xùn)練元組與測(cè)試元組的距離,將所得距離L與優(yōu)先級(jí)隊(duì)列中的最大距離Lmax。

6)進(jìn)行比較。若L>=Lmax,則舍棄該元組,遍歷下一個(gè)元組。若L

7)遍歷完畢,計(jì)算優(yōu)先級(jí)隊(duì)列中K個(gè)元組的多數(shù)類,并將其作為測(cè)試元組的類別。

8)測(cè)試元組集測(cè)試完畢后計(jì)算誤差率,繼續(xù)設(shè)定不同的K值重新進(jìn)行訓(xùn)練,最后取誤差率最小的K值。

算法優(yōu)點(diǎn):

1)KNN從原理上也依賴于極限定理,但在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。

2)由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來(lái)確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來(lái)說(shuō),KNN方法較其他方法更為適合。

3)算法本身簡(jiǎn)單有效,精度高,對(duì)異常值不敏感,易于實(shí)現(xiàn),無(wú)需估計(jì)參數(shù),分類器不需要使用訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練時(shí)間復(fù)雜度為0。

4)KNN 分類的計(jì)算復(fù)雜度和訓(xùn)練集中的文檔數(shù)目成正比,即,如果訓(xùn)練集中文檔總數(shù)為n,那么KNN的分類時(shí)間復(fù)雜度為O(n)。

5)適合對(duì)稀有事件進(jìn)行分類。

6)特別適合于多分類問(wèn)題(multi-modal),對(duì)象具有多個(gè)類別標(biāo)簽,kNN比SVM的表現(xiàn)要好。

算法缺點(diǎn):

1)當(dāng)樣本不平衡時(shí),樣本數(shù)量并不能影響運(yùn)行結(jié)果。

2)算法計(jì)算量較大;

3)可理解性差,無(wú)法給出像決策樹那樣的規(guī)則。

改進(jìn)策略:

KNN算法因其提出時(shí)間較早,隨著其他技術(shù)的不斷更新和完善,KNN算法逐漸顯示出諸多不足之處,因此許多KNN算法的改進(jìn)算法也應(yīng)運(yùn)而生。算法改進(jìn)目標(biāo)主要朝著分類效率和分類效果兩個(gè)方向。

改進(jìn)1:通過(guò)找出一個(gè)樣本的k個(gè)最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。

改進(jìn)2:將不同距離的鄰居對(duì)該樣本產(chǎn)生的影響給予不同的權(quán)值(weight),如權(quán)值與距離成反比(1/d),即和該樣本距離小的鄰居權(quán)值大,稱為可調(diào)整權(quán)重的K最近鄰居法WAKNN(weighted adjusted K nearestneighbor)。但WAKNN會(huì)造成計(jì)算量增大,因?yàn)閷?duì)每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離,才能求得它的K個(gè)最近鄰點(diǎn)。

改進(jìn)3:事先對(duì)已知樣本點(diǎn)進(jìn)行剪輯(editing技術(shù)),事先去除(condensing技術(shù))對(duì)分類作用不大的樣本。該算法比較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。

考慮因素:

實(shí)現(xiàn) K 近鄰算法時(shí),主要考慮的因素是如何對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行快速 K 近鄰搜索,這在特征空間維數(shù)大及訓(xùn)練數(shù)據(jù)容量大時(shí)是非常必要的。

應(yīng)用場(chǎng)景:

K 近鄰算法應(yīng)用場(chǎng)景包括機(jī)器學(xué)習(xí)、字符識(shí)別、文本分類、圖像識(shí)別等領(lǐng)域。

結(jié)語(yǔ):

K近鄰算法KNN,也叫K最近鄰算法,是機(jī)器學(xué)習(xí)研究的一個(gè)活躍領(lǐng)域。最簡(jiǎn)單的暴力算法,比較適合小數(shù)據(jù)樣本。K近鄰算法使用的模型實(shí)際上對(duì)應(yīng)于對(duì)特征空間的劃分。KNN算法不僅可以用于分類,還可以用于回歸。KNN算法在人工智能之機(jī)器學(xué)習(xí)、字符識(shí)別、文本分類、圖像識(shí)別等領(lǐng)域有著廣泛應(yīng)用。

關(guān)鍵詞: 人工智能 KNN

相關(guān)新聞

人工智能之K近鄰算法(KNN)
2022-01-25 22:30:07
BAT三大巨頭決戰(zhàn)人工智能
2022-01-25 22:30:01
對(duì)抗聯(lián)發(fā)科天璣8000!高通把驍龍888下放:性價(jià)比暴增
2022-01-25 21:21:32
榮耀Magic V今日再次開售:首款驍龍8折疊屏旗艦
2022-01-25 21:21:25
3080買3080顯卡有戲?顯卡挖礦回本周期長(zhǎng)達(dá)三年
2022-01-25 21:21:17
微軟電腦管家1.0泄露:國(guó)內(nèi)專供、干凈清爽無(wú)捆綁
2022-01-25 21:21:09
酷睿i9聯(lián)手華擎Z690妖板 DDR5內(nèi)存風(fēng)冷沖上8000MHz
2022-01-25 21:21:02
5G手機(jī)綜合評(píng)測(cè)第一名:榮耀Magic3 Pro
2022-01-25 21:08:02
聯(lián)想樂(lè)Pad A1拆機(jī)全過(guò)程
2022-01-25 21:00:27
安規(guī)測(cè)試簡(jiǎn)介
2022-01-25 21:00:21
一文讀懂:什么是工業(yè)物聯(lián)網(wǎng)?
2022-01-25 21:00:16
實(shí)時(shí)融合計(jì)費(fèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
2022-01-25 21:00:11
金星JXD3000拆解
2022-01-25 21:00:05
基于超聲導(dǎo)波的結(jié)構(gòu)健康狀態(tài)無(wú)損檢測(cè)及在線監(jiān)測(cè)
2022-01-25 20:59:59
顯卡終于大降價(jià)了!NVIDIA跌了幾乎一半
2022-01-25 19:51:45
蘋果攤上大麻煩 愛立信發(fā)起全球侵權(quán)訴訟:iPhone或遭禁售
2022-01-25 19:51:38
新能源汽車保費(fèi)大漲!蔚來(lái)破局:5000萬(wàn)成立保險(xiǎn)經(jīng)紀(jì)公司
2022-01-25 19:51:31
微軟也要測(cè)試Edge v100版瀏覽器兼容問(wèn)題
2022-01-25 19:51:24
NVIDIA因匯率上調(diào)RTX 30系顯卡歐洲建議零售價(jià)
2022-01-25 19:51:18
松下將于明年量產(chǎn)特斯拉4680電池:整車?yán)m(xù)航增加20%
2022-01-25 19:51:09
SpaceX貨運(yùn)“龍”飛船從空間站和諧艙面對(duì)接
2022-01-25 19:51:02
Signify宣布推出三款Philips Hue智能戶外燈 3月1日開售
2022-01-25 19:40:22
法國(guó)外科醫(yī)生將患者X光片作為NFT銷售 但未獲得當(dāng)事人同意
2022-01-25 19:40:15
新款寶馬X6渲染圖曝光 今夏亮相
2022-01-25 19:40:09
電池就在車邊上:寧德時(shí)代上海基地距特斯拉僅3公里
2022-01-25 19:40:02
特斯拉加州工廠產(chǎn)能成北美第一 馬斯克有的吹了
2022-01-25 19:39:55
適用于Windows和macOS的“One Outlook”將于春季推出
2022-01-25 19:39:48
初代Surface Duo終于升級(jí)Android 11
2022-01-25 19:39:42
Phantom S991高速攝影機(jī)發(fā)布 支持4K@937fps視頻錄制
2022-01-25 19:39:35
「MyWeather·我的天氣」2022年春節(jié)吉祥版登場(chǎng):中國(guó)瑞獸主題+航天員圖標(biāo)
2022-01-25 19:39:24
開發(fā)者抱怨iCloud服務(wù)器出現(xiàn)穩(wěn)定問(wèn)題 導(dǎo)致無(wú)法正常同步
2022-01-25 19:39:16
蘋果AirTag立功!意外揭開盜車賊陰謀:車輛物歸原主
2022-01-25 19:39:09
騰訊:2021年近70名員工因觸犯“高壓線”被辭退
2022-01-25 19:39:02
中國(guó)電信5G消息商用,或按照短信收費(fèi)
2022-01-25 19:38:54
i7-12700H/i5-12500H實(shí)測(cè) 領(lǐng)先11代i9-11980HK旗艦移動(dòng)處理器
2022-01-25 19:38:51
紅魔游戲手機(jī)7系列預(yù)熱 165W快充+無(wú)挖孔屏幕
2022-01-25 19:38:45
中國(guó)裝備、中國(guó)速度、中國(guó)創(chuàng)造!“新一代”高鐵,將有“六大變化”
2022-01-25 19:38:42
歐洲上市 新款Surface Go 3平板LTE版本來(lái)啦
2022-01-25 19:38:34
乘客被夾身亡線路開通無(wú)人駕駛剛1年 上海地鐵回應(yīng):將全力配合調(diào)查
2022-01-25 19:38:33
消息稱聯(lián)合利華擬全球裁員數(shù)千人
2022-01-25 19:38:22
ZOL百萬(wàn)補(bǔ)貼:iPhone 13領(lǐng)券5399 方法在這
2022-01-25 19:38:18
半月談評(píng)盲盒經(jīng)濟(jì):是盲盒,還是“韭菜盒子”?
2022-01-25 19:38:11
內(nèi)存頻率新紀(jì)錄!DDR5達(dá)到8888MHz!
2022-01-25 19:38:06
前高盛CEO改變對(duì)比特幣態(tài)度,稱其生態(tài)系統(tǒng)已經(jīng)成熟
2022-01-25 19:38:01
LVDT位移傳感器的構(gòu)成原理及特點(diǎn)
2022-01-25 19:30:21
RGB傳感器的典型應(yīng)用
2022-01-25 19:30:15
東芝M800內(nèi)部拆解
2022-01-25 19:30:08
單片機(jī)最小系統(tǒng)介紹
2022-01-25 19:30:02
百度網(wǎng)盤出現(xiàn)故障?多名網(wǎng)友稱自己文件突然全沒(méi)了
2022-01-25 18:22:12
到2026年,Open RAN預(yù)計(jì)將占整體RAN市場(chǎng)15%左右
2022-01-25 18:22:04
ROG槍神6游戲本今日發(fā)布:十四核酷睿i9+滿血RTX 3070Ti
2022-01-25 18:21:56
富士康:今年將進(jìn)軍元宇宙,設(shè)計(jì)可穿戴設(shè)備等
2022-01-25 18:21:47
ROG幻16新品預(yù)約:全新星云屏、雙顯新玩法
2022-01-25 18:21:38
曝京東方欲再進(jìn)一步:目標(biāo)為iPhone 15 Pro供貨高端OLED屏
2022-01-25 18:21:29
格力公布三年分紅規(guī)劃:每年分紅不低于凈利潤(rùn)一半!
2022-01-25 18:21:21
特斯拉高架上“鏟飛”比亞迪!車主發(fā)聲:開了輔助駕駛
2022-01-25 18:21:12
奇瑞新春禮包:購(gòu)全系車型享發(fā)動(dòng)機(jī)終身質(zhì)保
2022-01-25 18:21:02
Thor發(fā)布Airstrem電動(dòng)概念車:好比房車行業(yè)的iPhone
2022-01-25 18:14:09
B2步進(jìn):AMD銳龍5000系列CPU改善溫度功耗頻率和內(nèi)存支持
2022-01-25 18:14:02
寶馬M3旅行車用上曲面屏
2022-01-25 18:13:54
新材料可在室溫下進(jìn)行“量子翻轉(zhuǎn)” 有助開發(fā)下一代計(jì)算新模式
2022-01-25 18:13:47
傳蘋果挖走Xbox工程師打造自家游戲主機(jī):還想叫板騰訊
2022-01-25 18:13:40
[圖]Hotmail發(fā)展歷程:從風(fēng)靡全球到令人討厭
2022-01-25 18:13:33
TeslaMate漏洞致數(shù)十輛特斯拉電動(dòng)汽車可被遠(yuǎn)程訪問(wèn)
2022-01-25 18:13:26
Coinbase引入新功能 加密貨幣資產(chǎn)報(bào)稅變得更容易
2022-01-25 18:13:19
宏碁發(fā)布Chromebook 512/511/314/311新品 售350美元起
2022-01-25 18:13:12
吉利與力帆攜手打造睿藍(lán)汽車,將推出60秒無(wú)感換電
2022-01-25 18:13:05
WinRAR 6.10正式支持Windows 11新版右鍵菜單 XP已被拋棄
2022-01-25 18:12:58
360公司回應(yīng)“網(wǎng)傳360成都分公司發(fā)生傷人事件”:譴責(zé)一切惡意傷人行為
2022-01-25 18:12:51
暴漲最多1.7倍 RTX 3080 Ti游戲本跑分官方泄露
2022-01-25 18:12:44
MIT開發(fā)Twist編程語(yǔ)言:專門解決量子計(jì)算數(shù)據(jù)糾纏問(wèn)題
2022-01-25 18:12:37
民航局授豐鳥科技支線物流無(wú)人機(jī)商業(yè)試運(yùn)行牌照
2022-01-25 18:12:30
李嘉欣出院后為健康干杯 曾病重入ICU搶救
2022-01-25 18:12:23
央視總臺(tái)發(fā)布冬奧版權(quán)保護(hù)聲明:騰訊、快手等獲授權(quán)
2022-01-25 18:12:16
誤會(huì)再起:Trumpcoin澄清與前總統(tǒng)特朗普家族沒(méi)有任何聯(lián)系
2022-01-25 18:12:08
結(jié)束15年糾紛 IPCom和HTC簽署專利許可協(xié)議
2022-01-25 18:12:00
Axicle展示能拯救生命的防側(cè)翻系統(tǒng) 快速甩開被噴氣發(fā)動(dòng)機(jī)的風(fēng)力吹翻的拖車
2022-01-25 18:11:52
俞敏洪談對(duì)直播帶貨團(tuán)隊(duì)要求:腳踏實(shí)地穩(wěn)健發(fā)展,最后超越期待
2022-01-25 18:11:45
KTM宣布一款帶有彈出式噴氣式戰(zhàn)斗機(jī)頂篷的街頭合法超跑
2022-01-25 18:11:38
巴西電商平臺(tái)Mercado Libre展開假冒蘋果產(chǎn)品專項(xiàng)打擊活動(dòng)
2022-01-25 18:11:32
股價(jià)“腳踝斬”80%后 網(wǎng)紅健身平臺(tái)Peloton股東要求CEO辭職
2022-01-25 18:11:25
微軟電腦管家結(jié)束內(nèi)測(cè):上線不到一天下載鏈接已失效
2022-01-25 18:11:19
美光解散上海DRAM設(shè)計(jì)團(tuán)隊(duì) 并挑選核心員工技術(shù)移民美國(guó)
2022-01-25 18:11:13
騰訊“拍”了一張12.5億像素的VR全景圖:92張8K照片合成
2022-01-25 18:11:06
電動(dòng)汽車銷量大增 大眾汽車2021年達(dá)到歐盟碳排放目標(biāo)
2022-01-25 18:11:00
免費(fèi)模式仍被收取流量費(fèi) Facebook Free Basics服務(wù)遭吐槽
2022-01-25 18:10:53
迪士尼女繼承人呼吁游客抵制自家游樂(lè)園
2022-01-25 18:10:47
國(guó)外出生的大熊貓屬于中國(guó)嗎 ?專家:2歲后就回國(guó)
2022-01-25 18:10:40
重命名進(jìn)行時(shí):Eth2帶來(lái)了哪些變化?
2022-01-25 18:10:34
[評(píng)論]“隔離險(xiǎn)”不能借疫生財(cái)
2022-01-25 18:10:27
完成改造后的網(wǎng)盤“無(wú)差別速率”成績(jī)單來(lái)了
2022-01-25 18:10:20
廣電5G戶外廣告驚現(xiàn)街頭:第四大運(yùn)營(yíng)商網(wǎng)絡(luò)能用上了
2022-01-25 18:10:12
特斯拉歐洲超級(jí)工廠壁畫亮相:《沙丘》既視感 科幻味十足
2022-01-25 18:10:04
AMD Zen3+架構(gòu)首秀 銳龍9 6900HX跑分大漲33%
2022-01-25 18:09:57
魅藍(lán)回歸第二款新機(jī)證件照出爐 后攝模組神似iPhone 13
2022-01-25 18:09:50
中國(guó)電信宣布5G消息正式商用:個(gè)人接收免費(fèi) 發(fā)送按短信收費(fèi)
2022-01-25 18:09:43
DDR5內(nèi)存新世界紀(jì)錄誕生:頻率8888MHz
2022-01-25 18:09:36
消息稱跨境電商Shein重啟IPO計(jì)劃 最早今年赴美上市
2022-01-25 18:09:28
比5900HX快33%!AMD Ryzen 9 6900HX跑分曝光
2022-01-25 18:09:20
康寧推出折射率達(dá)2.0的玻璃,讓虛擬視覺(jué)頭戴裝置有更好視野感受
2022-01-25 18:09:19

熱門文章

熱點(diǎn)專題