Bayesova sieť (Bayesovské siete): definícia, princípy a použitie

Bayesova sieť (Bayesovské siete): jasná definícia, princípy a praktické použitia v strojovom učení — klasifikácia obrázkov, reči a efektívne vyhľadávanie informácií.

Autor: Leandro Alegsa

Bayesova sieť je typ grafu používaný na modelovanie náhodných javov a vzťahov medzi nimi, najmä keď niektoré premenné nie sú priamo pozorovateľné. Graf je smerový acyklický graf (DAG), teda obsahuje orientované hrany a neobsahuje žiadne cykly. Uzly predstavujú náhodné premenné (diskrétne alebo spojité) a každá orientovaná hrana vyjadruje závislosť medzi premennými; ku každej takejto hrane sú priradené podmienené pravdepodobnosti opisované pomocou podmienených pravdepodobnostných tabuliek (CPT) alebo vhodných hustôt.

Základné princípy

  • Markovská vlastnosť lokality: Každý uzol je podmienečne nezávislý od svojich nelokálnych predkov vzhľadom na svoje priame rodičovské uzly. Táto vlastnosť umožňuje faktorizovať spoločnú hustotu pravdepodobnosti celej siete ako súčin lokálnych podmienených rozdelení.
  • Faktorizácia: Pre premenné X1,...,Xn reprezentované v sieti platí P(X1,...,Xn) = ∏ P(Xi | rodičia(Xi)). Táto faktorizácia výrazne znižuje počet potrebných parametrov oproti úplnému rozdeleniu.
  • D-separácia a podmienená nezávislosť: Topológia grafu umožňuje určiť, ktoré premenné sú navzájom podmienečne nezávislé. Princíp d-separácie je nástrojom na odvodzovanie týchto nezávislostí.
  • Bayesova veta: Základy inferencie v Bayesových sieťach vychádzajú z Bayesovej vety, ktorá umožňuje prepojiť apriórne informácie a pozorovania na výpočet posteriorných pravdepodobností.

Inferencia (odvodenie)

Hlavným cieľom používania Bayesových sietí je vykonávať inferenciu — t. j. vypočítať rozdelenie jednej alebo viacerých nepozorovaných premenných za podmienky pozorovaní iných premenných. Typy inferencie zahŕňajú:

  • diagnostická inferencia (z príznakov k príčinám),
  • prediktívna inferencia (z príčín k príznakom),
  • intervenčná (kauzálna) inferencia — pri pokuse o interpretáciu sietí ako kauzálnych modelov treba byť opatrný; pre tvrdé kauzálne závery sú potrebné dodatočné predpoklady a metódy (napr. do-calculus).

Algoritmy pre inferenciu možno rozdeliť na presné (napr. variable elimination, junction tree / clique tree) a aproximačné (napr. Monte Carlo metódy ako Gibbsov vzorkovač, variacne metódy, loopy belief propagation). Presná inferencia je často NP-ťažká v závislosti od štruktúry grafu (veľkosť klík v triangulovanom grafe), preto sa v praxi bežne používajú aproximačné prístupy pre veľké siete.

Učenie sietí

Bayesovské siete možno učiť z dát v dvoch hlavných aspektoch:

  • učenie parametrov: Keď je štruktúra známa, parametre (CPT alebo parametre kontinuálnych hustôt) sa odhadujú napr. pomocou maximum likelihood alebo bayesovských odhadov (s priormi), aj pri chýbajúcich údajoch možno použiť EM algoritmus;
  • učenie štruktúry: Keď je štruktúra neznáma, pristupuje sa buď score-based (hľadanie štruktúry maximalizujúcej skóre ako BIC alebo BDe), alebo constraint-based (testy podmienených nezávislostí), prípadne kombinovane. Učenie štruktúry je výpočtovo náročné (kombinatorické), preto sa používajú heuristiky a optimalizačné metódy.

Rôzne typy Bayesových sietí

  • Naivný Bayes: Zjednodušený model, kde sú všetky rysové premenné podmienečne nezávislé vzhľadom na triedu; veľmi efektívny pri klasifikácii a rýchly na učenie.
  • Gaussian Bayesovské siete: Pre spojité premenné s predpokladom lineárnych vzťahov a normálneho rozdelenia (multivariátne Gaussovské siete).
  • Hybridné siete: Kombinujú diskrétne a spojité premenné (vyžadujú špeciálne metódy pre inferenciu).
  • Dynamické Bayesovské siete (DBN): Rozšírenie pre časové (sekvenčné) dáta — napr. skryté Markovovské modely sú osobitným prípadom DBN.

Aplikácie

Bayesovské siete sa široko používajú v mnohých oblastiach vďaka svojej schopnosti modelovať neistotu a zložité závislosti:

  • medicínska diagnostika a rozhodovacia podpora,
  • detekcia porúch a údržba (fault diagnosis),
  • spracovanie prirodzeného jazyka a rozpoznávanie reči,
  • počítačové videnie a rozpoznávanie obrázkov,
  • recommendation systems a personalizácia,
  • robotika a plánovanie za neistoty,
  • analýza rizík a rozhodovanie v podnikaní,
  • vyhľadávanie informácií a zlučovanie neúplných dát.

Výhody a obmedzenia

  • Výhody: modelovanie neistoty formálne a konzistentne, zrozumiteľná reprezentácia závislostí, možnosť začleniť apriórne informácie, flexibilita pri kombinovaní dát a znalostí odborníkov.
  • Obmedzenia: učenie štruktúry a presná inferencia môže byť výpočtovo náročná; sieť sama o sebe neurčuje kauzalitu bez ďalších predpokladov; pre veľmi veľké alebo husté siete môže byť nevyhnutné použiť aproximačné metódy.

Praktické poznámky

  • Pri implementácii natrafíte na množstvo softvérových knižníc (R, Python — napr. pgmpy, bnlearn, pomegranate, Java a iné), ktoré poskytujú nástroje na učenie a inferenciu.
  • Naivný Bayes je jednoduchý príklad Bayesovej siete, ktorý sa často používa ako rýchly baseline pri klasifikačných úlohách.
  • Pri uvažovaní o kauzálnych otázkach pamätajte, že pre spoľahlivé kauzálne závery je potrebné zvážiť experimentálne alebo identifikačné predpoklady (napr. randomizované štúdie, nástroje pre identifikáciu kauzálnych efektov).

Bayesovské siete predstavujú silný rámec pre prácu s neistotou v rôznych doménach. Ich úspešné použitie vyžaduje pochopenie grafovej štruktúry, princípov faktorizácie, zvolených algoritmov na inferenciu a obozretné interpretovanie výsledkov, obzvlášť pri tvrdeniach o kauzalite.

História

Pojem "bayesovské siete" zaviedol Judea Pearl v roku 1985, aby zdôraznil tri aspekty:

  1. Často subjektívny charakter vstupných informácií.
  2. Spoliehanie sa na Bayesovu podmienku ako základ pre aktualizáciu informácií.
  3. Rozdiel medzi kauzálnym a dôkazovým spôsobom uvažovania, ktorý zdôrazňuje posmrtne publikovaný článok Thomasa Bayesa z roku 1763.

Koncom 80. rokov 20. storočia boli v zásadných textoch Probabilistic Reasoning in Intelligent Systems a Probabilistic Reasoning in Expert Systems zhrnuté vlastnosti bayesovských sietí a pomohli vytvoriť bayesovské siete ako oblasť štúdia.

Neformálne varianty takýchto sietí prvýkrát použil právnik John Henry Wigmore vo forme Wigmorových diagramov na analýzu dôkazov v súdnom konaní v roku 1913. Ďalší variant, nazývaný diagramy ciest, vyvinul genetik Sewall Wright a používa sa v sociálnych a behaviorálnych vedách (väčšinou s lineárnymi parametrickými modelmi).

Otázky a odpovede

Otázka: Čo je to Bayesova sieť?


Odpoveď: Bayesovská sieť je typ grafu, ktorý sa používa na modelovanie nepozorovateľných udalostí, ktoré možno použiť na odvodzovanie.

Otázka: Aký typ grafu sa používa v Bayesovej sieti?


A: Smerový graf, ktorý neobsahuje žiadne cykly.

Otázka: Čo predstavujú uzly grafu v bayesovskej sieti?


Odpoveď: Uzly predstavujú náhodné premenné.

Otázka: Ako sú prepojené dva uzly v bayesovskej sieti?


Odpoveď: Dva uzly môžu byť spojené hranou a hrana má priradenú pravdepodobnosť prenosu z jedného uzla do druhého.

Otázka: V akej oblasti sa Bayesove siete používajú najmä?


Odpoveď: Bayesovské siete sa používajú najmä v oblasti (neasistovaného) strojového učenia.

Otázka: Môžu sa Bayesove siete použiť na klasifikáciu informácií?


Odpoveď: Áno, Bayesovské siete sa môžu použiť na klasifikáciu informácií v oblastiach, ako je rozpoznávanie obrázkov, dokumentov alebo reči a vyhľadávanie informácií.

Otázka: Čo je základom Bayesovej siete?


Odpoveď: Bayesova sieť je založená na objave reverenda Thomasa Bayesa zo 40. rokov 17. storočia, ktorý sa nazýva Bayesova veta.


Prehľadať
AlegsaOnline.com - 2020 / 2025 - License CC3