Neravnoteža podataka uobičajeno je i izazovno pitanje u obuci trenutnih otvorenih transformatora. Kao dobavljač trenutnih otvorenih transformatora, imamo veliko iskustvo i u dubinskom razumijevanju kako riješiti ovaj problem. U ovom ćemo blogu istražiti metode i strategije koje naši trenutni otvoreni transformatori koriste za rješavanje neravnoteže podataka tijekom obuke.
Razumijevanje neravnoteže podataka u treningu transformatora
Neravnoteža podataka odnosi se na situaciju u kojoj raspodjela klasa u skupu podataka nije ujednačena. U kontekstu trenutnih otvorenih transformatora, to se može dogoditi u različitim primjenama, poput otkrivanja grešaka u električnim sustavima. Na primjer, u skupu podataka za otkrivanje električnih grešaka, normalni radni uvjeti mogu daleko nadmašiti nenormalne ili neispravne uvjete. Ova neravnoteža može dovesti do nekoliko problema tijekom treninga.
Kad se transformator obučava na neuravnoteženom skupu podataka, on ima tendenciju da bude pristran prema većinskom razredu. Model može postići visoku točnost na većinskom razredu, ali loše se izvoditi na manjinskom razredu. U scenariju otkrivanja električnih grešaka, transformator može biti vrlo dobar u identificiranju normalnih radnih uvjeta, ali ne uspijeva otkriti rijetke greške, koje su često najkritičnije za prepoznavanje.
Tehnike uzorkovanja
Jedan od najčešćih načina za rješavanje neravnoteže podataka je kroz tehnike uzorkovanja. Postoje dvije glavne vrste uzorkovanja: prekomjerno sametanje i podmetanje.
Prenaglašavanje
Prekomjerno uključuje povećanje broja uzoraka u manjinskom razredu. To se može učiniti na nekoliko načina. Jedna popularna metoda je sintetička manjina preko - tehnika uzorkovanja (Smote). Smote stvara sintetičke uzorke za manjinsku klasu interpoliranjem između postojećih uzoraka manjinske klase.
U našim trenutnim otvorenim transformatorima implementirali smo modificiranu verziju Smotea. Analiziramo karakteristike podatkovnih točaka manjinskih klasa i stvaramo sintetičke uzorke koji su reprezentativniji za stvarne - svjetske scenarije. Na primjer, u slučaju podataka o električnim greškama, razmatramo električne parametre i vremensku prirodu podataka pri generiranju sintetičkih uzoraka. To pomaže transformatoru da bolje nauči obrasce manjinske klase i poboljšava njegovu sposobnost otkrivanja rijetkih grešaka.

[CTKD struja otvoreni transformator] (/požar - nadzor - zaostali - struja - Transformator/CTKD - struja - Otvoreno - Transformer.html) značajno koristi od ove metode prekomjernog rascjepa. Povećavanjem broja uzoraka manjinske klase tijekom treninga, transformator može bolje uhvatiti jedinstvene značajke klase manjina, što dovodi do preciznijeg otkrivanja grešaka.
Podvlačenje
S druge strane, podvlačenje smanjuje broj uzoraka u većinskom razredu. To može biti jednostavan način za uravnoteženje skupa podataka, ali također ima ograničenja jer može dovesti do gubitka vrijednih informacija.
U našim trenutnim otvorenim transformatorima koristimo selektivni pristup podmlagle. Umjesto da nasumično uklanjamo uzorke iz klase većine, identificiramo i uklanjamo uzorke koji su manje informativni ili suvišni. Na primjer, u skupu podataka s velikim brojem normalnih uzoraka radnog stanja možemo ukloniti uzorke koji imaju vrlo slične vrijednosti električnog parametra. Na ovaj način možemo smanjiti neravnotežu bez žrtvovanja previše informacija. [CHK - CTKD otvoreni i zatvoreni transformator struje] (/Fire - Monitoring - zaostatak - struja - transformator/CHK - CTKD - Open - i - Close - Current - Transformer.html) koristi ovu strategiju podrazumijevanja tijekom svog procesa treninga, osiguravajući da se model može usredotočiti na najistaknutije podatke i postići bolje izvedbe.
Trošak - osjetljivo učenje
Drugi pristup postupanju s neravnotežom podataka je trošak - osjetljivo učenje. U tradicionalnom strojnom učenju sve pogreške pogrešne klasifikacije tretiraju se jednako. Međutim, u slučaju neravnoteže podataka, pogrešno klasificiranje uzorka manjinske klase često je skuplje od pogrešnog klasifikacije uzorka većinske klase.
U našim trenutnim otvorenim transformatorima implementiramo troškove - osjetljivo učenje dodjeljivanjem različitih troškova različitim vrstama pogrešne klasifikacije. Na primjer, u primjeni za otkrivanje električnih grešaka, pogrešno klasificiranje neispravnog stanja kao normalnog stanja može imati ozbiljne posljedice, poput električnih požara ili oštećenja opreme. Stoga dodjeljujemo veći trošak ovoj vrsti pogrešne klasifikacije.
Tijekom procesa treninga, transformator pokušava umanjiti ukupne troškove pogrešne klasifikacije. To potiče model da više pažnje posveti manjinskom razredu i poboljšava njegovu točnost klasifikacije za manjinsku klasu. [CHK - F pravokutni transformator zaostale struje] (/požar - nadzor - zaostatak - struja - transformator/chk - f - pravokutna - rezidualna - struja.html) dizajniran je s algoritmima osjetljivih na troškove - osjetljivim na učenje, što mu omogućava bolje upravljanje podacima u neravnotezi u zamkama za otkrivanje grešaka.

Metode ansambla
Metode ansambla također mogu biti učinkovite u rukovanju neravnotežom podataka. Model ansambla kombinira više osnovnih modela kako bi napravio konačno predviđanje. Korištenjem različitih osnovnih modela obučenih na različitim podskupinama podataka, model ansambla može uhvatiti širi raspon obrazaca i poboljšati ukupne performanse.
U našim trenutnim otvorenim transformatorima koristimo tehnike vreća i pojačanja. Supging uključuje obuku više osnovnih modela na različitim podskupinama podataka, koji se nasumično uzorkuju zamjenom. S druge strane, pojačavanje, trenira modele baze uzastopno, gdje se svaki novi model usredotočuje na uzorke koje su prethodni modeli pogrešno klasificirali.
U kontekstu neravnoteže podataka, metode ansambla mogu pomoći transformatoru da bolje nauči obrasce manjinske klase. Na primjer, u ansamblu utemeljenom na vrećama, neki od osnovnih modela mogu se osposobljavati za podskupine podataka koji imaju relativno uravnoteženu raspodjelu klasa, omogućujući im da učinkovitije nauče značajke manjinske klase.
Mjerni podaci o procjeni
Kada se bavite neravnotežom podataka, tradicionalne mjerne vrijednosti evaluacije poput točnosti možda nisu prikladne. Točnost mjeri ukupni udio ispravno klasificiranih uzoraka, ali može biti zabludu u prisutnosti neravnoteže podataka. Na primjer, ako skup podataka ima uzorke klase 95% većine i 5% uzoraka manjinske klase, model koji uvijek predviđa da će klasa većine postići 95% točnost, iako uopće ne otkriva manjinsku klasu.
Koristimo prikladnije mjerne vrijednosti evaluacije kao što su preciznost, opoziv i F1 - rezultat. Preciznost mjeri udio ispravno predviđenih pozitivnih uzoraka iz svih predviđenih pozitivnih uzoraka. Podsjećanje mjeri udio ispravno predviđenih pozitivnih uzoraka iz svih stvarnih pozitivnih uzoraka. F1 - rezultat je harmonična sredstva preciznosti i opoziva, pružajući uravnoteženu mjeru performansi modela.
Korištenjem ovih mjernih podataka tijekom obuke i testiranja naših trenutnih otvorenih transformatora možemo bolje procijeniti sposobnost modela da obrađuje neravnotežu podataka i izvrši potrebne prilagodbe za poboljšanje njegovih performansi.
Zaključak
Neravnoteža podataka značajan je izazov u obuci trenutnih otvorenih transformatora. Međutim, primjenom tehnika uzorkovanja, troškova - osjetljivog učenja, metoda ansambla i odgovarajućih mjernih podataka evaluacije možemo učinkovito riješiti ovo pitanje. Naš [CTKD struja otvoreni transformator] (/Fire - Monitoring - zaostatak - struja - transformator/ctkd - struja - otvoreni - Transformer.html), [CHK - CTKD Otvoreni i zatvoreni Transformator struje] (/Fire - Monitoring - preostala - Transformator - Transformator - CTKD - CUNER - CUST - CUST - AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND ANDESTHLES ANN CUST. AND CUSTURY - CHKK TRANSTREMERS - CHK -TRANCREMER. - Nadgledanje - zaostala - struja - Transformator/CHK - F - pravokutna - rezidualna - struja.html) dizajnirani su s tim strategijama kako bi se osigurale visoke performanse u različitim primjenama, posebno u otkrivanju rijetkih događaja kao što su električne greške.
Ako ste zainteresirani za naše trenutne otvorene transformatore i želite razgovarati o nabavi, slobodno nas kontaktirajte. Spremni smo vam pružiti detaljne informacije o proizvodima i rješenja prilagođene vašim specifičnim potrebama.
Reference
- Chawla, NV, Bowyer, KW, Hall, Lo, & Kegelmeyer, WP (2002). Smote: sintetička manjina preko - tehnika uzorkovanja. Časopis za istraživanje umjetne inteligencije, 16, 321 - 357.
- Elkan, C. (2001). Temelji troškova - osjetljivog učenja. U ijcai (vol. 1, str. 973 - 978).