Избор на инстанца

Изборот на инстанца (или намалувањето на базата на податоци или кондензацијата на базата на податоци) е важен чекор пред-обработка на податоците што може да се примени во многу задачи за машинско учење (или рударство на податоци).[1] Овој пристап може да се примени за намалување на првичната база на податоци на контролиран волумен, што доведува до намалување на пресметковните ресурси кои се неопходни за извршување на процесот на учење. Алгоритми за избор на инстанца може да се применат и за отстранување на бучни инстанци, пред да се применат алгоритми за учење. Овој чекор може да ја подобри точноста на класифицираните проблеми.

Алгоритам на избор на инстанца треба да идентификува подмножество на вкупните достапни податоци за да се постигне првичната цел на апликацијата за рударство на податоци (или машинско учење) како да се користени сите податоци. Имајќи го предвид ова, оптимален исход на IS е минималното подмножество на податоци што може да ја постигне истата задача без загуба на перформансите, во споредба со перформансите постигнати кога задачата се извршува со користење на целокупните достапни податоци. Затоа, секоја стратегија за избор на инстанца треба да се занимава со компромис помеѓу стапката на намалување на базата на податоци и квалитетот на класификацијата.

Алгоритми за избор на инстанца уреди

Литературата обезбедува неколку различни алгоритми за избор на пример. Тие можат да се разликуваат едни од други според неколку различни критериуми. Имајќи го предвид ова, алгоритмите за избор на инстанца можат да се групираат во две главни класи, според тоа какви инстанци избираат: алгоритми што ги зачувуваат инстанците на границите на часовите и алгоритмите кои ги зачувуваат внатрешните инстанци на класите. Во категоријата алгоритми што избираат инстанци на границите, можно е да се цитираат DROP3,[2] ICF[3] и LSBo.[4] Од друга страна, во категоријата алгоритми кои избираат внатрешни инстанци, можно е да се споменат ENN [5] и LSSm. Општо, алгоритмот како што се ENN и LSSm се користи за отстранување на штетни (бучни) инстанци од базата на податоци. Тие не ги намалуваат податоците како алгоритми што избираат гранични инстанци, но ги отстрануваат инстанците на границите кои имаат негативно влијание врз задачата за ископување податоци. Тие можат да се користат од други алгоритми за избор на инстанци, како чекор за филтрирање. На пример, алгоритмот ENN го користи DROP3 како прв чекор, а алгоритмот LSSm го користи LSBo.

Исто така постои и друга група алгоритми кои прифаќаат различни критериуми за избор. На пример, алгоритмите LDIS,[6] CDIS[7] и XLDIS[8] избираат најгусти инстанци во дадено произволно соседство. Избраните инстанци можат да вклучуваат и гранични и внатрешни инстанци. Алгоритмите LDIS и CDIS се многу едноставни и избираат подмножества кои се многу претставителни на оригиналната база на податоци. Покрај тоа, бидејќи тие пребаруваат од претставителните инстанци во секоја класа одделно, тие се побрзи (во смисла на сложеност на времето и делотворно време на работа) од другите алгоритми, како што се DROP3 и ICF.

Покрај тоа, постои трета категорија алгоритми кои, наместо да избираат вистински инстанци на базата на податоци, избираат прототипови (што можат да бидат синтетички инстанци). Во оваа категорија е можно да се вклучат PSSA,[9] PSDSP [10] и PSSP.[11] Трите алгоритми го усвојуваат поимот за просторна партиција (хиперправоаголник) за идентификување на слични инстанци и извлекуваат прототипови за секој сет на слични инстанци. Генерално, овие приоди можат да се изменат и за избор на вистински инстанци на збирките на податоци. Алгоритмот ISDSP усвојува сличен пристап за избор на вистински инстанци (наместо прототипови).

Наводи уреди

  1. S. García, J. Luengo, and F. Herrera, Data preprocessing in data mining. Springer, 2015.
  2. D. R. Wilson and T. R. Martinez, Reduction techniques for instance-based learning algorithms, Machine learning, vol. 38, no. 3, pp. 257–286, 2000.
  3. H. Brighton and C. Mellish, Advances in instance selection for instance-based learning algorithms, Data mining and knowledge discovery, том 6, бр. 2, стр. 153–172, 2002.
  4. E. Leyva, A. González, and R. Pérez, Three new instance selection methods based on local sets: A comparative study with several approaches from a bi-objective perspective, Pattern Recognition, том 48, бр. 4, стр. 1523–1537, 2015.
  5. D. L. Wilson, “Asymptotic properties of nearest neighbor rules using edited data,” Systems, Man and Cybernetics, IEEE Transactions on, бр. 3, стр. 408–421, 1972.
  6. Carbonera, Joel Luis, and Mara Abel. A density-based approach for instance selection. IEEE 27th International Conference on Tools with Artificial Intelligence (ICTAI), 2015.
  7. Carbonera, Joel Luis, and Mara Abel. A novel density-based approach for instance selection. IEEE 28th International Conference on Tools with Artificial Intelligence (ICTAI), 2016.
  8. Carbonera, Joel Luís (2017), „An Efficient Approach for Instance Selection“, Big Data Analytics and Knowledge Discovery, Lecture Notes in Computer Science, 10440, Springer International Publishing, стр. 228–243, doi:10.1007/978-3-319-64283-3_17, ISBN 9783319642826
  9. Carbonera, Joel Luís; Abel, Mara (2018), „An Efficient Prototype Selection Algorithm Based on Spatial Abstraction“, Big Data Analytics and Knowledge Discovery, Springer International Publishing: 177–192, doi:10.1007/978-3-319-98539-8_14, ISBN 9783319985381
  10. Carbonera, Joel Luís; Abel, Mara (2018), „An Efficient Prototype Selection Algorithm Based on Dense Spatial Partitions“, Artificial Intelligence and Soft Computing, Springer International Publishing: 288–300, doi:10.1007/978-3-319-91262-2_26, ISBN 9783319912615
  11. Carbonera, Joel Luis; Abel, Mara (ноември 2017). Efficient Prototype Selection Supported by Subspace Partitions. 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI). IEEE. doi:10.1109/ictai.2017.00142. ISBN 9781538638767.