Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском



 
Критерий E (энтропийный).  Пусть  s  –  количество точек класса i   в 
i , j
интервалах разбиения  N j (k),  j  ,
1 2 ,  полученных  при  разбиении  интервала  
t
N   по  переменной    x .  В  общем  случае  m   точек  обучающей  выборки Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском 
t
k
,
1 2
распределятся по двум полученным в результате разбиения интервалам так, 
как показано на рис. 2.1 (где для наглядности полагается, что число классов в 
выборке равно двум). 
 
1
N (k)  
2
N (k) 
t
t
содержит  m (k) точек; 
содержит 
точек
1
m Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском (k)

2
из них  s  точек – класса 1 
из них 
1
,
1
s  точек – класса 1 
,
1 2
и  s  точек – класса 2. 
и 
2 1
,
s
 точек – класса 2. 
2,2
Рис. 2.1. Разбиение на два интервала при ветвлении 
 
Вероятность  того,  что  произвольный  объект  из Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском  N j (k)  принадлежит 
t
классу  i , может быть оценена как  ˆp  s / m (k) , где  m (k)   –  число точек 
i, j
i, j
j
j
подборки,  попавших  в  интервал  N j (k) .  Заметим,  что  оценка  условной 
t
вероятности  p Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советскомˆ  – смещенная.  
i, j
Оценкой  энтропии  интервала    N j (k)  будет  I (k)   pˆ log pˆ .  А 
t
j
i, j
2
i, j
i
оценкой  средней  энтропии  по  двум  интервалам 
1
N (k)   и   
2
N (k)   будет 
t
t
m Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском (k )
величина 
m (k)
m (k)
E(k)
1

I (k)
2

I (k) , поскольку 
j
 является оценкой 
1
2
m
m
m
,
1 2
,
1 2
,
1 2
вероятностной  меры  интервала  N j (k),  и  тогда  E(k) –  среднестатистическая 
t
оценка.  
 
Критерий  E  выбора переменной для разбиения (ветвления Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском) интервала 
N  состоит в выборе переменной с номером  
t
k*  arg min E(k) , 
k
что  соответствует  минимизации  неопределенности  в  результате  разбиения 
текущего интервала. 
 
Свойства критерия E.  
1°    Энтропийный  критерий  E   не  чувствителен Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском  к  равномерности 
разбиения – может давать одинаковые значения в случаях, когда количество 
объектов в интервалах равно и когда различается вплоть до 1 и  m 1. 
,
1 2
 
Вправду,  если  в  каком  либо  интервале  j   содержатся  объекты 
только Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском одного класса  i , то оценка вероятности   ˆp  s / m (k)  будет равна 
i, j
i, j
j
единице  независимо  от  величины  m (k) .  В  частности,  рассмотрим  две 
j
таблицы на рис. 2.2 


 
10 
 
Рис. 2.2. Неравномерное распределение объектов по интервалам Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском. 
 
И  в  одном,  и  в  другом  случае  критерий  E   принимает  нулевое  значение. 
Заметим, что критерий  D  в этих случаях примет разные значения: 25 и 9. 
2°    Критерий  E     нечувствителен  к  иерархическому  разделению 
классов. Это свойство иллюстрируется Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском следующим рис. 2.3. 
 
 
Рис. 2.3. Два случая, когда значения критерия  E  совпадают и равны 1. 
 
Критерий  информационного  выигрыша  (Information  gain,  IGain)  [32] 
рассчитан  на  выбор  переменной  для  ветвления  на  основе  энтроприйного 
подхода. Критерий усовершенствован так Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском, чтобы оценивать средний прирост 
информации (выигрыш) от выполнения шага ветвления. 
Начальное  среднее  количество  информации,  необходимое  для 
определения класса произвольного объекта определяется как 
q s
s
q
j
j
Info T
( )  
log
  pˆ log pˆ , 
j
j
j 1
 l
l
j 1

где Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском T   –  обучающая выборка;  l  –  число примеров в обучающей выборке;  q  
–    число  различных  классов  (значений  целевой  переменной);    s   –    число 
j
точек  из  обучающей  выборки,  помеченных  классом 
j ;      pˆ   –    оценка 
j
вероятности появления класса  j , вычисленная Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском по данной обучающей выборке. 
 
Критерий  выбора  переменной  x   –    по  максимуму  информационного 
k
выигрыша  Gain(k)  Info(T )  Info(k)  Info(T )  E(k) ,  где  E(k)   -  величина 
определенного  выше  критерия  E   –    есть  средняя Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском  энтропия  по  интервалам 
разбиения при выборе для ветвления переменной  x . 
k
Критерий MEE (Minimum Error Entropy)[28]. 
Сначала  рассмотрим  случай  двух  классов  –     и   .  Пусть  x   -  
1
2
k
кандидат  на    переменную  ветвления,  а     -  номер  класса  –  кандидат  для 
1
пометки Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском  интервала  разбиения 
1
N (k)   (левой  ветви)  в  случае  разбиения  по 
t
переменной  x .  Тогда  правая    ветвь  (и  интервал 
2
N (k) )  предположительно 
k
t
 
11 
помечается  оставшимся  классом  –   .    Если  считать  такое  ветвление 
2
правильным, то любая точка Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском из обучающей выборки, попадающая в интервал 
1
N (k)   и  принадлежащая  классу   ,    будет  классифицироваться  неверно. 
t
2
Обозначим  соответственно  число  таких  ошибочных  точек  в  интервалах  
1
N (k)   и   
2
N (k)   как  r   и  r .  Тогда Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском    оценками  вероятностей  ошибок  типа 
t
t
12
21
«перепутывания  классов»  в  разбиваемом  интервале    N = 1
N 
2
N     будут 
t
t
t
r
r
12
ˆP 
  и 
21
ˆP 
,  где  m   -  число  точек  выборки,  попадающих  в 
12
m
21
m
,
1 2
,
1 2
,
1 2
интервал  ^ N .  Величина   ˆ
1 P  ˆ
P  будет оценкой вероятности правильного 
t
12
21
вычисления  классов  вершиной Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском  с  распознавателем  x   и  метками     и   . 
k
1
2
Числовая оценка для рассматриваемого критерия  ^ MEE задается формулой 
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
EE  EE(N , k, P , P )  P log P  P log P  1
(  P  P ) ln 1
(  P  P Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском )  
t
12
21
12
12
21
21
12
21
12
21
и называется энтропией ошибки. Правило ветвления  ^ MEE состоит в выборе 
для разбиения  допустимого интервала  N  и допустимой переменной с  таким 
t
номером  k , чтобы достигалось минимальное значение энтропии ошибки 
ˆ
ˆ
min EE(N Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском , k, P , P ) . 
t
12
21
N ,k
t
 
Свойства критерия MEE.  
 
1°  Минимальное  значение  оценки  EE  0   имеет  место  в  случае 
правильной  классификации  вершиной  всех  точек  выборки,  попавших  в  
интервал  разбиения.  Максимальное  –  ^ EE  1  имеет  место  при  «полном Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском 
перепутывании» точек в интервалах разбиения, когда  ˆ
1
P = ˆ
P =

12
21
2
2°  С  ростом  «перепутывания»  классов  оценка  EE   возрастает. 
Заметим, что в этом случае и значение критерия   возрастает. 
3°    В  случае  частичной  отделимости,  например,  при  ˆ
^ P  0,  если  при Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском 
12
этом 
1
ˆP  ,    вычисления    также  дают  EE 1.  Поэтому  критерий  MEE  в 
21
2
иногда  может  не  различать  случаи  частичной  и  полной  разделимости  
классов. 
 
Критерий    G  (основанный  на  индексе  Джини).    Индекс  Джини 
интервала 
N j (k Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском)  
равен 
j
2
2
g(N (k))  1
p
s
m k

t
 ˆ 1
i j
(
/
( ))
t
,
i, j
j
i
i
Суммируются  квадраты  оценок  условных  вероятностей  всех  классов  в 
данном интервале.  Если в интервале содержатся точки только одного класса, 
то его индекс достигает минимального значения, равного Критерий E - Книга  Ханта,  Марина    и  Стоуна  [20],  увидевшая  свет  в  1966г.  В  Советском нулю. Критерий  ^ G  
для ветвления определяется по формуле 
(
G k)  g( 1
N (k))  g( 2
N (k)). 
t
t
Выбор переменной осуществляется по правилу   k*  argmin G(k) . 
k
 
 


kriterii-sudejstvo-vistavlenie-ochkov.html
kriterii-tyazhesti-nervno-psihicheskih-nagruzok.html
kriterii-uspeshnoj-neuspeshnoj-kommunikacii.html