Data mining / Machine learning / Недетерминистические стратегии

Data mining / Machine learning / Недетерминистические стратегии
Atom
12/1/2011
Church


Небольшой опрос.

Есть ли у вас опыт работы с data mining/ML в любой форме? Используете/планируете использовать его для трейдинга?
Знаете ли вы кого-нибудь, лично или иначе, кто это делает?
Как вы оцениваете количество трейдеров/УК/проп шопов, которые это делают в России? И если знаете, перечислите пожалуйста.
Ну и наконец, что вы думаете на этот счет в общем?


vlad1024

Avatar
Date: 3/20/2012
Reply


Основная проблема почему ML в первозданном виде плохо применим для построения стратегий. Во первых, проблема заключается в том что ML алгориты - строят апроксимацию плотности вероятности в некотором пространстве факторов. То есть чтобы они там что-то "нашли", в структуре факторов должна присутствовать какая-то зависимость, то есть грубо говоря корреляция фактора и приращений инструмента к примеру. Но рынок очень близок к случайному блужданию, и найти такие факторы очень трудно, по одной простой причине каждый такой фактор - сам по себе золотая жила, без всякого ML.
Во-вторых, чтобы найти в это пространстве факторов какие-то не тривиальные зависимости при помощи ML не поддающиеся более простым методам (той же линейной регрессии), этих факторов должно быть много, что само по себе в следствии предыдущего пункта - не тривиально.
Поэтому основной упор стоит делать не на ML(который по сути самый тривиальный и заключительный этап) а на построение моделей числовых рядов (time series models). К примеру как это делает А.Г.(Горчаков).
По поводу кто применяет, никто же не раскажет. ) У меня по крайней мере сложилось мнение из его вебинара что Фишмана на верхнем уровне сигналы(которых много) микшируются через ML, что логично. У Механизатора (russian-trader) тоже схожая схема на верхнем уровне стоит.(можно почитать в какой-то его статье на сайте было). я к примеру, не особо применяю в боевой торговле, хотя достаточно много этим занимался, по выше означенным причинам - слишком мало хороших сигналов, которые пока что можно и более простыми методами микшовать (той же линейной регрессией)
Thanks:

Church

Avatar
Date: 3/22/2012
Reply


Согласен, главная проблема - найти предикативные признаки + представить их так, чтобы ML-алгоритм нашел закономерности. Плюс, если это какой-то нелинейный паттерн, то с высокой вероятностью он затеряется на фоне шума, даже если алгоритм способен находить нелинейные зависимости.

Как это - "на верхнем уровне сигналы(которых много) микшируются через ML"?
Thanks:

vlad1024

Avatar
Date: 3/22/2012
Reply


Church

Как это - "на верхнем уровне сигналы(которых много) микшируются через ML"?


В том же смысле, есть сигналы от каких-то моделей, которые сами по себе имеют предикативную силу. То есть к примеру выдает нам модель каждый такт сигнал, имеющий корреляцию с приращениями 0.05, и таких моделей несколько. Соответственно встает задача, как от набора "слабых моделей" получить более сильный сигнал, который к примеру имел бы корреляцию с приращениями 0.15, для этого вполне можно применять ML. То есть смешивать сигнал, от нескольких более низкоуровневых моделей.
Thanks:

DT

Avatar
Date: 3/22/2012
Reply


Этот прием называется boosting
boosting
Thanks:

vlad1024

Avatar
Date: 3/23/2012
Reply


DT
Этот прием называется boosting
boosting


не.. boosting применим к совокупности weak learners, которые каким-либо образом комбинируются в более мощный классификатор. Здесь же просто, выходы одних моделей в конечном итоге подаются на ML классификатор(который в конечном счете, строит апроксимацию взаимной плотности своих входов), чтобы их смекшировать и получить более сильный выход. А непосредственно используемый алгоритмы ML могут быть различны, может быть на основе boosting, может быть kernel-svm или еще что, это ни так важно.
Thanks:

Church

Avatar
Date: 3/24/2012
Reply


vlad1024
DT
Этот прием называется boosting
boosting


не.. boosting применим к совокупности weak learners, которые каким-либо образом комбинируются в более мощный классификатор. Здесь же просто, выходы одних моделей в конечном итоге подаются на ML классификатор(который в конечном счете, строит апроксимацию взаимной плотности своих входов), чтобы их смекшировать и получить более сильный выход. А непосредственно используемый алгоритмы ML могут быть различны, может быть на основе boosting, может быть kernel-svm или еще что, это ни так важно.

Boosting это не алгоритм ML, а скорее подход. Идеи очень похожи.

Мне больше интересны технологии построения моделей. Обычный time series analysis тут мало применим.
Есть идеи где их поискать?
Thanks:

vlad1024

Avatar
Date: 3/25/2012
Reply


Church
vlad1024
DT
Этот прием называется boosting
boosting


не.. boosting применим к совокупности weak learners, которые каким-либо образом комбинируются в более мощный классификатор. Здесь же просто, выходы одних моделей в конечном итоге подаются на ML классификатор(который в конечном счете, строит апроксимацию взаимной плотности своих входов), чтобы их смекшировать и получить более сильный выход. А непосредственно используемый алгоритмы ML могут быть различны, может быть на основе boosting, может быть kernel-svm или еще что, это ни так важно.

Boosting это не алгоритм ML, а скорее подход. Идеи очень похожи.

Мне больше интересны технологии построения моделей. Обычный time series analysis тут мало применим.
Есть идеи где их поискать?


Скажу вещи которые лежат на поверхности. Если построить АКФ рыночного ценового ряда, то она будет тривиально(то есть нулевой для всех лагов >0), при этом мат ожидание тоже близко к нулю. Из этого можно сделать вывод:
1) что либо рынок стационарен и является случайным блужданием (либо если учитывать аномальную волатильность - мартингалом, но на нем все равно нельзя зарботать направленно)
2) либо рынок нестационарен и соответсвенно описывается нестационарными моделями
Поэтому если подразумевать под time series analysis - стационарные модели(которые все выстроены вокруг не тривиальности АКФ) то да - мало применим. Но time series analysis - достаточно обширное поле и там есть много моделей, в том числе нестационарных. Поэтому именно их и надо искать в литературе, первое что приходит в голову это: regime switching и hidden markov model. Еще простейшая модель, с кусочно постоянным средним (модель Горчакова) про которуя я писал здесь http://smart-lab.ru/blog/43277.php (в конце).
Thanks:

Kazai Mazai

Avatar
Date: 6/27/2012
Reply


Без понимания того, что именно искать и анализировать, и того, как работают алгоритмы дата майнинга, их польза для алготрейдера сомнительна.

Но если знать, что нужно искать, то надобность в этих алгоритмах отпадает. Более того, становится понятно, почему они не применимы, и что нужно переделать, чтобы они были применимы.

Хотя, может это мне они показались неподходящими, а может неподходящие только те, с которыми приходилось иметь дело.
Последней каплей сотрудничества с прикладным софтом для датамайнинга была ситуация, когда "вот он, результат, осталось лишь просуммировать вот это". А за два дня мучений, убедился, что вот как это просуммировать нельзя, потому что так программа уж устроена.
Thanks:


Attach files by dragging & dropping, , or pasting from the clipboard.

loading
clippy