Processing Text and Financial Data for Deep Learning Methods
(ptafdfdlm)

Os dados financeiros proporcionam um conhecimento atualizado valioso da economia mundial. No entanto, eles são apresentados em volumes de dados extremamente grandes, em diversos formatos e são constantemente atualizados em alta velocidade.   Este curso dá uma visão geral de desenvolvimentos recentes em redes neurais e como eles podem ser usados para ajudar as tarefas de mineração de texto e de dados utilizando fontes financeiras. Começamos com uma introdução a redes neurais de backpropagation. Em seguida, o problema do overfitting é utilizado para esclarecer as vantagens dos métodos de deep learning recentes. As potencialidades da mineração sobre fontes de texto são demonstradas com o modelo de deep learning Word2Vec (Mikolov et al., 2013) para os modelos de continuous bag-of-word (CBOW) e Skip-gram. Em seguida, as redes neurais não supervisionadas são demonstradas com o modelo UbiSOM (Silva e Marques, 2015), uma nova variante da Mapas Auto Organizados (SOM), que foi adaptado para ambientes de streaming. Esta abordagem possibilita a aplicação de análise exploratória de dados e clustering multidimensional a fontes contínuas de dados. O erro médio de quantificação e a outras funções para medir a utilidades dos neurónios ao longo do tempo são usados para permitir que o modelo retenha uma plasticidade indefinida e para lidar com mudanças num fluxo de dados multidimensional. As apresentações teóricas serão integradas com sessões práticas. Nas sessões práticas tanto o Octave como as ferramentas de mineração de texto do UNIX (como 'tr', 'gawk' e 'sed') serão usados para preparar e testar vários exemplos para o Word2Vec e UbiSOM. Serão ainda analisados alguns resultados recentes e algumas questões em aberto sobre a recuperação de informações a partir de texto e dados financeiros.