Coordenado pela professora Marcela Xavier Ribeiro, do DC, o projeto MIDAC desenvolve sistemas que geram padrões a fim de analisar dados complexos como imagens e séries temporais. É a partir da mineração de dados complexos, como imagens e séries temporais, que o projeto MIDAC, do Departamento de Computação (DC) da Universidade Federal de São Carlos (UFSCar), realiza estudos, que têm como um de seus objetivos principais a análise computacional de dados médicos. O projeto abarca o desenvolvimento de diferentes técnicas de mineração de dados a partir das pesquisas desenvolvidas pelos mestrandos orientados pela professora Marcela Xavier Ribeiro, do DC, coordenadora do projeto.
Mineração é a descoberta de padrões em uma grande quantidade de dados, utilizada para facilitar o entendimento destes por parte do usuário. No caso dos sistemas computacionais desenvolvidos pelo MIDAC, a mineração é feita para a análise da produção agrícola, dos exames médicos solicitados para uma suspeita de doença e também no auxílio à tomada de decisão de diagnóstico a partir de exames de mamografia.
Entre os trabalhos já concluídos pelo MIDAC está uma parceria com a Embrapa de Campinas, que, a partir dos padrões estabelecidos pela mineração de séries temporais (conjunto de medidas feitas sequencialmente ao longo do tempo), das informações de clima e da produção agrícola na região de Piracicaba, pode prever o impacto de uma variante sobre a outra. Por exemplo, foi identificado que o aumento de 1ºC na temperatura impacta na diminuição de pelo menos 5 toneladas por hectare na produtividade de cana-de-açúcar dessa região. Para Ana Maria de Ávila, meteorologista do Centro de Pesquisas Meteorológicas e Climáticas Aplicadas a Agricultura (Cepagri/Unicamp), “a análise de todos esses dados se torna cada vez mais desafiadora para os pesquisadores. Ainda há necessidade do desenvolvimento de novas abordagens e técnicas para recuperar informações relevantes e extrair padrões interessantes dos conjuntos de dados. Neste contexto se insere este tipo de método de geração de regras, desenvolvido pelo MIDAC”. Outra pesquisa, também concluída, foi a elaboração de um sistema que permitisse ao setor financeiro de uma empresa de seguros de saúde analisar a conduta de pedidos de exames feitos pelos médicos da cooperativa. Para tanto, foram analisados os pedidos de exames médicos de toda a cooperativa. O resultado desse trabalho foi mapear o conjunto de exames típicos de serem solicitados para cada suspeita de diagnóstico, reduzindo o número de exames que, para serem aprovados, deveriam ser justificados e avaliados manualmente pela administração da cooperativa.
Além dos trabalhos já concluídos, o MIDAC desenvolve atualmente um outro projeto, sendo este seu principal foco, seguindo os mesmos princípios da mineração de dados complexos. A partir de três bases de imagens de mamografias – uma do Hospital das Clínicas de Ribeirão Preto, outra de Viena e uma terceira da Universidade do Sul da Flórida (Estados Unidos) – está em desenvolvimento um sistema que auxilia no diagnóstico de possíveis doenças mamárias por meio da comparação entre a imagem de mamografia do paciente e as imagens de exames antigos armazenadas em um banco de dados.
Um banco de dados tradicional pode ser acessado utilizando-se parâmetros textuais, como informações da faixa etária de uma pessoa. Entretanto em um banco em que os dados são somente imagens, este tipo de busca não é adequado, mas sim a utilização de informações próprias da imagem, como a textura de seus pixels. Para tanto, cada imagem é transformada em um conjunto de valores numéricos referente às suas características visuais. Ao utilizar o sistema, estes valores são comparados entre si, e com os da imagem do exame inserida pelo médico para ser usada de base, resultando em um ranking das imagens mais próximas da inicial (o exame). Entretanto, segundo a coordenadora do projeto, Marcela Ribeiro, a lista não diz o quão próximas as imagens estão entre si e o que significa esta proximidade, pois para o médico os parâmetros matemáticos utilizados não têm significado. O que se pretende é em vez de apresentar o ranking, apresentar para o médico uma visualização destas imagens, trazendo uma informação extra dos relacionamentos entre elas.
Um problema que acontece neste tipo de trabalho é que a percepção de semelhança dos algoritmos – instruções computacionais – é diferente da percepção humana. Esta diferença, chamada de “gap semântico”, ou lacuna semântica, ocorre, pois as imagens são transformadas em um conjunto de representações matemáticas e a semelhança se dá pela aproximação destes valores. Desta forma, quanto maior a quantidade de informações da imagem – como textura, cores, contraste etc. – menor será o “gap” e, portanto, mais preciso o resultado oferecido pelo sistema. Desta forma, o médico consegue visualizar imagens e laudos a partir do que ele deseja, por exemplo, as mais próximas considerando a diversidade (priorizando tipos diferentes). Num caso como este, o sistema pode ter como resposta que a imagem mais próxima que contém uma massa maligna é muito diferente da imagem inicial, portanto esta não deve ser maligna. Assim, ao considerar outras medidas, de acordo com a interação (calibração) dos usuários, o sistema oferece um ranking visual, que auxilia o médico a dar seu diagnóstico, servindo como uma segunda opinião, ou então proporcionando a visualização de algo que poderia passar desapercebido.
A pesquisadora reforça ainda que o sistema apresenta para o profissional imagens similares à que ele tem e suas características. Estas imagens dão uma base de possibilidades, uma segunda opinião, entretanto é o próprio médico que dá o diagnóstico e não o sistema. O projeto ainda está em desenvolvimento e se espera que, em aproximadamente um ano, ele esteja pronto para teste, a partir do seu uso pelos médicos. A validação do sistema terá a participação da equipe do Dr. Antonio Carlos Santos, médico do Hospital das Clínicas de Ribeirão Preto.