Picture of Nuno Miranda
Duvida d trabalho!
by Nuno Miranda - Sábado, 25 Junho 2005, 11:56
 

No enunciado d trab. o que se quer dizer com:

"seja TT o nº total de palavras conhecidas"

Palavras conhecidas da categotria!?!? De todas as categorias?!?! Do texto?!?!

E o numero de categorias, pretende-se que seja elevado ou baixo? É que isso é importante no desenho do trab.

Obrigado.

Picture of João Taleço
Mais dúvidas no trabalho.
by João Taleço - Domingo, 26 Junho 2005, 01:52
 

À semelhança do colega Nuno as nossas dúvidas prendem-se com:

- TT significa o número total de palavras conhecidas no texto? Ou de todas as categorias? Contam-se as palavras repetidas?

- Se a probabilidade do texto estar numa categoria, ou seja P(T in Cj), é negativa, o que é que o programa deve fazer?

- A dica: "para testar o trabalho, criem duas categorias", deve ser relevante para a estruturação do trabalho? Isto porque se existirem muitas categorias optaremos por uma estrutura mais complexa, de forma a reduzir a complexidade temporal.

Obrigado

Bruno Almeida
João Taleço

Picture of Pedro Patinho
Re: Mais dúvidas no trabalho.
by Pedro Patinho - Segunda, 27 Junho 2005, 12:54
 
Bom, vamos tentar uma resposta tu-ain-uane:

TT é o número total de palavras vistas (aprendidas através do treino), indepentemente das categorias a que pertencem.

Exemplo (representamos cada palavra por palavra(numerodevezesvista)):
Categoria 1:
categoria(3)
numero(2)
total(4)

Categoria 2:
total(1)
vistas(3)
pertencem(1)

Neste caso, TT=3+2+4+1+3+1=14.


Segunda questão: probabilidades negativas? Aconselho uma leitura cuidada do livro de introdução à probabilidade.

Em relação ao número de categorias, assumam que teremos um número entre 2 e 15. Em teoria, isto deve funcionar com um número virtualmente ilimitado de categorias, mas usem estes limites para simplificar.
Picture of João Taleço
Re: Mais dúvidas no trabalho.
by João Taleço - Segunda, 27 Junho 2005, 02:34
 

Pensamos que não teremos sido claros ao expôr a seguinte dúvida.
Pegando no exemplo do professor e fazendo umas pequenas alterações:

Categoria 1:
   categorias(3)
   numero(2)
   total(4)

Categoria 2:
   total(1)
   vistas(3)
   pertencem(1)

TT=3+2+4+1+3+1=14.


Agora ver qual a probabilidade do seguinte texto estar contido na categoria 1: "o numero total de categorias"

(palavras significativas com mais de 3 caracteres)


P(X em C1)=log(2/9)+log(4/9)+log(3/9)+log(9/14) = -1.674401813


O que significa então valor obtido?! Estamos a calcular mal?

Bruno Almeida
João Taleço

Picture of Pedro Patinho
Re: Mais dúvidas no trabalho.
by Pedro Patinho - Terça, 28 Junho 2005, 12:48
 
Não, estão a calcular bem...

O erro foi meu, em ter chamado probabilidade, para simplificar...

Na prática, o que temos não é uma probabilidade, mas o logaritmo da probabilidade.

Os logs são usados para acelerar o processamento, usando somas em vez de multiplicações, aproveitando o facto de log(A*B) = log(A)+log(B), para além de reduzirem os erros associados a não considerarmos algumas variáveis.

Para os fundamentos teóricos, que eu não pretendo que conheçam no âmbito da cadeira, mas podem dar uma vista de olhos, leiam este recurso.

Resumindo,
log(P(X em C1)) = -1,67440181285
log(P(X em C2)) = -4,54406804436

então é mais provável que o texto esteja na categoria 1, pois o valor é maior. Notem que estes valores serão sempre negativos, pois log(1)=0, logo log(P(X))<0 se P(X)<1, o que acontece sempre, no nosso caso.



Picture of Bruno Almeida
Re: Mais dúvidas no trabalho.
by Bruno Almeida - Quinta, 7 Julho 2005, 02:23
 
No enunciado está escrito: "Em caso de falha, é necessário dar mais treino ao sistema". Quando é que acontece este caso?

Bruno Almeida
João Taleço
Picture of Pedro Patinho
Re: Mais dúvidas no trabalho.
by Pedro Patinho - Sexta, 8 Julho 2005, 09:02
 
É apenas uma reflexão...

Se tentamos classificar um texto e o sistema diz que o texto pertence a uma categoria errada ("falha"), é porque necessitamos de mais treino.
Picture of David Correia
Re: Duvida d trabalho!
by David Correia - Quinta, 7 Julho 2005, 10:37
 
No enunciado não está bem explícito se as categorias deverão ser guardadas num ficheiro ou em memória (sendo no final descartadas). Qual das hipoteses é a correcta?

Outra questão, é possivel calcular a probabilidade (em percentagem) do texto pertencer a uma determinada categoria? pergunto isto porque não sei bem como apresentar a resposta ao utilizador.

Já agora, existe alguma estrutura recomendada?

Obrigado.