Análise aos exames do secundário, por disciplina

Entretanto, estive a calcular a regressão para cada um dos exames – com a excepção dos de “Francês (iniciação -bienal)” e de “Inglês (iniciação -bienal), que não têm alunos suficientes para isso; também para o exame de Latim o cálculo revelou-se inconclusivo (nenhuma variável era significativa). Para as disciplinas com mais exames, deu-me estes resultados:

C Privado poder compra Interno Fase Para Melhoria Para Ingresso Sexo Idade
E_Portugues639 98,14 3,01 0,02 17,43 4,77 3,80 6,86 -0,80
E_Matematica 55,29 4,48 0,15 32,77 21,78 20,85 -2,93 -1,2
E_BiologiaGeolo 118,64 7,02 0,07 2,28 -4,89 12,92 12,84 -1,77 -2,82
E_FisicoQuimica 74,51 7,73 0,12 11,81 15,30 28,39 14,82 -3,48
E_Biologia 109,94 0,08 -6,98 -8,51 27,99 16,97 -1,15
E_Geografia 91,02 6,43 0,07 10,45 -4,52 11,44 5,08 -7,89 0,29
E_Economia 68,16 4,86 0,08 17,89 3,88 9,34 11,55 -2,01
E_Psicologia 97,07 2,47 0,06 1,69 -13,30 19,20 12,23 8,19 -0,47
E_Historia 51,16 3,06 0,09 19,51 2,59 8,69 18,58 -11,08
E_Quimica 86,66 5,55 0,10 -10,12 2,27 37,17 27,69 2,17 -1,93

Para começar, noto que, com a excepção de Português e Matemática (os dois exames com mais examinados), em todos a variável “Fase” é significativa; e, com poucas excepções (como Fisico-Quimica), é significativa para baixo (e esta tendência é muito mais forte no conjunto das disciplinas). Na verdade, o que suspeito é que a “Fase” é mais um sintoma que uma verdadeira variável explicativa: não é por fazerem o exame na 2ª fase que as notas são piores – são os alunos pior preparados que irão desproporcionadamente à 2ª fase (talvez para terem mais tempo para estudar). Ou seja, se se quiser comparar resultados entre escolas e perceber porque a escola A tem melhores resultados que a B, talvez não seja boa ideia concluir algo estilo “os resultados da B são piores porque mais exames foram na segunda fase”; provavelmente é ao contrário – é por os resultados serem piores que mais exames são feitos na segunda fase.

Como o Tiago Mendes esperava (e também eu), a variável “Sexo” é positiva para Português – ou seja, as raparigas têm melhores notas que os rapazes (e o efeito é mais forte que o efeito oposto em Matemática); confesso que os resultados para História (onde as raparigas tendem a ter menos 1 valor e uma décima que os rapazes) me surpreenderam.

Sinceramente, não percebo a diferença entre os parâmetros estimados para Matemática com os que eu tinha calculado antes (ver a primeira regressão, que tem sensivelmente as mesmas variáveis). Eles são quase idênticos, mas o referente à “escola privada” é mais reduzido (4,48 décimas de valor em vez de 6,07); será consequência de, neste estudo global, eu não ter incluido o “nº de exames” como variável?

Os resultados para todas as disciplinas:

if (document.URL!=”http://ventosueste.blogspot.com/2007/11/anlise-aos-exames-do-secundrio-por.html”){document.write(‘[Ver tudo]‘)}

C Privado poder compra Interno Fase Para Melhoria Para Ingresso Sexo Idade N R2 R2′ F
E_Filosofia 115,93 10,44 -0,40 1.712 0,01 0,01 7,06
E_Portugues 100,35 -9,11 -4,39 10,91 15,77 4,47 -0,89 2.028 0,05 0,05 17,00
E_Psicologia 97,07 2,47 0,06 1,69 -13,30 19,20 12,23 8,19 -0,47 14.508 0,10 0,10 205,12
E_Portugues239 101,92 56,22 46 0,21 0,19 0,92
E_GeomDescritiv 91,83 0,07 -6,63 -4,18 34,59 27,97 -4,81 -0,87 2.392 0,10 0,10 38,40
E_Alemao501 213,34 -24,73 -3,47 478 0,05 0,04 11,84
E_Frances517 98,09 0,13 -9,82 10,26 10,68 471 0,05 0,04 6,13
E_Espanhol547 168,98 -17,09 270 0,04 0,04
E_Ingles550 137,52 -43,53 -5,91 30,31 -0,73 989 0,06 0,06 15,91
E_Biologia 109,94 0,08 -6,98 -8,51 27,99 16,97 -1,15 20.065 0,18 0,18 713,83
E_Fisica 59,08 0,06 14,85 -5,13 12,37 13,50 -4,17 -0,91 3.422 0,15 0,14 82,85
E_Geologia 125,18 0,05 11,88 -13,87 16,11 7,03 -4,49 -1,86 2.960 0,16 0,16 81,34
E_Historia 51,16 3,06 0,09 19,51 2,59 8,69 18,58 -11,08 13.746 0,09 0,09 202,58
E_Portugues639 98,14 3,01 0,02 17,43 4,77 3,80 6,86 -0,80 75.897 0,10 0,10 1.263,72
E_Quimica 86,66 5,55 0,10 -10,12 2,27 37,17 27,69 2,17 -1,93 9.623 0,24 0,24 372,00
E_Alemao701 83,79 0,17 -10,53 31,01 484 0,08 0,07 13,62
E_BiologiaGeolo 118,64 7,02 0,07 2,28 -4,89 12,92 12,84 -1,77 -2,82 54.166 0,06 0,06 401,08
E_Informatica 361,55 10,53 -0,04 -15,94 -14,52 1.429 0,16 0,16 67,81
E_Desenho 125,07 -3,90 0,09 9,28 -0,96 5.643 0,03 0,03 48,48
E_GeometriaDesc 130,26 9,30 0,17 22,37 -13,82 30,72 16,06 -6,14 -4,14 7.955 0,11 0,11 126,93
E_Economia 68,16 4,86 0,08 17,89 3,88 9,34 11,55 -2,01 15.168 0,09 0,09 221,59
E_Filosofia714 105,61 0,12 8,84 -1,78 3.438 0,06 0,06 73,07
E_FisicoQuimica 74,51 7,73 0,12 11,81 15,30 28,39 14,82 -3,48 53.768 0,17 0,17 1.589,50
E_Frances717 300,52 -9,49 25 0,03 0,02
E_Geografia 91,02 6,43 0,07 10,45 -4,52 11,44 5,08 -7,89 0,29 17.768 0,05 0,05 121,32
E_HCArtes 53,24 0,11 14,69 10,03 15,02 6,30 3.250 0,07 0,07 46,31
E_Latim732 238,61 25,36 -25,77 -7,35 489 0,28 0,27 61,94
E_Literatura 133,23 7,93 -15,53 20,98 7,80 -1,38 845 0,09 0,09 17,07
E_Matematica735 66,51 16,10 0,06 10,31 6,81 35,03 18,67 -5,33 -1,57 8.724 0,09 0,09 108,05
E_Espanhol747 130,71 12,34 -15,58 13,99 11,39 150 0,15 0,12 6,30
E_Frances817 134,58 -10,87 14,95 -12,39 17,32 -1,51 973 0,13 0,13 29,05
E_Matematica835 148,57 9,43 0,14 23,01 11,19 5,17 -4,54 8.694 0,14 0,14 230,94
E_Ingles850 117,09 0,14 -18,64 -19,30 31,71 -1,07 1.048 0,09 0,08 12,03
E_Matematica 55,29 4,48 0,15 32,77 21,78 20,85 -2,93 -1,2 65.491 0,19 0,19 2.203,02

A “legenda” para saber a que disciplina corresponde cada exame está no fim deste post.

Análise aos exames do Secundário (mais um post…)

Eu já tinha dado esta série por encerrada, mas pelos vistos isto tornou-se um vicio (podia ser pior…), pelo que vou fazer mais um post.

Agora, decidi calcular uma regressão, não para os exames de Matemática, mas para todos os exames (menos os do estrangeiro e 2 exames que não tinham indicação de idade) – 398.179.

Assim, a cada disciplina (menos “Matemática A/Matemática”, sobre a qual incidiram os anteriores cálculos) atribuí uma variável dummy. Não utilizei a variável “Número de exames” e estive para utilizar uma variável indicativa que o aluno era externo à disciplina mas fez pelo menos um exame como interno a outra (mas a correlação – negativa – com a variável “Interno” era tão grande que decidi ignorá-la).

Como 398.179 linhas não cabem numa folha de Excel (que só tem 65 mil e tal linhas) e como descobri que não tinha o TSP gravado no disco e que a disquete que nos foi distribuida nas aulas de econometria (para aí em 1994) já não estava totalmente legível, o cálculo acabou por ser feito em gretl.

Como havia uma correlação de 0,58 entre “Interno” e “ParaAprovação” e de -0,6 entre “ParaAprovação” e “ParaMelhoria”, optei por deixar a variável “ParaAprovação” de fora.

Resultados:

VARIÁVEL COEFICIENTE ERRO PADRÃO T
const 77,18 0,63 122,54
Privado 5,78 0,19 30,42
poder_compra 0,08 0,00 60,15
Interno 14,27 0,14 104,30
Fase -1,04 0,13 -7,81
ParaMelhoria 20,02 0,16 122,50
ParaIngresso 11,77 0,33 35,72
Sexo 0,45 0,12 3,74
Idade -0,88 0,02 -36,68
E_Filosofia 27,41 0,90 30,36
E_Latim -15,22 4,85 -3,14
E_Portugues 11,04 0,83 13,32
E_Psicologia 11,40 0,34 33,36
E_Portugues239 26,59 5,40 4,93
E_Frances317 -0,12 16,36 -0,01
E_GeomDescritiv 22,71 0,76 29,70
E_Ingles450 80,71 25,86 3,12
E_Alemao501 37,99 1,68 22,61
E_Frances517 34,82 1,69 20,57
E_Espanhol547 61,24 2,23 27,44
E_Ingles550 62,56 1,17 53,24
E_Biologia 16,19 0,30 53,67
E_Fisica -26,97 0,64 -41,92
E_Geologia 0,32 0,69 0,47
E_Historia -3,53 0,34 -10,23
E_Portugues639 13,53 0,20 68,91
E_Quimica 5,81 0,40 14,45
E_Alemao701 26,40 1,67 15,81
E_BiologiaGeolo -8,74 0,22 -40,31
E_Informatica 12,19 1,03 11,84
E_Desenho 28,87 0,51 56,81
E_GeometriaDesc -1,37 0,44 -3,14
E_Economia 12,67 0,33 38,21
E_Filosofia714 16,98 0,65 26,19
E_FisicoQuimica -14,96 0,22 -69,14
E_Frances717 40,66 7,32 5,55
E_Geografia 13,23 0,31 42,49
E_HCArtes 2,58 0,66 3,92
E_Latim732 12,58 1,66 7,57
E_Literatura 9,98 1,27 7,88
E_Matematica735 -8,75 0,42 -20,77
E_Espanhol747 47,98 2,99 16,04
E_Frances817 10,66 1,18 9,02
E_Matematica835 17,36 0,42 41,24
E_Ingles850 38,62 1,14 33,82

Média da variável dependente = 97,0871
Desvio padrão da variável dependente = 39,859
Soma dos resíduos quadrados = 5,32535e+008
Erro padrão dos resíduos = 36,5729
R-quadrado não-ajustado = 0,158181
R-quadrado ajustado = 0,158088
Estatística-F (44, 398134) = 1700,24

[Os valor referentes a “E_Frances317” – “Francês (iniciação -bienal)” – e “E_Geologia” não são significativos estatisticamente, mas inclui-os à mesma]

Comparando com os resultados apurados só para Matemática, temos que:

– O efeito da escola privada mantêm-se sensivelmente o mesmo: cerca de 6 décimas de valor

– O efeito do poder de compra concelhio reduz-se para cerca de metade (regressando ao exemplo de Portimão e Monchique, a diferença passaria a ser cerca de meio valor)

– O efeito da idade reduziu-se um bocadinho

– Como eu já esperava, o factor “Sexo” mudou de sinal: agora são as raparigas que tendem a ter mais 5 centésimas de valor que os rapazes

– No factor “Interno” parece ter havido uma alteração: em vez de mais 3 valores e 8 décimas, neste cálculo os alunos internos tendem a ter apenas mais 1 valor e 4 décimas; no entanto, como eu suprimi a variável “ParaAprovação” (que originava uma descida de 2 valores e 2 décimas) e muitos “Internos” também são “ParaAprovação” e vice-versa (foi exactamente por isso que suprimi a variável), provavelmente reside aí a diferença

Para uma análise por disciplina:

if (document.URL!=”http://ventosueste.blogspot.com/2007/11/anlise-aos-exames-do-secundria-mais-um.html”){document.write(‘[Ver tudo]‘)}

Variável coeciente Descrição Anos
E_Ingles450 80,71 Inglês (iniciação -bienal) 12.º
E_Ingles550 62,56 Inglês (continuação -bienal) 12.º
E_Espanhol547 61,24 Espanhol (iniciação -bienal) 12.º
E_Espanhol747 47,98 Espanhol (iniciação -trienal) 12.º
E_Frances717 40,66 Francês (iniciação -trienal) 12.º
E_Ingles850 38,62 Inglês (continuação -trienal) 12.º
E_Alemao501 37,99 Alemão (iniciação -bienal) 12.º
E_Frances517 34,82 Francês (continuação -bienal) 12.º
E_Desenho 28,87 Desenho A 12.º
E_Filosofia 27,41 Filosofia 12.º
E_Portugues239 26,59 Português / Português B 12.º
E_Alemao701 26,40 Alemão (iniciação -trienal) 12.º
E_GeomDescritiv 22,71 Desenho e Geometria Descritiva A 12.º
E_Matematica835 17,36 Matemática Aplic. às Ciências Soc. 11.º
E_Filosofia714 16,98 Filosofia 11.º
E_Biologia 16,19 Biologia 12.º
E_Portugues639 13,53 Português / Português B 12.º
E_Geografia 13,23 Geografia A / Geografia 11.º
E_Economia 12,67 Economia A / Introdução à Economia 11.º
E_Latim732 12,58 Latim A 11.º
E_Informatica 12,19 Aplicações Informáticas B 12.º
E_Psicologia 11,40 Psicologia 12.º
E_Portugues 11,04 Português A 12.º
E_Frances817 10,66 Francês (continuação -trienal) 12.º
E_Literatura 9,98 Literatura Portuguesa 11.º
E_Quimica 5,81 Química 12.º
E_HCArtes 2,58 História da Cultura e das Artes 12.º
E_Geologia 0,32 Geologia 12.º
(sem variável) 0,00 Matemática A / Matemática 12.º
E_Frances317 -0,12 Francês (iniciação -bienal) 12.º
E_GeometriaDesc -1,37 Geometria Descritiva A 11.º
E_Historia -3,53 História A / História B / História 12.º
E_BiologiaGeolo -8,74 Biologia e Geologia 11.º
E_Matematica735 -8,75 Matemática B 12.º
E_FisicoQuimica -14,96 Física e Química A 11.º
E_Latim -15,22 Latim 12.º
E_Fisica -26,97 Física 12.º

O coeciente indica a diferença esperada entre um exame nessa disciplina e um exame de “Matemática A / Matemática”, se tudo o resto se mantivesse igual.

Concluo que as melhores notas são a línguas (a mim eram as piores – cheguei a ter um 20 a Francês, mas foi numa escala de 100), excluindo o Latim (o exame de “Desenho e Geometria Descritiva” do 12º também tem bons resultados – seria a esse que o Tarique se referia?)

Notas a este cálculo:

– Talvez calcular uma única regressão para todas as disciplinas não seja muito correcto: é possível que o efeito das várias variáveis seja diferente de disciplina para disciplina (não me admirava nada que isso acontecesse com a variável “Sexo”)

– Talvez também não seja boa ideia por, à mistura, exames a disciplinas do 11º e do 12º ano (mas penso que diferenças entre os anos aparecerão como diferenças entres as disciplinas, não afectando o essencial do resultado)

– Não é de se excluir a hipótese de, ao passar os valores de um lado para outro e/ou ao transformar os “N/S” em “0/1” eu tenha trocado alguma coisa e isto esteja tudo mal, mas acho que não

Os dados que usei para calcular a regressão estão aqui, num ficheiro zip de 2,5 MB (deszipado são cerca de 47 MB).

Exames do Secundário

Para os leitores que venham cá à procura da análise ao exames do 12º ano de matemática, o post com as conclusões principais é este (clicando na etiqueta “rankings e análise”, têm todos os posts sobre o assunto) – vejam também o post do Tiago Mendes, que faz algumas observações aos meus posts.

Continuando a análise

Resultado:

N 55.667
R2 0,14
F 1.137,49
variável: desvio t
Nº de exames 0,01 0,00 5,89
poder compra 0,12 0,00 23,45
Sexo -1,23 0,30 -4,06
ParaIngresso 12,14 0,99 12,29
ParaAprov -20,29 0,35 -58,16
Interno 24,65 0,36 69,33
PubPriv 2,92 0,49 5,92
Idade -1,95 0,08 -23,81
C 103,87 1,99 52,30

Comparando com o resultado a que cheguei lá atrás, temos que:

– A influencia da variável “poder de compra concelhio” diminui um bocadinho – de 0,16 para 0,12

– A influencia da variável “Para Ingresso” também diminui – de 17,37 para 12,14

– A influencia da variável “Interno” diminui bastante – de 38,21 para 24,65

– A influencia da variável “Publico/Privado” (contra o que eu esperava pela análise dos percentis) também diminui – de 5,9 para 2,92

Mas, sinceramente, não sei se esta regressão (com 15% das observações excluidas) terá grande valor.

Agora estou assustado

No post sobre as escolas secundárias de Portimão, escrevi «Outra coisa que reparo é que, embora a diferença entre as escolas seja parecida com o previsto pelo modelo, ambas têm, em valor absoluto, notas inferiores ao previsto. Haverá algum factor comum a Portimão que faça baixar as notas (se calhar algo “a partir do meio de Maio já não apetece ir às aulas”)?».

Mais a brincar do que a sério, fui experimentar essa variável (a escola ser no Algarve) e não é que a variável é significativa e negativa? Ou seja, há mesmo um efeito de, sendo tudo o resto igual, um exame feito no Algarve tende a ter menos um valor (numa escala de 20) do que um feito noutra parte do pais:

N 65.491
R2 0,20
F 1.800,5
variável: desvio t
Algarve -9,57 0,94 -10,19
Nº de exames 0,01 0,00 7,43
poder compra 0,17 0,01 31,32
Sexo -1,72 0,33 -5,15
ParaIngresso 17,25 1,04 16,56
ParaAprov -21,90 0,39 -56,03
Interno 38,35 0,38 100,96
PubPriv (a) 5,37 0,55 9,82
Idade -2,32 0,08 -28,05
C 90,32 2,04 44,18

Análise às notas do Exame-de-Matemática-do-12º-ano em 2007 (III)

Estive a fazer alguns exercícios para testar a possibilidade das notas médias do ensino privado serem inflacionadas, ou por os potenciais piores alunos serem excluidos (como sugere o Tiago Mendes), ou por não irem a exame (como refere o Tarique e também eu).
No entanto, em termos globais, não vejo nada que indique assim: por exemplo, uma experiência que fiz foi dividir os exames em dois grupos, um com os melhores 50% de cada escola, e outro com os piores 50%, e re-calcular a regressão para cada um deles – se efectivamente houvesse uma ausência desproporcionada de “maus alunos” no ensino privado (nem que seja só no dia dos exames), era de esperar que, na regressão dos”50% piores” o coeficiente da variável “PubPriv” fosse mais elevado (já que os 50% piores alunos do privado seriam muito melhores que os “50% piores” do público). No entanto, isso não se verifica – o coeficiente até é ligeiramente maior nos “50% melhores”.

Uma análise à nota média em cada percentil também não parece indicar grandes irregularidades:

Na verdade, até é a na “metade de cima” que os alunos das escolas privadas se saem melhor (diga-se que em Matemática a diferença de valores brutos entre o privado e o público não é de 0,7, como no global, mas de 1,1).

Por outro lado, só por este gráfico, não se pode rejeitar automaticamente a ideia que as escolas privadas afastam os piores alunos – se efectivamente as privadas “escolherem” os “melhores” alunos, mas se existir uma diferença de notas entre as várias privadas maior que a diferença entre as públicas, isso pode anular (ou reduzir bastante) a diferença entre as “piores” alunos de cada sector.

Ando a pensar numa estatística, calculável com os dados disponíveis, que permita, para cada escola, avaliar a possibilidade de ela excluir os maus alunos (da escola ou do exame) – a percentagem de alunos com nota inferior à nota média da escola será um bom indicador (dá-me a impressão que, numa escola “excluidora” esse valor tenderá a ser mais alto)?

Análise às notas do Exame-de-Matematica-do-12º-ano em 2007 (II)

O Tiago Mendes também sugere:

“a eliminação das melhores notas poderia também ser interessante, ao “alisar” um pouco a tua base de dados, tirando os outliers no topo e na base. Nas escolas públicas haverá certamente notas estratosféricas a matemática, mas espera-se, pelas médias observadas, uma desproporção dessas notas de topo nas privadas. Repito que a justificação essencial para isto não se baseia no facto de elas serem um outlier, mas no facto de haver uma assimetria no poder de selecção dos melhores alunos entre as escolas privadas e públicas.”

Efectivamente, 1,5% dos exames das privadas têm notas iguais ou superiores a 19,7, contra 0,94% nas públicas (1% no conjunto dos exames). No entanto, excluir essas notas (junto com os menores que 1) do cálculo não me parece ter grandes consequências:

R2 0,19
F 1904,92
variável: desvio t
Nº de exames 0,01 0,00 7,51
poder compra 0,16 0,01 29,67
Sexo -1,76 0,33 -5,39
ParaIngresso 16,12 1,02 15,73
ParaAprov -22,37 0,38 -58,53
Interno 36,14 0,37 97,05
PubPriv (a) 5,45 0,53 10,21
Idade -2,26 0,08 -27,70
C 92,92 2,01 46,12

A única consequência que noto nesta regressão e na outra é que a exclusão dos valores extremos diminui alguma coisa o coeficiente da variável “Interno”, ou seja, que provavelmente haverá um peso muito desproporcionado de “externos” nos zeros e uns e de “internos” nos dezanoves e vintes.

Ainda a respeito de sugestões, o Lidador/José Carmo sugere correr sobre os dados um algoritmo de data mining, mas tenho que confessar que nem sei bem o que é isso.

Análise às notas do Exame-de-Matematica-do-12º-ano em 2007

O Tiago Mendes faz algumas sugestões:

“A variabilidade nos resultados de Matemática (infelizmente ainda não consegui abrir a base de dados), onde existem imensos “zeros” convida, quanto a mim, a fazer dois exercícios: um com os dados totais, outro excluindo estes outliers. Acho que era interessante veres a diferença que resulta desta escolha simples de eliminar os “zeros” (e eventualmente outras notas – sendo que é impossível não escolher uma linha de demarcação de certo modo arbitrária). Repara que isto pode mudar muito um dos coeficientes mais importantes na tua benvinda análise: aquele que indica o efeito parcial do ensino público/privado. É que, como é previsível (ou talvez não tanto assim, como disse não vi os dados, e sei que há muitas escolas privadas no fim da tabela), o facto de muitas escolas privadas terem algum poder de selecção sobre os seus alunos faz com que o número de “zeros” nas privadas seja, previsivelmente, bastante menor. Por outras palavras, aqueles que não nasceram para a Matemática estão mais que desproporcionalmente no ensino público e não tens nenhuma variável que controle isso.”

Excluindo os “zeros” (129 exames em 65.491), os resultados são estes:

R2 0,20
F 1984,19
variável: desvio t
Nº de exames 0,01 0,00 8,22
poder compra 0,16 0,01 30,24
Sexo -1,72 0,33 -5,16
ParaIngresso 17,21 1,04 16,50
ParaAprov -22,00 0,39 -56,30
Interno 37,90 0,38 99,79
PubPriv 5,85 0,54 10,75
Idade -2,32 0,08 -27,93
C 91,03 2,05 44,42

Se excluirmos todos os exames com menos de 10 (numa escala de 0 a 200), o que representa 594 exames, os resultados são estes:

R2 0,19
F 1904,45
variável: desvio t
Nº de exames 0,01 0,00 8,01
poder compra 0,16 0,01 29,92
Sexo -1,63 0,33 -4,89
ParaIngresso 16,96 1,05 16,20
ParaAprov -21,94 0,39 -56,24
Interno 37,00 0,38 97,31
PubPriv (a) 5,74 0,54 10,59
Idade -2,30 0,08 -27,64
C 92,21 2,06 44,86

Diga-se que há uma diferença qualitativa entre excluir os “zeros” e excluir também os 0,1 (numa escala até 20), 0,2 e afins: em principio, o aluno que vai ao exame, olha e desiste (e não sei se os dados também incluem os que nem aparecem lá) tem 0, não tem 0,1 nem 0,2.

Mas, de qualquer forma, parece-me que excluir os zeros ou todos os com menos que 1/20 não afecta de forma visível o resultado anterior.

[Espero que nenhum leitor que venha da Atlantico pelos links do TM se assuste com o post anterior]

Análise às…. – "Escola" vs. "Liceu"

Agora, seguindo a sugestão do Tarique, vou tentar analisar os resultados da Escola Secundária Poeta António Aleixo (a.k.a. “o Liceu”) e da Escola Secundária Manuel Teixeira Gomes (a.k.a. “a Escola”), e tentar perceber porque a primeira tem melhores resultados nos rankings divulgados do que a segunda

Vou fazer duas análises: uma puramente aritmética, com base nos números divulgados, e outra empírica, já que frequentei as duas (ESPAA: 1985-88; ESMTG: 1988-91).

Vamos à primeira:

Limitando-nos apenas ao exame de Matemática (que é o que eu estive a analisar), vemos que a média da ESPAA é de 100,74 e a da ESMTG é de 91,40 (valores de 0 a 200); numa escala de 20 valores temos que a ESPAA tem mais cerca de 9 décimas.

Agora vamos ver isso à luz da fórmula calculada abaixo:

– A ESPAA realizou mais 66 exames que a ESMTG; de acordo com a regra “cada 100 exames, mais uma décima de valor”, temos mais 0,7 décimas de valor (na verdade, mais 0,84 décimas, devido a arredondamentos)

– Os examinados da ESPAA são, em média, 6 meses e meio mais novos; como cada ano adicional de idade tem um efeito de menos 2,33 décimas de valor, temos mais 1,28 décimas de valor

– 53% dos exames na ESPAA foram de raparigas, contra 44% na ESMTG; como as raparigas tendem a ter, em Matemática, menos 1,74 décimas de valor que os rapazes, uma diferença de 9 pontos percentuais originaria uma diferença de 0,16 décimas de valor, a favor da ESMTG

– 98% dos exames na ESPAA foram para ingresso no ensino superior, contra 93% na ESMTG; os exames para ingresso tendem a ter mais 17,37 décimas de valor, logo uma diferença de 5 pontos percentuais originaria uma diferença de cerca de 0,9 décimas de valor

– 74% dos exames na ESPAA foram para aprovação, contra 71% na ESMTG; os exames para aprovação tendem a ter -21,93 décimas de valor, logo uma diferença de 3 pontos percentuais originaria uma diferença de 0,7 décimas de valor, a favor da ESMTG

– 79% dos exames na ESPAA foram de alunos internos, contra 65% na ESMTG; os exames de internos tendem a ter mais 38,21 décimas de valor, logo uma diferença de 14 pontos percentuais originaria uma diferença de 5 décimas de valor

Assim, somando estes valores todos (não esquecer que dois são de sinal negativo) seria de esperar que a ESPAA tivesse mais 7 décimas que a ESMTG; como tem mais 9 décimas, a minha fórmula explica 78% da diferença; e mais concretamente, a diferença entre as percentagens de alunos internos nas duas escolas explica 56% da diferença.

Esta foi a análise “cientifica”; agora vamos à análise empírica.

Começo logo por esclarecer que esta análise empírica tem um grande problema: é dos anos 80, quando ambas as escolas tinham 3º ciclo (o primeiro ano de funcionamento da EB 23 Prof José Buisel, à época simplesmente chamada “C+S”, foi quando estava no 12º ano) e quando os alunos de Economia e de Engenharia iam, no 10º, para a Teixeira Gomes, e creio que os de Humanísticas para a António Aleixo (penso que esta divisão por áreas já não existe, ou pelo menos foi alterada).

Diferenças:

Os professores da António Aleixo (ou, pelo menos algumas “figuras” da escola) tinham fama de serem mais exigentes que os da Teixeira Gomes, o que pode subir as notas de duas maneiras – o “bom efeito” é que levará, em principio, os alunos a se aplicarem mais; o “mau efeito” é que, como muitos alunos menos bons nem chegarão a ir a exame, isso fará subir artificialmente a média. No entanto, segundo a SIC [pdf], a diferença entre a classificação interna e a classificação no exame até é menor na Teixeira Gomes (2,86) do que na António Aleixo (3,07), o que quer dizer que essa fama de “exigência” é coisa do passado.

A nivel de composição social, não sei se a Teixeira Gomes não seria mais “operária” (via Pedra Mourinha/Vale Lagar, Aldeia Nova, Boavista, Coca Maravilhas, Cardosas, zona velha…) e “camponesa” (via Mexilhoeira Grande, Senhora do Verde, Monchique…) do que a António Aleixo (que, na franja “proletária”, só tinha o Bairro Pontal e arredores e alguns alunos vindos do outro lado do Arade). E, se considerarmos que, nos anos 80, a proporção de “metálicos” poderia ser considerada uma boa proxy para a proporção de alunos da classe operária, aí a Teixeira Gomes ganhava de certeza (já na António Aleixo, penso que a sub-cultura mais visível seriam os “vanguardas”). Essa diferente composição social pode (ou poderia) ter efeitos nas notas.

Por outro lado, realmente há quem diga que, na época, a António Aleixo tinha mais ambiente de “destroxo”, mas creio que esse “destroxo” era, essencialmente, um “destroxo festivo” de classe média, não um “destroxo” sério. Além disso, acho que essa percepção era ampliada por três factores: a estrutura física da Antonio Aleixo favorece mais um ambiente de “tudo ao molho” (com o que isso tem de bom e de mau), enquanto a estrutura física da Teixeira Gomes favorece mais um agrupamento por grupos de afinidade (com o que isso tem de bom e de mau); as paredes da António Aleixo estavam muito mais grafitadas que as da Teixeira Gomes; e o ponto de encontro do “pessoal da pesada” (o pátio da frente, junto à estátua) era muito mais visível que o lugar equivalente na Teixeira Gomes (as traseiras do Pavilhão B).

Se eu fosse caracterizar as duas escolas com a terminologia “high school USA”, diria que a António Aleixo era um lugar de “cools” e a Teixeira Gomes uma mistura de “freaks” e “geeks” (em termos de notas, os freaks e geeks anulam-se, pelo que estas diferenças de “estilos de vida” não deveriam afectar muito as notas médias).

P.S. no caso de Matemática, não nego que a diferença nas notas possa também ser influenciada por diferenças na qualidade do corpo docente (sem entrar em detalhes para não ferir susceptibilidades…), mas acho que já não será o caso para as outras disciplinas. Outra coisa que reparo é que, embora a diferença entre as escolas seja parecida com o previsto pelo modelo, ambas têm, em valor absoluto, notas inferiores ao previsto. Haverá algum factor comum a Portimão que faça baixar as notas (se calhar algo “a partir do meio de Maio já não apetece ir às aulas”)?

Análise às notas dos exames do Secundário (XII)

[Já começam a ficar fartos?]

Vamos recapitular os resultados estimados aqui em baixo:

  • Cada 100 exames realizados na escola fazem a classificações serem 1 décima de valor mais alta
  • Como anteriormente, cada 100 unidades de poder de compra representam cerca de 1 valor e meio a mais nas classificações (para termos uma referência, Portimão tem 124,36 unidade de poder de compra e Monchique 56,22; assim, se Monchique tivesse secundário, essa diferença de poder de compra originaria uma diferença de pouco mais de 1 valor)
  • Cada ano adicional de idade representa menos 2-3 décimas de valor
  • As raparigas tendem a ter menos 1,75 décimas que os rapazes (recorde-se que estou a analisar o exame de Matemática)
  • Os exames para ingresso no Ensino Superior tendem a ter mais 1 valor e 7 décimas
  • Os exames para aprovação tendem a ter menos 2 valor e 2 décimas
  • Os exames de alunos internos tendem a ter mais 3 valores e 8 décimas (agora um mea culpa: além da variável “aluno interno”, a base de dados do ME tem também a variável “aluno interno a pelos menos uma disciplina”; quando passei os dados para a folha de cálculo, ignorei essa variável que talvez podesse ser relevante)
  • Os exames das escolas privadas tendem a ter mais 6 décimas de valor
  • A fase em que foi feito o exame não parece ter importância

Comparada com as dos posts anteriores, esta regressão parece-me mais confiável, na medida em que tem menos resultados contra-intuitivos:

– Variáveis que é de esperar que tenham pouca influência (nº de exames, fase a que os alunos foram a exame) têm efectivamente pouca ou nenhuma importância

– Variáveis como “Idade” e “Sexo” têm alguma importância mas não tanta como “Publico/Privado”, “Interno”, “poder de compra concelhio”, etc. De novo, parecem-me resultados “normais”

Efectivamente, esta última regressão têm um R2 de 0,2, enquanto nas anteriores andava por 0,3. Mas convêm lembrar que esta equação pretende “prever” os resultados dos exames individuais, não a média da escola – como é óbvio, a dispersão de valores nos exames é maior, logo também o será a margem de erro da regressão (portanto, mais baixo será o R2 – noto que um R2 de 1 corresponderia a uma situação em que os resultados fossem fielmente explicados pela fórmula, sem desvios nenhum).

No entanto, aplicando esta fórmula aos dados médios de cada escola (e não a cada exame individual) e comparando o resultado com o valor real, temos uma correlação de 0,46, o que não me parece muito mau.

Como é óbvio, mantêm-se as observações que fiz mais abaixo:

De qualquer forma, há variáveis que não foram contabilizadas (já que eu não as tinha à mão) e poderiam ser úteis: habilitações dos pais dos alunos (ou, quanto muito, o nível médio de habilitações dos pais dos alunos dessa escola, mesmo que não necessariamente dos alunos que foram a exame), percentagem de alunos que foram a exame, percentagem de alunos por escola beneficiários da Acção Social Escolar, etc; talvez fosse também boa ideia ter usado duas variáveis distintas para as escolas privadas: uma para as privadas em regime “liberal” e outra para as privadas com contrato de associação.” (Gasel também apresenta mais algumas sugestões).

Eu pus os dados que recolhi e utilizei (acerca dos exames, das escolas e da caracterização dos concelhos) numa folha de excel zipada aqui (aviso que, deszipada, são 14 MB).

Quanta à analise das diferenças entre a “Escola” e o “Liceu”, fica para amanhã…