Normativa autonómica y solicitudes de patente

Introducción

Se comenta un artículo que estudia la relación entre el número de leyes autonómicas y una serie de cosas, entre ellas el número de solicitudes de patente presentadas en esa autonomía. El estudio estima que un aumento del 100% en el número de normas de las Comunidades Autónomas se ha de asociar con una reducción anual del 80% en el número de solicitudes de patente.

El artículo ha tenido cierta repercursión en medios económicos (por ejemplo, en el blog Nada es Gratis de Fedea) e incluso ha terminado como nota en el documento de los servicios de la Comisión que acompaña a la evaluación del Consejo sobre el Programa Nacional de Reformas de España. Los autores son Francisco Marcos y Juan Santaló, ambos profesores del Instituto de Empresa.

Esta entrada tiene una primera parte en la que se intenta explicar el modelo matemático empleado en el artículo para determinar la relación entre el número de leyes y el número de patentes y una segunda parte en la que se comentan ciertos aspectos, algunos de los cuales quizás deberían haberse tenido en cuenta y podrían haber mejorado la calidad del análisis.

Vaya por delante que no soy precisamente experto en estadística y no he estudiado nunca econometría. Por tanto, lo que lean más abajo puede estar plagado de errores conceptuales y de interpretación. Si los advierten, hagánmelo saber en los comentarios.

Modelo matemático

La variable dependiente (P) es el número de solicitudes de patentes presentadas en una Comunidad Autónoma en un año comprendido entre 1990 y 2006.

Se consideran 4 variables independientes distintas:

Número acumulado de páginas (N). En un año dado, número de paginas impresas en el Aranzadi que ocupa la legislación y la regulación autonómica publicada desde 1988 hasta ese año.

Número acumulado de páginas por competencia transferida (N*). El número anterior dividido por el número de competencias transferidas.

Número acumulado de leyes autonómicas (L). En un año dado, número de leyes autonómicas aprobadas desde 1988 hasta ese año.

Número acumulado de leyes autonómicas por competencia transferida (L*). El número anterior dividido por el número de competencias transferidas.

Se consideran 3 variables de control: población (POB), PIB y gasto público autonómico (GPA). Las variables de control también tienen a priori un efecto en la variable dependiente y hay que controlarlas para determinar cual es realmente la influencia de la variable independiente.

Para cada variable independiente (N, N*,L, L*) los autores realizan una regresión lineal multivariable en la que la variable dependiente (P)  se intenta explicar como una relación entre dicha variable independiente (N, N*,L, L*) y las variables de control. En otras palabras:

Regresión 1: P = P (N, POB, PIB, GPA)

Regresión 2: P = P (N*, POB, PIB, GPA)

Regresión 3: P = P (L, POB, PIB, GPA)

Regresión 4: P = P (L*, POB, PIB, GPA)

El modelo de regresión más conocido es el que supone una relación lineal entre las variables independientes. Por ejemplo (para la regresión 3):

CodeCogsEqn(1)

K y los coeficientes de las variables se determinan como resultado de la regresión, minimizando el error del ajuste.

Sin embargo, los autores se decantan por una función que define la variable independiente como producto de las variables dependientes, es decir (para la regresión 3) CodeCogsEqn

Este tipo de función se usa por ejemplo para modelar el PIB (función de producción de Cobb-Douglas). Con esta función, aunque la relación entre las variables no es lineal, los logaritmos de las variables sí que están relacionados linealmente:

CodeCogsEqn(2)

El software que calcula las regresiones escupe los coeficientes y una serie de parámetros que nos sirven para interpretarlos.

Regresión

Coeficientes. Intuitivamente, cuanto mayor en valor absoluto sea el coeficiente de una variable independiente, mayor impacto en la variación de la variable dependiente tendrán variaciones de esa variable independiente. Si es coeficiente es positivo (negativo), la variación de esa variable independiente producirán aumento (disminución) de la variable dependiente.

Matemáticamente, diferenciando en:

CodeCogsEqn

tenemos:

CodeCogsEqn(3)

CodeCogsEqn(4)

CodeCogsEqn(5)

Entonces, si suponemos (1) una variación infinitesimal (mu pequeña)  de una sola de las variables independientes (por ejemplo L) y que (2) las demás variables independientes no varían, entonces :

CodeCogsEqn(6)

Y en esas condiciones (1) y (2), efectivamente, el coeficiente se puede interpretar como la elasticidad: porcentaje de variación de P  (dP/P) dividido por el porcentaje de variación de L (dL/L). Pero ojo, variaciones infinitesimales (o al menos pequeñas, por ejemplo del 1% , pero ¡no del 100%, oiga!)

Sea un elefante puntual de masa despreciable….

Veámoslo con un ejemplo. Suponiendo que sólo varía L y sustituyendo el coeficiente (-0,79) calculado en la regresión R3 tenemos :

CodeCogsEqn

Donde Po es una constante. Calculemos P, dP y dL  y el multiplicador suponiendo distintos valores de L

deltas

Como vemos en la última columna, cuanto mayor es el incremento de L, mayor es el error que se comete asumiendo que la elasticidad es -0,79 (mayor es la diferencia con respecto a -0,79)

Error típico. El error típico es una estimación de la desviación típica del coeficiente. Cuanto mayor sea, menor seguridad tendremos de que el valor real del coeficiente sea próximo al estimado. En este sentido, el error típico se tiene en cuenta para construir los llamados intervalos de confianza en el que se encontrara el valor real del coeficiente con un determinado nivel de confianza.  Suponiendo que el coeficiente sigue una distribución normal, el valor real del coeficiente estará, para un nivel de confianza del 95% en un intervalo centrado en el valor estimado por el modelo para el coeficiente y de amplitud aproximádamente 1,96×2 veces el error típico. Por ejemplo, para el valor -0,79 del coeficiente y su error típico de 0,25:

(-0,79-1,96*0,25, -0,79+1,96*0,25) = (-1,28, -0,30)

Con un 95% de confianza el valor del coeficiente estará en el intervalo (-1,24, -0,34), siendo -0,79 la mejor estimación.

De manera similar, para un nivel de confianza del 99%, el intervalo de confianza será:

(-0,79-2.57*0,25, -0,79+2,57*0,25) = (-1,43, -0,15)

Los valores que marcan la amplitud del intervalo de confianza para un determinado nivel de confianza (por ejemplo, 1,96 para el 95%) vienen determinados por esta simpática función.

Asteriscos. A lo bruto, cuantos más asteríscos tenga un coeficiente, mayor será la seguridad de que su valor real es distinto de cero. De manera un poco más precisa, si el intervalo de confianza correspondiente al 90% no contiene el cero podremos decir que el valor real del coeficiente es distinto de cero con un nivel de significación del 0.1 (*). Igual razonamiento para los intervalos de confianza del 95% o 99% (asociados respectivamente a niveles de significación del 0.05 (**) y 0.01 (***)). Si no se alcanza el nivel de significación del 0.1 no hay asteriscos.

Así, por ejemplo, vemos que para la regresión 3 (la del número de leyes) tanto el coeficiente asociado al número de leyes (L) como al de gasto público autonómico (GPA) se ganan sus tres asteríscos. Sin embargo, los coeficientes del PIB y de la población no se ganan ningún asterísco (y por tanto quizás no son variables representativas y se podrían eliminar del modelo de regresión)

En la regresión 4 (la del número de leyes por competencia transferida) el coeficiente asociado a L* se gana 2 asteríscos y la del GPA sólo 1. De nuevo, los coeficientes del PIB y de la población no son significativos ni al 0.1.

asteriscosBondad del ajuste. El coeficiente de determinación (R^2) nos dice como de bien se ajusta el modelo a la “nube de puntos” (un valor de 1 indica “ajuste lineal perfecto” y un valor nulo indicaría que no hay relación lineal entre las variables. En este caso, es 0,96 que supongo que está bastante bien, pero teniendo muchas constantes con las que ajustar la regresión tampoco parece que tenga especial mérito. Dicho con otras palabras, cuantas más variables usemos mejor podremos ajustar la función a la “nube de puntos”, aunque estas variables no tengan mucho que ver con lo que queremos modelar (como hemos visto con el PIB y la población antes).

Observaciones. 323 es igual a 17 por 19. La serie 1990-2006 se corresponde con 17 años, por lo que intuyo que en los datos están incluidas las 17 Comunidades Autónomas, Ceuta y Melilla.

Comentarios

Serie utilizada

patentesEl gráfico representa el número de patentes solicitadas en España ante la OEPM entre los años 1986 y 2007. Puede obtenerse de la base de datos de OMPI. Se advierten claramente 3 fases:

(1) hasta 1986, niveles de solicitudes en torno a 10.000

(2) en 1986, caída brusca, que se suaviza entre 1987 y 1992, llegando a un mínimo en 1992 con menos de 3000 patentes.

3) desde 1992 ligera tendencia ascendente, llegando a superar el nivel de las 3000 solicitudes al final de la serie.

En 1986, con el acceso al mercado común, España entró en el Convenio de la Patente Europea. La caída se corresponde con el hecho de que a partir de 1986 los solicitantes extranjeros ya no tenían que solicitar patente ante la OEPM para obtener protección en España, eligiendo solicitar una patente europea y validándola posteriormente para obtener protección en España.

La entrada en la patente europea incluyó un régimen transitorio, que acabó en 1992, durante el que se pudo obtener patentes en España sin informe sobre el estado de la técnica (procedimiento de simple registro). Se corresponden con solicitudes presentadas hasta 1992, identificadas con el tipo de documento A6.  Todavía en 2008 se publicó alguna (ejemplo).

El artículo considera la serie 1990-2006. Se debería haber empleado la serie 1992-2006 para eliminar los efectos provocados por la entrada en la patente europea, que nada tienen que ver con la legislación autonómica.

Supongo que se podrá argumentar que, dado que la entrada de la patente europea afectó a todas las Comunidades Autónomas por igual, la serie 1990-2006 está requetebien. El modelo se supone que explica la variación del número de solicitudes bastante bien en esa serie (R^2= 0,96), pero ¿qué pasaría si metemos datos de 1985? ¿Se acercaría la predicción del modelo a los datos reales? Me temo que no. En otras palabras, la entrada de España en la patente europea desencadenó una perturbación en la serie histórica de solicitudes de patente. Cuanto más nos alejemos de esa perturbación, mejores resultados obtendremos de un ajuste por regresión.

Efecto de la legislación estatal y comunitaria

De igual forma se podría argumentar que el nivel de legislación comunitaria o estatal no influye porque afecta a todas las Comunidades Autónomas por igual. Recordemos que aunque afecten a todas las CCAA por igual su nivel varía cada año, por lo que quizás hubieran sido unas adecuadas variables de control.

Variaciones infinitesimales del 100%

Como se ha comentado arriba, interpretar las elasticidades del modelo con variaciones del 100% en la variable independiente lleva a lecturas un poco raritas. Por ejemplo, en el artículo se afirma que un aumento del 100% en el número de normas autonómicas se asocia con una reducción de hasta el 112% de las solicitudes de diseños industriales. ¿Del 112%? ¿Solicitudes negativas de diseños?

Show me the data

No hubiera estado de más que el artículo mostrara los datos de las variables (independiente, dependientes y de control) que se han manejado para hacer la regresión. De esa manera se podrían interpretar mejor los resultados.

Carácter acumulativo de la legislación

Cada año la legislación que se considera es la acumulada hasta ese año (parece que independientemente de si está derogada o no). Eso supone que la legislación será una función creciente con el tiempo. Dada la forma de la gráfica del número de patentes solicitadas (el nivel inicial de 1990 sólo es superado en el último año 2006, con un mínimo en 1992) intuyo que se podrían encontrar otras variables que sean estríctamente crecientes con el tiempo (por ejemplo, número de alumnos matriculados en las universidades o escuelas de negocio de la Comunidad Autónoma) y que presentarán una relación negativa con la serie del número de patentes.  Y es que, señoras y señores,….

Correlation is not causation

Los autores son conscientes de ello, pero no está de más recordarlo. El hecho de que exista una relación funcional más o menos exacta entre dos variables no significa que una sea causa de la otra.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s