Hace unos meses conocíamos la noticia de la demostración de la conjetura débil de Goldbach por parte de Harald Andrés Helfgott, matemático peruano especialista en teoría de números que en la actualidad es investigador del Centre National de la Recherche Scientifique (CNRS) de Francia. Aquí tenéis su CV en francés y aquí una versión más breve en inglés (ambos en formato pdf).

Harald Andrés Helfgott

Poco después me puse en contacto con él para sugerirle que colaborara con Gaussianos con un artículo en el que nos contara las líneas generales de esta demostración, y es de agradecer la predisposición para ello que mostró desde el primer momento.

Lo que acordamos fue lo siguiente: él publicaría el artículo en inglés en su blog (podéis acceder a él haciendo click en este enlace) y después lo traduciríamos al español para su publicación en Gaussianos. Y así ha sido. Señoras y señores, en los próximos párrafos podrán leer las claves de la demostración de la conocida como conjetura débil de Goldbach.

La conjetura débil de Goldbach

Introducción

Leonhard Euler, uno de los matemáticos más importantes del siglo XVIII y de todos los tiempos, y su amigo, el amateur y polímata Christian Goldbach, tuvieron una regular y abundante correspondencia. Goldbach hizo una conjetura acerca de los números primos, y Euler rápidamente la redujo a la conjetura siguiente, que, según dijo, Goldbach ya le había expuesto:

Todo entero positivo puede expresarse como suma de, como mucho, tres números primos.

Nosotros diríamos ahora «todo entero positivo mayor que 5«, ya que ya no consideramos al 1 como número primo. Por otra parte, actualmente la conjetura se divide en dos:

  • La conjetura débil (o ternaria) de Goldbach, que dice que todo entero impar mayor que 5 puede escribirse como suma de tres números primos, y
  • La conjetura fuerte (o binaria) de Goldbach, que dice que todo entero par mayor que 2 puede expresarse como suma de dos números primos.

Como sus nombres indican, la conjetura fuerte implica a la débil (fácilmente: reste 3 a su número impar y después exprese n-3 como suma de dos primos).

Se puede consultar Dickson, istory of the theory of numbers, Vol. I., Ch. XVIII, para conocer la historia temprana de la conjetura. En resumen, parece que Waring volvió a proponer por su cuenta la conjetura débil a finales del siglo XVIII, y que en el siglo XIX se hizo algo de trabajo computacional (comprobando la conjetura para los números enteros hasta 2\cdot 10^6 a mano) pero poco progreso de verdad.

La conjetura fuerte sigue fuera de alcance. Hace unas semanas – mi prepublicación apareció el 13 de mayo de 2013 – probé la conjetura débil de Goldbach.

La prueba se basa en los avances logrados a principios del siglo XX por Hardy, Littlewood y Vinogradov. En 1937, Vinogradov probó que la conjetura es cierta para todos los números impares mayores que alguna constante C. (Hardy y Littlewood habían mostrado lo mismo bajo la suposición de que la Hipótesis generalizada de Riemann fuera cierta; hablaremos de esto más adelante.) Desde ese entonces, la constante C ha sido especificada y gradualmente mejorada, pero el mejor valor (esto es, el más pequeño) de C del que se disponía era C=e^{3100} > 10^{1346} (Liu-Wang), lo cual era de lejos demasiado grande. Incluso C=10^{100} sería demasiado: como 10^{100} es más grande que el producto del número estimado de partículas subatómicas del universo por el número de segundos desde el Big Bang, no había ninguna esperanza de comprobar cada caso hasta 10^{100} por ordenador (aun asumiendo que uno fuera un dictador alienígena usando el universo entero como una computadora muy altamente paralela).

Yo reduje C a 10^{29} (y podría bajarlo más si fuera necesario). D. Platt y yo habíamos comprobado la conjetura para todos los números impares hasta 8.8 \cdot 10^{30} por ordenador (y podríamos haber llegado más lejos), así que éste fue el final de la historia.

¿Cuáles son los elementos de la demostración? Demos primero un paso atrás y echemos una mirada a la estructura general del «método del círculo», introducido por Hardy y Littlewood.

El método del círculo: análisis de Fourier en los enteros

El análisis de Fourier es algo que usamos cada vez que sintonizamos una radio: hay una señal, y la descomponemos en sus componentes en diferentes frecuencias. En términos matemáticos: se nos da una función f: \mathbb{R} \rightarrow \mathbb{C} (esto es, una función de una sola variable real; en el caso de la radio la variable es el tiempo) y definimos la transformada de Fourier \widehat{f}: \mathbb{R} \rightarrow \mathbb{C} como \widehat{f} (r)=\int_{\mathbb{R}} f(x) e(-xr)dx, donde escribimos e(t) por e^{2 \pi i t}. Entonces, como se aprende en cualquier curso de análisis de Fourier, f(x)=\int_{\mathbb{R}} \widehat{f}(r) e(xr)dr, siempre que f decaiga suficientemente rápido y se comporte bien. (Ésta es la «fórmula de inversión de Fourier».)

En otras palabras, x \mapsto f(x) ha sido descompuesta como una suma de funciones exponenciales (complejas), con la función exponencial(compleja) x \mapsto e(xr) presente con intensidad \widehat{f} (r). (Esto es equivalente a una descomposición en ondas sinusoidales x\mapsto \sin{(2 \pi xr)} y x\mapsto \cos{(2 \pi xr)}, ya que e^{iz}=\cos{(z)}+i \sin{(z)}). Volviendo al ejemplo de la radio: \widehat{f}(r) es grande cuando r está cerca de la frecuencia de alguna estación de radio, y pequeño en otro caso. (Lo que la radio recibe es una superposición f de lo que transmiten todas las estaciones; el trabajo del receptor de radio consiste precisamente en descifrar la contribución de las frecuencias r alrededor de un r_0 dado.)

Podemos hacer lo mismo si f es una función que va de los enteros \mathbb{Z} a \mathbb{C}. De hecho, las cosas son ahora más simples – se llega a definir \widehat{f} como una suma en vez de como una integral: \widehat{f}(\alpha)=\sum_n f(n) e(-\alpha n). Algo interesante aquí es que \widehat{f}(\alpha) no cambia en absoluto si sumamos 1, o cualquier otro entero m, a \alpha. Esto es así porque, para m entero,

e(-(m+n) \alpha)=e^{-2 \pi i \alpha n}(e^{-2 \pi i})^{mn}=e(-\alpha n) \cdot 1^{-mn}=e(-\alpha n)

(Gracias de nuevo, Euler.) Por tanto, podemos restringir \alpha al intervalo [0,1] – o, de forma más abstracta, podemos pensar en \alpha como un elemento del cociente \mathbb{R}/\mathbb{Z}.

Topológicamente, \mathbb{R}/\mathbb{Z} es un círculo – lo cual es lo mismo que decir que, como no importa si sumamos o restamos 1 a nuestra frecuencia, podríamos también hacer que la aguja del dial de nuestra radio recorra un círculo marcado con números de 0 hasta 1, en vez de
que se deslice en (un segmento de) la recta real (como en la radio sobre mi mesa). De allí viene el nombre de método del círculo.

(El dial de la radio de un verdadero especialista en teoría de números.)

La descomposición de f ahora se ve como sigue: f(n)=\int_0^1 \widehat{f}(\alpha) e(\alpha n) d \alpha, a condición de que f decaiga suficientemente rápido.

¿Por qué nos importa todo esto? La transformada de Fourier es útil inmediatamente si estamos trabajando en problemas aditivos, como las conjeturas de Goldbach. La razón detrás de esto es que la transformada de una convolución es igual al producto de las transformadas:

\widehat{f*g}=\widehat{f} \cdot \widehat{g}.

Recordemos que la convolución (aditiva) de f,g: \mathbb{Z} \rightarrow \mathbb{C} está definida por:

(f*g)(n)=\sum_{m \in \mathbb{Z}} f(m) g(n-m)

Podemos ver entonces que (f*g)(n) puede ser distinto de cero sólo si n puede ser escrito como n=m_1+m_2 para algunos m_1,m_2 tales que f(m_1) y g(m_2) sean distintos de cero. De forma similar, (f*g*h)(n) puede ser distinto de cero sólo si n puede escribirse como n=m_1+m_2+m_3 para algunos m_1,m_2 y m_3 tales que f(m_1),g(m_2) y h(m_3) sean todos distintos de cero. Ello sugiere que, para estudiar la conjetura ternaria de Goldbach, definamos f,g,h de forma que tomen valores distintos de cero sólo en los primos.

Hardy y Littlewood definieron f(n)=g(n)=h(n)=0 para n compuesto (o cero o negativo) y f(n)=g(n)=h(n)=(\log n)e^{-n/x} para n primo (donde x es un parámetro que será fijado más adelante). Aquí el factor e^{-n/x} está para proporcionar «decaimiento rápido», por lo que todo converge; como veremos más adelante, la elección de Hardy y Littlewodd de e^{-n/x} (en vez de alguna otra función de decaimiento rápido) es de hecho muy inteligente, aunque no la mejor posible. El término \log n aparece por razones técnicas (básicamente, resulta que tiene sentido ponderar un primo p por \log p porque aproximadamente uno de cada \log p enteros alrededor de p es primo).

Vemos que (f*g*h)(n) \ne 0 si y sólo si n puede ser escrito como la suma de tres primos. Nuestra tarea es, entonces, mostrar que (f*g*h)(n) (es decir, f*f*f(n)) es distinto de cero para todo n mayor que una constante. Como la transformada de una convolución es igual al producto de las transformadas,

(f*g*h)(n)=\int_0^1 \widehat{f*g*h}(\alpha) e(\alpha n)d \alpha=\int_0^1 (\widehat{f} \widehat{g} \widehat{h})(\alpha) e(\alpha n)d \alpha

Nuestro trabajo es por lo tanto mostrar que la integral

\int_0^1 (\widehat{f} \widehat{g} \widehat{h})(\alpha) e(\alpha n)d \alpha=\int_0^1 (\widehat{f}(\alpha))^3 e(\alpha n)d \alpha

es distinta de cero.

Resulta que \widehat{f}(\alpha) es particularmente grande cuando \alpha está cerca de un racional con denominador pequeño; es como si hubiera realmente estaciones de radio transmitiendo las frecuencias (de denominador pequeño) marcadas en el dial dibujado arriba – cuando la aguja del dial está cerca de una de ellas, hay una señal fuerte y clara (i.e., la intensidad \widehat{f}(\alpha) es grande), y cuando estamos lejos de todas ellas, podemos escuchar sólo un leve zumbido. Esto sugiere la siguiente estrategia: calcular \widehat{f}(\alpha) para todo \alpha dentro de arcos pequeños alrededor de los racionales con denominadores pequeños (los arcos mayores – llamados así porque dan una mayor contribución, a pesar de ser pequeños); acotar \widehat{f}(\alpha) para \alpha fuera de los arcos mayores (todo lo que hay fuera de los arcos mayores se denomina arcos menores); por último, mostrar que la contribución de los arcos menores a la integral es menor en valor absoluto que la contribución de los arcos mayores, forzando así que la integral \int_0^1 (\widehat{f}(\alpha))^3 e(\alpha n)d \alpha sea distinta de cero.

Es a esta estrategia general a la que se llama el método del círculo. Hardy y Littlewood la introdujeron para tratar una amplia variedad de problemas aditivos; por ejemplo, fue también parte de su enfoque sobre el problema de Waring, que trata de enteros que son suma de potencias k-ésimas de enteros. El método fue desarrollado plenamente por Vinogradov, quien fue el primero en dar buenas cotas incondicionales para \widehat{f}(\alpha) cuando \alpha está en los arcos menores (un logro considerado muy notable en su tiempo). El método del círculo es también mi estrategia general: lo que he hecho es dar estimaciones mucho mejores para los arcos mayores y menores que las que teníamos previamente, para f, g y h elegidas con mucho cuidado.

(Incidentalmente: si comenzamos a tratar la conjetura binaria, o fuerte, de Goldbach con el método del círculo nos topamos pronto con un obstáculo mayúsculo: el «ruido» procedente de los arcos menores abruma la contribución de los arcos mayores. Ver la exposición de este problema en el post «Heuristic limitations of the circle method» de Terry Tao (20 de mayo de 2012).)

Funciones L de Dirichlet y sus ceros

Antes de que podamos comenzar a trabajar en los arcos mayores, necesitamos hablar sobre las funciones L. Primero está la función zeta, \zeta (s), estudiada para s complejo por Riemann, cuyo nombre ahora lleva. Está dada por

\zeta (s)=\displaystyle{\sum_{n=1}^{\infty} \frac{1}{n^s}}

cuando la parte real \Re(s) de s es mayor que 1. Para \Re(s) \leq 1, la serie diverge, pero la función puede definirse (de forma única) por continuación analítica (y esto puede hacerse explícitamente usando, por ejemplo, Euler-MacLaurin, como en Davenport, «Multiplicative Number Theory», segunda edición, pág. 32), con un polo en s=1.

Análogamente, están las funciones L de Dirichlet, definidas por

L(s,\chi)=\displaystyle{\sum_{n=1}^{\infty} \frac{\chi (n)}{n^s}}

para \Re (s) > 1, y por continuación analítica para \Re (s) \leq 1. Aquí \chi es cualquier carácter de Dirichlet; para cada \chi dado, L(s,\chi) es una función de s. Un carácter de Dirichlet \chi (de módulo q) es una función \chi: \mathbb{Z} \rightarrow \mathbb{C} de período q (esto es, \chi (n)=\chi (n+q) para todo n), con las propiedades adicionales de que es multiplicativa (\chi(ab)=\chi(a) \chi(b) para a,b cualesquiera) y que \chi(n)=0 cuando n y q no son coprimos. (La forma sofisticada de decir todo esto es que \chi es un carácter de (\mathbb{Z}/{q \mathbb{Z}})^* en \mathbb{Z}.) Los caracteres y las funciones L de Dirichlet fueron introducidas por Dirichlet para estudiar los primos en progresiones aritméticas.

Un cero de una función f es un s \in \mathbb{C} tal que f(s)=0. Un cero no trivial de \zeta (s), o de L(s,\chi), es un cero de \zeta (s), o de L(s,\chi), tal que 0 < \Re (s) < 1. (Los otros ceros son llamados triviales porque es fácil decir dónde están (a saber, en ciertos enteros no positivos).) La hipótesis de Riemann asevera que todos los ceros no triviales de la función zeta de Riemann «yacen en la recta crítica», lo cual significa que \Re (s)=1/2. La Hipótesis generalizada de Riemann para funciones L de Dirichlet dice que, para todo carácter de Dirichlet \chi, todo cero no trivial de L(s,\chi) satisface \Re (s)=1/2.

Como tanto la Hipótesis de Riemann (HR) como la Hipótesis generalizada de Riemann (HGR) siguen sin ser demostradas, cualquier resultado probado usando una de ellas será condicional; ahora bien, nosotros queremos probar resultados incondicionales. Lo que de hecho puede ser demostrado, y utilizado, son resultados parciales en la dirección de la HGR. Tales resultados son de dos tipos:

  • Regiones libres de ceros. Desde finales del siglo XIX (de la Vallée-Poussin) sabemos que hay regiones con forma de reloj de arena (más precisamente, de la forma c/\log{t} \leq \sigma \leq 1-c/\log{t}, donde c es una constante y donde escribimos s=\sigma+it) fuera de las cuales no pueden yacer ceros no triviales.
  • Verificaciones finitas de HGR. Es posible (usando un ordenador) probar pedazos finitos y no muy grandes de la HGR, en el sentido de verificar que todos los ceros s no triviales de una función L(s,\chi) (\chi dado) con parte imaginaria \Im(s) menor que alguna constante H yacen en la recta crítica \Re (s)=1/2.

La mayor parte de los trabajos hasta la fecha sigue la primera alternativa. Yo elegí la segunda, y esto tuvo consecuencias para la manera en la que definí los arcos mayores y menores: conseguí resultados muy precisos en los arcos mayores, pero tuve que definirlos de tal manera que fueran pocos y muy estrechos; si no, el método no hubiera funcionado. Esto significó que los métodos de arco menor tenían que ser particularmente potentes, ya que una parte del círculo particularmente grande quedó para ser tratada con ellos.

Vamos a ver más detenidamente cómo se puede lidiar con los arcos mayores usando resultados parciales en camino hacia HGR y, en particular, verificaciones finitas de HGR.

Estimaciones en los arcos mayores

Recordemos que queremos calcular sumas del tipo \widehat{f}(\alpha)=\displaystyle{\sum f(n) e(-\alpha n)}, donde f(n) es algo como (\log{n})e^{-n/x} para n primo y {0} para n compuesto. Vamos a modificar esto sólo un poco – de hecho calcularemos S_{\eta} (\alpha,x)=\displaystyle{\sum \Lambda (n) e(\alpha n) \eta (n/x)}, donde \Lambda es la función de Mangoldt: \Lambda(n)=\log{p} si n es de la forma p^k, con k \geq 1, y \Lambda(n)=0 de lo contrario. (El uso de \alpha en vez de -\alpha es sólo una concesión a la tradición, como lo es el uso de la letra S (de «suma»). Por otra parte, el uso de \Lambda(n) en lugar de simplemente \log p simplifica las cosas cuando hay que trabajar con las llamadas fórmulas explícitas, que veremos enseguida.) Aquí \eta (t) es alguna función de decaimiento rápido; puede ser e^{-t}, como en el trabajo de Hardy y Littlewood, o (como en mi trabajo) alguna otra función. (Podría incluso ser el «truncamiento brutal» 1_{[0,1]} (t), igual a 1 cuando t \in [0,1] y a {0} de lo contrario; esto sería bueno para los arcos menores, pero, como veremos, resulta ser una mala idea cuando se tratan los arcos mayores.)

Asumamos que \alpha está en un arco mayor, es decir, que podemos escribir \alpha de la forma \alpha=a/q+\delta/x para algún a/q (q pequeño) y algún \delta (con |\delta| pequeño). Podemos expresar S_{\eta} (\alpha,x) como una combinación lineal (esto es, una suma de múltiplos) de términos de la forma S_{\eta,\chi} (\delta/x,x), donde

S_{\eta,\chi} (\delta/x,x)=\sum \Lambda(n) \chi (n) e(\delta n/x) \eta (n/x)

y \chi recorre los caracteres de Dirichlet de módulo q.

¿Por qué son las sumas S_{\eta,\chi} mejores que las sumas S_{\eta}? El argumento se ha convertido en \delta/x, donde antes era \alpha. Aquí \delta es pequeño – más pequeño que una constante, en nuestro tratamiento. En otras palabras, e(\delta n/x) se moverá alrededor del círculo un número acotado de veces a medida que n vaya de 1 hasta, digamos, 10 x (para cuyo entonces \eta (n/x) es ya muy pequeño). Esto hace que la suma S_{\eta,\chi} sea mucho más fácil de calcular.

Es un hecho estándar que podemos expresar S_{\eta,\chi} mediante una fórmula explícita (sí, la frase tiene un significado técnico, como «Jugendtraum»):

S_{\eta,\chi} (\delta/x,x)= \lbrack \widehat{\eta} (-\delta) \rbrack x-\sum_{\rho} F_{\delta}(\rho) x^{\rho}+ \text{error peque\~{n}o}

Aquí el término entre corchetes aparece sólo para q=1. En la suma, \rho recorre todos los ceros no triviales de L(s,\chi), y F_{\delta} es la transformada de Mellin de e(\delta t)\eta(t):

F_{\delta}(s) = \int_0^\infty e(\delta t) \eta(t) t^s \frac{dt}{t}.

Logramos nuestro objetivo si llegamos a demostrar que la suma \sum_\rho F_\delta(\rho) x^\rho es pequeña.

La cuestión es ésta – si comprobamos la HGR hasta parte imaginaria H, entonces sabemos que todo \rho con |\Im (\rho)| \leq H satisface \Re (\rho)=1/2, y por lo tanto |x^{\rho}|=\sqrt{x}. En otras palabras, x^{\rho} es entonces muy pequeño (comparado con x). Sin embargo, para cualquier \rho cuya parte imaginaria tenga valor absoluto mayor que H no sabemos nada sobre su parte real aparte de que 0 < \Re(\rho) < 1. (De acuerdo, podríamos usar una región libre de ceros, pero las regiones libres de ceros conocidas son notoriamente débiles para \Im(\rho) grande – es decir, nos servirían de poco en la práctica.) Por lo tanto, nuestra única opción es asegurarnos de que F_{\delta}(\rho) sea pequeña cuando |\Im(\rho)| \geq H.

Esto, claro está, tendría que ser cierto para \delta muy pequeño (incluyendo \delta=0) y para \delta no tan pequeño (\delta entre 1 y una constante). Si se juega con el método de la fase estacionaria, se consigue ver que F_{\delta} (\rho) se comporta como M_{\eta}(\rho) para \delta muy pequeño (aquí M_{\eta} es la transformada de Mellin de \eta) y como \eta(t/|\delta|) para \delta no tan pequeño (donde t=\Im (\rho)). Por tanto, estamos en un dilema clásico, a menudo llamado «principio de incertidumbre» porque es el hecho matemático subyacente al principio físico del mismo nombre: no se puede tener una función \eta que decrezca muy rápidamente y cuya transformada de Fourier (o, en este caso, su transformada de Mellin) también decaiga muy rápidamente.

¿Qué significa aquí «muy rápidamente»? Significa «más rápido que cualquier exponencial e^{-C t}«. Por tanto, la elección \eta (t)=e^{-t} de Hardy y Littlewood parecería ser esencialmente óptima.

¡No tan deprisa! Lo que podemos hacer es elegir \eta de tal manera M_{\eta} decrezca exponencialmente (con una constante C un poco peor que antes) y que \eta decrezca más rápido que exponencialmente. Esto es lo crucial, ya que t/|\delta| (y no tanto t en sí) corre el riesgo de ser bastante pequeño.

Una elección de \eta que obecede a esta descripción es la función gaussiana \eta(t)=e^{-t^2/2}. La transformada de Mellin F_{\delta} es entonces una función cilíndrica parabólica, con valores imaginarios para uno de sus parámetros. Las funciones cilíndricas parabólicas parecen ser muy apreciadas y estudiadas en el mundo aplicado – pero más que nada para valores reales del citado parámetro. Hay algunas expansiones asintóticas de F_{\delta} en la literatura para parámetros generales (notablemente por F. W. J. Olver), pero ninguna que sea suficientemente explícita para mis propósitos. Por tanto, tenía que proporcionar estimaciones totalmente explícitas yo mismo, usando el método del punto de silla. Esto me llevó un buen rato, pero los resultados seguramente serán de aplicación general – hola, ingenieros – y también es de esperar que la función Gaussiana se vuelva un poco más popular en trabajos explícitos en teoría de números.

A propósito, estas estimaciones de funciones cilíndricas parabólicas nos permiten tomar no sólo \eta (t)=e^{-t^2/2}, sino también, más generalmente, \eta (t)=h(t)e^{-t^2/2}, donde h es cualquier función de banda limitada, lo que significa, en este contexto, cualquier función h cuya transformada de Mellin restringida al eje y tenga soporte compacto. Deseamos optimizar la elección de h(t) – hablaremos de ello más adelante.

Los arcos menores

¿Cómo acotamos |S(\alpha)| cuando \alpha no está cerca de ningún racional a/q de denominador pequeño? Que esto sea posible fue el gran logro de Vinogradov. El progreso desde entonces ha sido gradual. Doy mi propio enfoque al asunto en mi artículo «Arcos menores». Déjenme comentar algunas de las ideas detrás de los avances allí contenidos.

La demostración de Vinogradov fue muy simplificada en los 70 (del siglo XX) por Vaughan, quien introdujo la identidad que ahora lleva su nombre. Básicamente, la identidad de Vaughan es un gambito: otorga una gran flexibilidad, pero a un precio – aquí, un precio de dos logaritmos, en lugar de, digamos, dos peones. El problema es que, si queremos alcanzar nuestro objetivo, no podemos permitirnos el lujo de perder logaritmos. La única opción es recuperar esos logaritmos, encontrando cancelaciones en las diferentes sumas que surgen de la identidad de Vaughan. Esto se tiene que hacer, por cierto, sin usar funciones L, puesto que ya no podemos asumir que q sea pequeño.

He aquí otro tema de esta parte de la prueba. Todo \alpha tiene una aproximación \alpha=a/q+\delta/x; el hecho de que \alpha esté en los arcos menores nos dice que q no es muy pequeño. Estamos buscando cotas que decrezcan a medida que q crece; la cota que yo obtengo es proporcional a (\log{q})/\sqrt{\phi (q)}. ¿Cuál es el efecto de \delta?

Algo de lo que me di cuenta pronto fue que, si \delta no es muy pequeño, puede de hecho ser utilizado en nuestro beneficio. Una razón es que hay términos de la forma \widehat{\eta} (\delta), y la tranformada de Fourier de funciones suaves decae conforme el argumento crece. Hay otras razones, empero. Algo que podemos usar es lo siguiente: por un resultado básico de aproximación Diofántica, todo \alpha tiene muy buenas aproximaciones por racionales con denominador no demasiado grande. Si \delta no es muy pequeño, entonces la aproximación \alpha=a/q+\delta/x es buena, pero no muy buena; por lo tanto, debe haber otra mejor aproximación $latex \alpha \sim
a^\prime/q^\prime$ con q^\prime no demasiado grande (lo que significa «considerablemente más pequeño que x«). Podemos ir y volver entre las aproximaciones a/q y a^\prime/q^\prime, dependiendo de cuál es más útil en el momento. Ello resulta ser mejor que usar una sola aproximación a/q, por muy buena que ésta sea.

Otra manera en la que se consigue usar un \delta grande es esparciendo las entradas en una gran criba. La gran criba puede ser vista como una forma aproximada de la identidad de Plancherel, reformulada como una desigualdad; mientras la identidad de Plancherel nos dice que la norma |\widehat{f}|_2 (norma \ell_2) de la tranformada de Fourier \widehat{f}: \mathbb{R}/\mathbb{Z} \rightarrow \mathbb{Z} de una función f definida en los enteros (por ejemplo, lo mismo vale para los reales u otros grupos) es igual a la norma |f|_2 de la misma función f, la gran criba nos dice que el total de |\widehat{f} (\alpha_i)|^2 para una muestra bien espaciada de puntos \alpha_i \in \mathbb{R}/\mathbb{Z} está acotada por (un múltiplo de) |f|^2. Ahora bien, en nuestro caso, los puntos \alpha_i son múltiplos de nuestro ángulo \alpha. Si \alpha=a/q, el espaciado entre los puntos \alpha_i es 1/q, lo cual es bueno – pero puede ser que tengamos que aplicar la gran criba varias veces, ya que tenemos que aplicarla de nuevo para cada tanda de q puntos. Sin embargo, si \alpha=a/q+\delta/x y \delta no es demasiado pequeño, podemos rodear el círculo varias veces y confiar en \delta/x en vez de en 1/q para darnos el espaciado. Sí, \delta/x (e incluso \delta q/x) es más pequeño que 1/q, pero el efecto de esto está más que compensado por el hecho de que tenemos que recurrir a la gran criba muchas menos veces (quizás solamente una vez).

Lo que es más, esta manera de esparcir los ángulos puede ser combinada con otra manera más tradicional de esparcirlos (lema de Montgomery; ver «Topics in multiplicative number theory» de Montgomery, o la exposición en Iwaniec-Kowalski, sección 7.4) con el fin de aprovechar el hecho de que estamos tratando con sumas donde la variable recorre los primos p.

Conclusión

Hemos estado hablando acerca de acotar S(\alpha) para \alpha dentro de los arcos menores, pero lo que queremos hacer realmente es acotar la integral \int_m |S(\alpha)|^3 d \alpha. Una forma fácil – y tradicional – de hacer esto es usar la desigualdad trivial

\int_m |S(\alpha)|^3 d \alpha \leq \max_{\alpha \in m} |S(\alpha)| \cdot \int_m |S(\alpha)|^2 d \alpha

Desafortunadamente, así perderíamos un factor de un logaritmo.

Como nuestras cotas para S(\alpha), \alpha \sim a/q, están dadas en términos de q, tiene sentido combinarlas con estimaciones para integrales del tipo \int_{m_c} |S(\alpha)|^2 d \alpha, donde m_r es una unión de arcos alrededor de racionales con denominador más grande que una constante pero menor que r. ¿Cómo estimamos estas integrales? Esta pregunta está muy relacionada con otra que entra dentro del marco de la gran criba: ¿qué cotas se pueden conseguir para \alpha_i=a/q, q \leq r, donde r es de tamaño moderado, si es que estamos trabajando con una sucesión con soporte en los primos?

Había una respuesta en la literatura (basada en el lema de Montgomery; el enlace con el método del círculo ya fue observado por Heath-Brown) pero era peor que la cota óptima por un factor de al menos e^{\gamma} (o de hecho más). Había una estimación más reciente para la gran criba debida a Ramaré, pero no se había hecho totalmente explícita. Tuve que hacerla explícita, y luego adapté el nuevo resultado sobre la gran criba a la tarea de estimar la integral sobre m_r. Como era de esperar, el factor e^{\gamma} (o realmente un poco más) desapareció.

Queda por comparar el término principal con el error. Resulta que tenemos cierto margen para elegir lo que será el término principal, ya que depende de los pesos \eta que utilicemos. El término principal es proporcional a

\displaystyle{\int_0^{\infty} \int _0^{\infty} \eta_+ (t_1) \eta_+ (t_2) \eta_* (N/x-(t_1+t_2))d t_1 d t_2},

donde \eta_+ y \eta_* son los dos pesos con los que escogemos trabajar, N es el número impar que queremos expresar como suma de tres primos y x es de nuevo un parámetro de nuestra elección. En comparación, el error es proporcional a |\eta_+|^2 |\eta_*|_1. Así, tenemos un problema de optimización («maximizar el tamaño de la doble integral dividida por |\eta_+|^2 |\eta_*|_1«). Lo mejor es elegir un peso \eta_+ simétrico o cercano a ser simétrico (\eta_+ (t) \sim \eta_+(2-t)), asegurándonos, por otra parte, que \eta_+ (t) \sim 0 para t \geq 2. Esto no es demasiado difícil de conseguir aun bajo la restricción de que \eta_+ sea de la forma \eta(t)=h(t) e^{-t^2/2}, donde h es de banda limitada.

¿Qué pasa con \eta_*? La solución del problema de optimización nos dice que debe ser de soporte pequeño, o por lo menos concentrado cerca del origen. Aparte de eso – hay, por decirlo así, un problema político: \eta_*, a diferencia de \eta_+, se usa tanto en los arcos mayores como en los menores; los arcos mayores quieren de verdad que sea de la forma e^{-t^2/2} o t^k e^{-t^2/2}, mientras los arcos menores preferirían algo más simple, como \eta_{[0,1]} o como \eta_2=(2 \eta_{[1/2,1]}) \ast_M (2 \eta_{[1/2,1]}), donde f\ast_M g es la convolución multiplicativa (o convolución de Mellin):

(f \ast_M g)(x) = \int_0^\infty f(y) g\left(\frac{x}{y}\right) \frac{dy}{y}.

(Aquí \eta_2 es precisamente el peso usado en el articulo de Tao sobre los cinco primos o en mi propio artículo sobre los arcos menores.)

La solución es simple: definamos \eta_*(t)=(f \ast_M g)(\kappa t), donde \kappa es una constante grande, f(t)=\eta_2(t) y g(t)=t^2 e^{-t^2/2}. Para f y g esencialmente arbitrarias, si se sabe cómo calcular (o estimar) S_f (\alpha) para algunos \alpha, y se sabe estimar S_g(\alpha) para todos los otros \alpha, entonces se sabe cómo estimar S_{f\ast_M g} (\alpha) para todo \alpha. (La prueba sale en un par de líneas; se escribe qué es S_{f\ast_M g} en detalle y se cambia el orden de la suma y la integral. En el proceso también se aclara que ayuda si f(t) y g(t) son para t cercano a {0}.)

La moraleja de esta historia es que diferentes problemas, y diferentes partes del mismo problema, piden diferentes pesos \eta. Al menos en el contexto de sumas exponenciales, resulta haber un simple truco para combinarlas, como acabamos de ver.

Algunos comentarios finales sobre computación

Una demostración analítica normalmente da una prueba válida para todo n mayor que una constante C. La razón es simple: digamos que queremos mostrar que una cantidad es positiva. Generalmente, después de bastante trabajo analítico, se llega a probar que la cantidad es de la forma 1+\text{error}, donde el valor absoluto de este error es menor que, digamos, C/n (para dar un ejemplo simple). Esto ciertamente muestra que la cantidad es positiva – a condición de que n \geq C. La tarea, entonces, es refinar la demostración hasta que la constante C sea suficientemente pequeña para que todos los casos en los que n \leq C puedan ser comprobados a mano (literalmente a mano o con un ordenador). Esto fue, en gran parte, mi trabajo: comprobar la conjetura hasta C=10^{29} (y de hecho hasta 8.8 \cdot 10^{30}) fue, en comparación, una tarea secundaria – como veremos, no era siquiera el principal esfuerzo computacional.

Primero, permítanme decir algunas palabras más en general sobre resultados analíticos. Hay resultados del tipo «la proposición es cierta para todo n mayor que una constante C, pero esta demostración no nos dice nada sobre C aparte de que existe». Esto es llamado una «estimación inefectiva«; muchas demostraciones de los resultados de Vinogradov en libros de texto son de este tipo. (La razón detrás de esto es la posibile existencia de los llamados «ceros de Siegel».) Un resultado puede decir también «la sentencia es cierta para todo n > C, y en principio se debería poder determinar algún valor de C usando las ideas de la prueba, pero el autor preferiría irse a tomar un café». Ésta es una proposición
efectiva no explícita; la versión definitiva de Vinogradov de su propio resultado fue de este tipo (como lo son muchos otros resultados en matemáticas, incluyendo algunos de mi propio pasado). Si se da un valor explícito de C, entonces el resultado se denomina (¡sorpresa!) «explícito». Queda la cuarta etapa: conseguir que C sea razonable, esto es, suficientemente pequeña como para que el caso n \leq C pueda ser comprobado a mano. Estuvo claro desde el principio que, en el caso de la conjetura ternaria de Goldbach, «razonable» significaba aproximadamente C \sim 10^{30} (aunque las verificaciones existentes llegaban a bastante menos que 10^{30}).

Dije antes que D. Platt y yo comprobamos la conjetura para todos los impares hasta 8.8 \cdot 10^{30}. He aquí cómo procedimos. Ya se sabía (gracias a un esfuerzo de gran envergadura de parte de Oliveira e Silva, Herzog y Pardi) que la conjetura binaria de Goldbach es cierta hasta 4 \cdot 10^{18} – esto es, todo número hasta 4 \cdot 10^{18} es suma de dos números primos. Dado esto, todo lo que teníamos que hacer era construir una «escalera de primos», esto es, una lista de primos desde 2 hasta 8.8 \cdot 10^{30} tal que la diferencia entre cualesquiera dos primos consecutivos de la lista fuera a lo más 4 \cdot 10^{18}. Por tanto, si alguien le da a uno un entero impar n hasta $latex 8.8 \cdot
10^{30}$, se sabe que hay un primo p en la lista tal que n-p es positivo y a lo más 4 \cdot 10^{18}. Por hipótesis, podemos escribir n-p=p_1+p_2 para algunos primos p_1, p_2, y por tanto n=p+p_1+p_2.

Construir esta escalera no nos llevó mucho tiempo. (De hecho, conseguir una escalera hasta 10^{29} es probablemente algo que Vd. pueda hacer en su ordenador personal en unas pocas semanas – aunque almacenarla es otro asunto.) La tarea se hace en «aritmética entera», y comprobamos la primalidad de los números en la escalera de manera determinista (restringiéndonos a primos para los cuales hay un algoritmo rápido de comprobación de primalidad), así que no hay que preocuparse.

El cálculo más grande consiste en verificar que, para toda función L de conductor q hasta sobre 15000 (o dos veces esto para q par), todos los ceros de la función L con parte imaginaria acotada por 10^8/q yacen sobre la línea crítica. Esto fue por completo obra de Platt; mi única contribución fue ir a buscar tiempo de ordenador por muchas partes (ver la sección de agradecimientos del artículo «Major arcs»). De hecho, Platt llegó hasta conductor 200000 (o dos veces esto para q par); ya había llegado hasta el conductor 100000 en su tesis. La verificación llevó, en total, unas 400000 horas de núcleo (esto es, el número total de núcleos (cores) de procesador usados por el número de horas que corrieron es igual a 400000; hoy en día, un procesador de primera línea – como los de la máquina en MesoPSL – normalmente tiene ocho núcleos). Al final, como decía, usé solamente q \leq 150000 (o el doble de esto para q par), por lo que el número de horas necesarias fue de hecho unas 160000; como me hubiera bastado con aproximadamente q \leq 120000, podría decir que, en retrospectiva, se necesitaba sólo unas 80000 horas de núcleo. Los ordenadores y yo fuimos cavando por lados opuestos de la montaña, y nos encontramos en el centro. El hecho de que los ordenadores trabajaran más de lo necesario no es nada que lamentar: el cálculo hecho es de uso general, y por tanto es mucho mejor que no esté «hecho a la talla» de mis necesidades; por otra parte, con demostraciones de esta longitud, lo mejor es «construir como un romano», es decir, calcular de más por si uno (¡no el ordenador!) ha cometido algún pequeño error en algún sitio. (¿Por que creen que esas paredes eran tan gruesas?)

Comprobar los ceros de la función L computacionalmente es algo tan viejo como Riemann (quien lo hizo a mano); es también una de las cosas que se intentaron en computadoras electrónicas ya en sus primeros días (Turing tenía un artículo sobre eso). Una de las principales cuestiones con las que hay que tener cuidado surge cuandoquiera se manipulen números reales: hablando honestamente, un ordenador no puede almacenar \pi; más aún, si bien un ordenador puede manejar números racionales, realmente se siente cómodo sólo cuando maneja aquellos racionales cuyos denominadores son potencias de dos. Por tanto, en realidad no se puede decir: «ordenador, dame el seno de este número» y esperar un resultado preciso. Lo que se debería hacer, si realmente se quiere probar algo (¡como en este caso!) es decir: «ordenador, te estoy dando un intervalo I=[a/2^k,b/2^k ]; dame un intervalo I^\prime =[c/2^l,d/2^l ], preferiblemente muy pequeño, tal que \sin{(I)} \subset I^\prime«. Esto es llamado «aritmética de intervalos»; es realmente la forma más sencilla de hacer cálculos en coma flotante de manera rigurosa.

Ahora, los procesadores no hacen esto de forma nativa, y si se hace puramente con software se retrasan las cosas por un factor de más o menos 100. Afortunadamente, hay maneras de hacer esto a medias con hardware y a medias con software. Platt tiene su propia biblioteca de rutinas, pero hay otras online (por ejemplo, PROFIL/BIAS).

(Oh, a propósito, no usen la función seno en un procesador Intel si quieren que el resultado sea correcto hasta el último bit. ¿En qué habrán estado pensando? Use la biblioteca crlibm en su lugar.)

Por último, hubo varios cálculos bastante menores que hice yo mismo; los encontrarán mencionados en mis artículos. Un cálculo habitual fue una versión rigurosa de una «demostración por gráfica» («el máximo de una función f es claramente menor que 4 porque gnuplot me lo dijo»). Encontrará algoritmos para esto en cualquier libro de texto sobre «computación validada» – básicamente, es suficiente combinar el método de la bisección con aritmética de intervalos.

Finalmente, déjenme indicar que hay una desigualdad elemental en el artículo «Minor arcs» (viz., (4.24) en la demostración del Lema 4.2) que fue probada en parte por un humano (yo) y en parte por un programa de eliminación de cuantificadores. En otras palabras, ya existen programas de ordenador (en este caso, QEPCAD) que pueden probar cosas útiles. Ahora bien, no tengo dudas de que la misma desigualdad puede ser probada puramente mediante el uso de seres humanos, pero es bonito saber que nuestros amigos los ordenadores pueden (pretender) hacer algo más que masticar números…


Esta es mi tercera aportación a la Edición 4.1231056 del Carnaval de Matemáticas, cuyo anfitrión es nuestro amigo José Manuel López Nicolás en su blog Scientia.

Print Friendly, PDF & Email
0 0 votes
Article Rating

¿Te ha gustado la entrada? Puedes invitarme a un café, Gauss te lo agradecerá 😉


Comparte: