Teorema del hiperplano de separación
En geometría, el teorema del hiperplano de separación es un enunciado sobre formas convexas disjuntas en el espacio euclídeo de n dimensiones. Hay varias versiones bastante similares. En una versión del teorema, si ambos conjuntos son disjuntos, cerrados y al menos uno de ellos es compacto, entonces existe un hiperplano entre ellos e incluso dos hiperplanos paralelos entre ellos separados por un espacio. En otra versión, si ambos conjuntos convexos disjuntos están abiertos, entonces existe un hiperplano entre ellos, pero no necesariamente un espacio. Un eje que es ortogonal a un hiperplano de separación es un eje de separación, porque las proyecciones ortogonales de los cuerpos convexos sobre el eje son disjuntos.
Teorema del hiperplano de separación | ||
---|---|---|
Ilustración del teorema del hiperplano de separación | ||
Tipo | Teorema | |
Campo | ||
Conjeturado por | Hermann Minkowski | |
Problema abierto | No | |
Generalizaciones | Teorema de separación de Hahn-Banach | |
El teorema de separación de hiperplanos se debe a Hermann Minkowski. Por otro lado, el teorema de Hahn–Banach generaliza el resultado a espacios vectoriales topológicos.
Un resultado relacionado es el del teorema del hiperplano de soporte.
En el contexto de máquinas de vectores de soporte, el hiperplano de separación óptima o el hiperplano de margen máximo es aquel hiperplano que separa las envolventes convexas de dos conjuntos de puntos, y es equidistante de ambas.[1][2][3]
Declaraciones y demostraciones
editar
|
En todos los casos, se supone que son subconjuntos disjuntos, no vacíos y convexos de . El resumen de los resultados es el siguiente:
Compacto cerrado | Cerrado | con | |
Cerrado | Compacto cerrado | con | |
Abierto | |||
Abierto | Abierto |
El número de dimensiones debe ser finito. En espacios de dimensión infinita hay ejemplos de dos conjuntos cerrados, convexos y disjuntos que no pueden separarse por un hiperplano cerrado (un hiperplano donde un funcional lineal continuo es igual a alguna constante), incluso en el sentido débil donde las desigualdades no son estrictas.[4]
Aquí no se puede relajar la hipótesis de compacidad; véase un ejemplo en la sección contraejemplos y unicidad. Esta versión del teorema de separación se generaliza a dimensiones infinitas; la generalización se conoce más comúnmente como teorema de separación de Hahn-Banach.
La demostración se basa en el siguiente lema:
|
Demostración |
Sean y un par de puntos cualquiera y sea . Dado que es compacto, está contenido en alguna bola centrada en . Sea el radio de esta bola , y sea la intersección de con una bola cerrada de radio alrededor de . Entonces es compacto y no está vacío porque contiene a . Dado que la función de distancia es continua, existen puntos y cuya distancia es la mínima entre todos los pares de puntos en . Queda por demostrar que y de hecho tienen la distancia mínima sobre todos los pares de puntos en . Supóngase por contradicción que existen dos puntos y tales que . Entonces en particular, , y por la desigualdad del triángulo, . Por lo tanto, está contenido en , lo que contradice el hecho de que y tenían una distancia mínima sobre . |
Demostración |
Primero se demuestra el segundo caso (véase el diagrama).
Sin pérdida de generalidad, es compacto. Según el lema, existen dos puntos y , cuya distancia entre sí es mínima. Como y son disjuntos, se tiene que . Ahora, se construyen dos hiperplanos perpendiculares al segmento recto , con a través de y a través de . Se afirma que ni ni entran en el espacio entre y, por lo tanto, los hiperplanos perpendiculares a satisfacen el requisito del teorema. Algebraicamente, los hiperplanos están definidos por el vector y dos constantes , tales que . Nuestra afirmación es que y . Supongamos que hay algún tal que , entonces sea el pie de la perpendicular desde al segmento de línea . Dado que es convexo, está dentro de y, por estar en el mismo plano, está más cerca de que de , lo que supone una contradicción. Un argumento similar se aplica a . A continuación se demuestra el primer caso. Acérquese a ambos conjuntos desde el interior por y , de modo que cada sea cerrado y compacto, y las uniones sean los interiores relativos de (consúltese la página interior relativo para obtener más detalles). Ahora, en el segundo caso, para cada par existe algún vector unitario y número real , tal que . Como la esfera unitaria es compacta, se puede tomar una subsecuencia convergente, de modo que . Ahora, . Entonces, se puede afirmar que , separando así . Supóngase que esto no es así. Entonces, existe algún tal que , luego desde , para lo suficientemente grande, se tiene que , lo que es una contradicción. |
Dado que un hiperplano de separación no puede intersecar los interiores de conjuntos convexos abiertos, se deduce el corolario siguiente:
|
Caso con posibles intersecciones
editarSi los conjuntos tienen posibles intersecciones, pero sus interiores relativos son disjuntos, entonces la prueba del primer caso aún se aplica sin cambios, lo que produce:
|
en particular, se tiene el hiperplano de soporte.
|
Demostración |
Si el intervalo afín de no es todo , se extiende el intervalo afín a un hiperplano de soporte. De lo contrario, es disjunto de , y se puede aplicar el teorema anterior. |
Teorema recíproco
editarTéngase en cuenta que la existencia de un hiperplano que solo separa dos conjuntos convexos en el sentido débil de que ambas desigualdades no son estrictas, obviamente no implica que los dos conjuntos sean disjuntos. Ambos conjuntos podrían tener puntos ubicados en el hiperplano.
Contraejemplos y singularidad
editarSi uno de los conjuntos A o B no es convexo, entonces hay muchos contraejemplos posibles. Por ejemplo, A y B podrían ser círculos concéntricos. Un contraejemplo más sutil es aquel en el que A y B son cerrados pero ninguno es compacto. Por ejemplo, si A es un semiplano cerrado y B está delimitado por un brazo de una hipérbola, entonces no existe un hiperplano de separación estricta:
(aunque, por un ejemplo del segundo teorema, existe un hiperplano que separa sus interiores). En otro tipo de contraejemplo se tiene que A es compacto y B es abierto. Por ejemplo, A puede ser un cuadrado cerrado y B puede ser un cuadrado abierto que toca a A.
En la primera versión del teorema, evidentemente el hiperplano de separación nunca es único. En la segunda versión, puede ser único o no. Técnicamente, un eje de separación nunca es único porque se le puede aplicar una traslación; en la segunda versión del teorema, un eje de separación puede ser único sin necesidad de obviar traslaciones.
El ángulo abocinado proporciona un buen contraejemplo para muchas separaciones de hiperplanos. Por ejemplo, en , el disco unitario está separado del intervalo abierto , pero la única recta que los separa contiene la totalidad de . Esto muestra que si está cerrado y está relativamente abierto, entonces no existe necesariamente una separación estricta para . Sin embargo, si está cerrado como politopo, entonces existe dicha separación.[5]
Más variantes
editarEl lema de Farkas y los resultados relacionados pueden entenderse como teoremas de separación de hiperplanos cuando los cuerpos convexos están definidos por un número finito de desigualdades lineales.
Se pueden encontrar más resultados sobre conjuntos convexos disjuntos.[5]
Uso en la detección de colisiones
editarEn la detección de colisiones, el teorema de separación de hiperplanos se suele utilizar de la siguiente forma:
|
Independientemente de la dimensión considerada, el eje de separación es siempre una línea recta. Por ejemplo, en 3D, el espacio está separado por planos, pero el eje de separación es perpendicular al plano de separación.
El teorema del eje de separación se puede aplicar para la detección de colisiones rápida entre mallas poligonales. Las normales de cada cara o cualquier otra dirección de un elemento se utiliza como eje de separación. Téngase en cuenta que esto produce posibles ejes de separación, no líneas/planos de separación.
En 3D, el uso exclusivo de normales a las caras no logrará separar algunos casos de borde a borde que no colisionan. Se requieren ejes adicionales, que consisten en los productos cruzados de pares de aristas, una tomada de cada objeto.[6]
Para aumentar la eficiencia, los ejes paralelos se pueden calcular como un solo eje.
Véase también
editarReferencias
editar- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Second edición). New York: Springer. pp. 129-135.
- ↑ Witten, Ian H.; Frank, Eibe; Hall, Mark A.; Pal, Christopher J. (2016). Data Mining: Practical Machine Learning Tools and Techniques (Fourth edición). Morgan Kaufmann. pp. 253-254. ISBN 9780128043578.
- ↑ Deisenroth, Marc Peter; Faisal, A. Aldo; Ong, Cheng Soon (2020). Mathematics for Machine Learning. Cambridge University Press. pp. 337-338. ISBN 978-1-108-45514-5.
- ↑ Haïm Brezis, Analyse fonctionnelle : théorie et applications, 1983, remarque 4, p. 7.
- ↑ a b Stoer, Josef; Witzgall, Christoph (1970). Convexity and Optimization in Finite Dimensions I (en inglés). Springer Berlin, Heidelberg. (2.12.9). ISBN 978-3-642-46216-0. doi:10.1007/978-3-642-46216-0.
- ↑ «Advanced vector math».
Bibliografía
editar- Boyd, Stephen P.; Vandenberghe, Lieven (2004). Convex Optimization. Cambridge University Press. ISBN 978-0-521-83378-3.
- Golshtein, E. G.; Tretyakov, N.V. (1996). Modified Lagrangians and monotone maps in optimization. New York: Wiley. p. 6. ISBN 0-471-54821-9.
- Shimizu, Kiyotaka; Ishizuka, Yo; Bard, Jonathan F. (1997). Nondifferentiable and two-level mathematical programming. Boston: Kluwer Academic Publishers. p. 19. ISBN 0-7923-9821-1.
- Soltan, V. (2021). Support and separation properties of convex sets in finite dimension. Extracta Math. Vol. 36, no. 2, 241-278.