Descripción general
Hay muchas representaciones posibles, y por lo tanto esquemas de base de datos, para almacenar fechas y horarios difusos (o incluso solo fechas difusas):
- Fecha-hora y código que indica su precisión o exactitud
- Fecha-hora e intervalo donde hay varias posibilidades para representar un intervalo:
- Representa todos los intervalos como una cantidad entera (u otra numérica) de alguna unidad fija, por ejemplo. días, minutos, nanosegundos.
- Representa un intervalo como una cantidad entera (u otra numérica) y un código que indica sus unidades.
- Fecha y hora de inicio
- cadena
- Distribución de probabilidad:
- Cantidades decimales o en coma flotante para los parámetros que especifican una distribución específica en una familia en particular, por ejemplo. media y desviación estándar de una distribución normal.
- función de distribución de probabilidad, por ejemplo, como un código (de búsqueda) (potencialmente con parámetros de valores específicos), o como una expresión en un lenguaje, formato o representación suficientemente expresivo.
[1], [2] y [3] son todos intervalos (implícitos) uniformes, es decir, un conjunto de (igualmente) posibles puntos en el tiempo.
[4] es el más expresivo, es decir, cuando se permiten las posibles oraciones o frases escritas en el lenguaje (o al menos arbitrariamente largas). Pero también es el más difícil de trabajar. En el límite, se requeriría la inteligencia artificial a nivel humano para manejar valores arbitrarios. En la práctica, el rango de valores posibles tendría que restringirse severamente, y probablemente se preferirían valores 'estructurados' alternativos para muchas operaciones, por ejemplo. clasificación, búsqueda.
[5] es probablemente la representación compacta más general que es (algo) práctica.
Intervalos uniformes
Los intervalos uniformes son la forma compacta más simple de representar un conjunto de (posibles) valores de fecha y hora.
Para [1], las partes del valor de fecha y hora se ignoran, es decir, las partes correspondientes a unidades más finas que la precisión o exactitud indicada; de lo contrario, esto es equivalente a [2] y el código de precisión / precisión es equivalente a un intervalo con las mismas unidades (y una cantidad implícita de 1).
[2] y [3] son expresivamente equivalentes. [1] es estrictamente menos expresivo que cualquiera de los dos, ya que hay intervalos efectivos que no pueden representarse por [1], ej. una fecha y hora difusa equivalente a un intervalo de 12 horas que abarca un límite de fecha.
[1] es más fácil para los usuarios ingresar que cualquier otra representación y, en general, debería requerir (al menos un poco) menos escritura. Si las fechas se pueden ingresar en varias representaciones de texto, p. Ej. "2013", "2014-3", "2015-5-2", "30/07/2016 11p", "2016-07-31 18:15", la precisión o exactitud también se podría inferir automáticamente de la entrada .
La precisión o precisión de [1] también es más fácil de convertir a un formulario para ser transmitido a los usuarios, por ejemplo. '2015-5 con mes de precisión' hasta "mayo de 2015", en comparación con "13 de mayo de 2015 2p, más o menos 13.5 días" (aunque, en cualquier caso, esta última no puede ser representada por [1]).
Cadenas
En la práctica, los valores de cadena deberán convertirse a otras representaciones para consultar, ordenar o comparar de otro modo varios valores. Entonces, si bien cualquier lenguaje natural (humano) escrito es estrictamente más expresivo que [1], [2], [3] o [5], aún no tenemos los medios para manejar mucho más allá de las representaciones o formatos de texto estándar. Dado esto, esta es probablemente la representación menos útil por sí misma .
Una ventaja de esta representación es que los valores deberían, en la práctica, estar presentes para los usuarios tal como están y no requerir que la transformación sea fácilmente comprensible.
Distribuciones de probabilidad
Las distribuciones de probabilidad generalizan las representaciones de intervalo uniforme [1], [2], [3] y (posiblemente) son equivalentes a la representación de cadena (general) [4].
Una de las ventajas de las distribuciones de probabilidad sobre las cadenas es que la primera no es ambigua.
[5-1] sería apropiado para los valores que (en su mayoría) se ajustan a una distribución existente, p. ej. una salida de valor de fecha y hora de un dispositivo para el cual se sabe (o se piensa) que las mediciones se ajustan a una distribución específica.
[5-2] es probablemente la mejor manera (algo) práctica de compactamente representar valores arbitrarios de "fecha y hora difusos". Por supuesto, la computabilidad de las distribuciones de probabilidad específicas utilizadas es importante y definitivamente hay problemas interesantes (y quizás imposibles) que deben resolverse al consultar, clasificar o comparar valores diferentes, pero es probable que gran parte de esto ya se conozca o se resuelva en algún lugar de la actual. Literatura matemática y estadística, por lo que definitivamente es una representación extremadamente general y no ambigua.