Procesamiento de Transacciones y Gestión de Datos: Conceptos Clave

OLTP

OLTP (OnLine Transaction Processing) es un tipo de procesamiento que facilita y administra aplicaciones transaccionales, usualmente para entrada de datos, recuperación y procesamiento de transacciones (gestor transaccional). Los paquetes de software para OLTP se basan en la arquitectura cliente-servidor, ya que suelen ser utilizados por empresas con una red informática distribuida.

El término puede parecer ambiguo, ya que puede entenderse «transacción» en el contexto de las «transacciones computacionales» o de las «transacciones en bases de datos«. También podría entenderse en términos de transacciones de negocios o comerciales. OLTP también se ha utilizado para referirse a la transformación en la que el sistema responde de inmediato a las peticiones del usuario. Un cajero automático de un banco es un ejemplo de una aplicación de procesamiento de transacciones comerciales.

La tecnología OLTP se utiliza en innumerables aplicaciones, como en banca electrónica, procesamiento de pedidos, comercio electrónico, supermercados o industria.

Índice (Base de Datos)

El índice de una base de datos es una estructura de datos que mejora la velocidad de las operaciones, permitiendo un rápido acceso a los registros de una tabla en una base de datos. Al aumentar drásticamente la velocidad de acceso, se suelen usar sobre aquellos campos sobre los cuales se hacen frecuentes búsquedas.

Por ejemplo.1

Los índices pueden ser definidos como únicos o no únicos. Un índice único actúa como una restricción en la tabla previniendo filas idénticas en el índice.

Tipos de Indexación

Tipos de indexación Por palabras: se indexa cada palabra del documento con excepción de palabras vacías como los artículos “la, el, los etc” o si, no, e, a, etc.

De string: cuando se indexan palabras o frases completas.

Indexación

Indexación: Es el procedimiento seguido para la recuperación basada en el contenido conceptual del documento, pudiéndose distinguir, según Van Dijk, tres tipos:

tengan las características ACID.


Indexación basada en las palabras, propuesta por Mortimer Taube, mediante las que se condensa la información contenida en el documento, mediante unidades simples llamadas unitérminos, o mediante palabras claves, es decir, términos compuestos.

Indexación basada en los conceptos. Pretende representar lo que es esencial en el contenido del documento mediante términos o expresiones conceptuales llamados descriptores: expresiones de gran densidad de contenido, capaces de generar asociaciones y provocar combinaciones de ideas.

Indexación basada en temas. Es un método utilizado en bibliotecas, designándolo como encabezamiento de materias, el cual consiste en la correlación sucesiva de diferentes encabezamientos que expresan el tema o temas de un documento.

La indexación por materias ha sido la más utilizada en las unidades de información tipo biblioteca, está concebida en función de búsquedas secuenciales en archivos manuales e informatizados.

Existen varias técnicas para controlar la concurrencia. Los bloqueos son los más conocidos, aunque también se utiliza el control multiversión y otras técnicas como las marcas de tiempo.

Cuando un usuario pretende ingresar al sistema de forma interactiva, es decir, obtener acceso a una terminal de textos o a un entorno gráfico de ventanas, el sistema de alguna manera va a solicitar a dicho usuario su identificación y su contraseña. La identificación normalmente se la conoce como «nombre de usuario», la cual le dice al sistema quién es el usuario. La contraseña es una palabra o conjunto de caracteres que el usuario debe tener en secreto, y sirve para probar al sistema que el usuario es quien dice ser. Esta etapa se la conoce como autenticación.

No solo en accesos interactivos la autenticación tiene lugar. En otros servicios como el correo electrónico, acceso a bases de datos, etc. se requiere de una autenticación por obvias razones de privacidad.

OLAP (On-Line Analytic Processing): El proceso analítico en línea es un método ágil y flexible para organizar datos, especialmente metadatos, sobre un objeto o jerarquía de objetos como en un sistema o una organización multidimensional para poder ser manejado y recuperar recíprocamente los datos en cualquier combinación de dimensiones y/o de atributos para reporting o querys producto de la integración de las dimensiones seleccionadas sobre el objeto.

MOLAP: es la forma «clásica» de OLAP y se refiere a veces como apenas OLAP. MOLAP utiliza estructuras de bases de datos generalmente optimizadas para la recuperación de los mismos. A diferencia de las bases de datos relacionales, estas formas de almacenaje están optimizadas para la velocidad del cálculo. También se optimizan a menudo para la recuperación a lo largo de patrones jerárquicos de acceso. Las dimensiones de cada cubo son típicamente atributos tales como período, localización, producto o código de la cuenta. La manera que cada dimensión será agregada es definida por adelantado por una o más jerarquías.


ROLAP: trabaja directamente con las bases de datos relacionales, se almacenan los datos base y las tablas dimensionales como tablas relacionales mientras que tablas nuevas se crean para guardar la información agregada.

HOLAP: No hay acuerdo claro en la industria en cuanto a qué constituye el «híbrido OLAP», a menos que es una base de datos en la que los datos se dividen en almacenaje relacional y multidimensional. Por ejemplo, para algunos vendedores, una base de datos de HOLAP utilizará las tablas relacionales para guardar las cantidades más grandes de datos detallados, y utiliza el almacenaje multidimensional para algunos aspectos de cantidades más pequeñas de datos menos detallados o agregados.

DOLAP: es un caso particular de OLAP ya que está orientado a equipos de escritorio. Consiste en obtener la información necesaria desde la base de datos relacional y guardarla en el escritorio. Las consultas y análisis son realizados contra los datos guardados en el escritorio.

Comparativa

Cada tipo tiene ciertas ventajas, aunque hay desacuerdo sobre los específicos de las ventajas entre los diferentes proveedores.

  • MOLAP es mejor en sistemas más pequeños de datos, es más rápido para calcular agregaciones y retornar respuestas y necesita menos espacio de almacenaje.
  • ROLAP se considera más escalable. Sin embargo, el pre-proceso de grandes volúmenes es difícil de implementar eficientemente así que se desecha con frecuencia. De otro modo, el funcionamiento de las querys puede ser no óptimo.
  • HOLAP está entre los dos en todas las áreas, pero puede preprocesar rápidamente y escalar bien.

Todos los tipos son, sin embargo, propensos a la explosión de la base de datos. Éste es un fenómeno que causa la cantidad extensa de espacio de almacenaje que es utilizado por las bases de datos OLAP cuando se resuelven ciertas, pero frecuentes, condiciones: alto número de dimensiones, de resultados calculados de antemano y de datos multidimensionales escasos.

La dificultad en la implementación OLAP deviene en la formación de las querys, elegir los datos base y desarrollar el esquema. Como resultado, la mayoría de los productos modernos vienen con bibliotecas enormes de querys preconfiguradas. Otro problema está en la calidad baja de los datos – debe ser completo y constante.


Cliente-servidor

La arquitectura cliente-servidor es un modelo de aplicación distribuida en el que las tareas se reparten entre los proveedores de recursos o servicios, llamados servidores, y los demandantes, llamados clientes. Un cliente realiza peticiones a otro programa, el servidor, que le da respuesta. Esta idea también se puede aplicar a programas que se ejecutan sobre una sola computadora, aunque es más ventajosa en un sistema operativo multiusuariodistribuido a través de una red de computadoras.

QUE ES DATA WAREHOUSE ?

Data Warehouse es un repositorio o lugar de deposito de información integrada, disponible para búsqueda y análisis. Los datos y la información del Data Warehouse provienen frecuentemente de múltiples fuentes u orígenes, como también relaciona datos de diferentes tipos, lo que hace mas fácil ejecutar búsquedas ya que dicha tecnología permite aplicar mecanismos de estructuración y organización.

Un Data Warehouse o Depósito de Datos es una colección de datos orientado a temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de decisiones gerenciales.

También es conocido como una colección resumida de datos provenientes de fuentes u orígenes diferentes, estructurada y optimizada para ser accesada a través de herramientas de búsqueda.

Minería de datos

(Redirigido desde «Data mining»)

La minería de datos (es la etapa de análisis de «Knowledge Discovery in Databases» o KDD), es un campo de las ciencias de la computaciónreferido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadísticay sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y gestión de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, métricas de Intereses, consideraciones de la Teoría de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualización y actualización en línea.

EXPLICAR LAS CARACTERISTICAS DEL SOFTWARE LIBRE, OPENSOURCE, SOFTWARE DE DOMINIO PUBLICO, SHAREWARE Y FREWARE.

Software Dominio público

El software de dominio público es software libre que se puede usar sin restricciones pero no posee Copyright, es decir, es un caso especial de software libre sin Copyleft, de tal forma que algunas copias o versiones modificadas de ese software pueden o no pueden ser libres para todos.


El software freeware

Es un software que se puede copiar, usar y redistribuir libremente pero no incluye archivos fuentes. Diferente al software semi-libre, el software freeware se puede utilizar para cualquier propósito, sin embargo, es software cerrado. LaFree Software Foundation, recomienda evitar el uso de freeware para referirse o denominar así al software libre. Parala FSF, al igual que el software semi-libre, el software freeware tampoco clasifica como software libre. Igualmente, es preferible que los usuarios utilicen software freeware en lugar de software propietario.

Software OPEN SOURCE

Flexibilidad: al tener disponible su código fuente, los desarrolladores pueden aprender y modificar los programas a su gusto para realizar tareas específicas. Además, se genera un flujo constante de ideas que mejora la calidad de los programas.

Fiabilidad y seguridad: al contar con unos cuantos programadores mirando el mismo trabajo simultáneamente, los errores se detectan y corrigen con anterioridad, por lo que el producto resultante es más confiable y efectivo que el comercial.

Rapidez de desarrollo: las actualizaciones y ajustes se llevan a abo por medio de una comunicación constante vía internet. Debido a la gran cantidad de herramientas y librerías disponibles, se requieren menores tiempos de desarrollo.

Software Libre

1.Los usuarios de software libre esperan licencias abiertas y la inexistencia de métodos de activación

2.Los usuarios de software libre esperan actualizaciones y parches regulares

3.Los usuarios de software libre esperan poder trabajar de la manera que ellos decidan

4.Los usuarios de software libre quieren el control de sus propios sistemas

5.Los usuarios de software libre exploran

Software Shareware

Se denominasharewarea una modalidad de distribución de software,tanto videojuegos como videos X, en la que el usuario puede evaluar de forma gratuita el producto, pero con limitaciones en el tiempo de uso o en algunas de las formas de uso o con restricciones en las capacidades finales.

necesarias para que sus transacciones


Una transacción en un Sistema de Gestión de Bases de Datos (SGBD), es un conjunto de órdenes que se ejecutan formando una unidad de trabajo, es decir, en forma indivisible o atómica.

Un SGBDse dice transaccional, si es capaz de mantener la integridad de los datos, haciendo que estas transacciones no puedan finalizar en un estado intermedio. Cuando por alguna causa el sistema debe cancelar la transacción, empieza a deshacer las órdenes ejecutadas hasta dejar la base de datos en su estado inicial (llamado punto de integridad), como si la orden de la transacción nunca se hubiese realizado.

Para esto, el lenguaje de consulta de datos SQL(Structured Query Language), provee los mecanismos para especificar que un conjunto de acciones deben constituir una transacción.

  • BEGIN TRAN: Especifica que va a empezar una transacción.
  • COMMIT TRAN: Le indica al motor que puede considerar la transacción completada con éxito.
  • ROLLBACK TRAN: Indica que se ha alcanzado un fallo y que debe restablecer la base al punto de integridad.

En un sistema ideal, las transacciones deberían garantizar todas las propiedades ACID; en la práctica, a veces alguna de estas propiedades se simplifica o debilita con vistas a obtener un mejor rendimiento.

Un ejemplo de transacción

Un ejemplo habitual de transacción es el traspaso de una cantidad de dinero entre cuentas bancarias. Normalmente se realiza mediante dos operaciones distintas, una en la que se decrementa el saldo de la cuenta origen y otra en la que incrementamos el saldo de la cuenta destino. Para garantizar la atomicidad del sistema (es decir, para que no aparezca o desaparezca dinero), las dos operaciones deben ser atómicas, es decir, el sistema debe garantizar que, bajo cualquier circunstancia (incluso una caída del sistema), el resultado final es que, o bien se han realizado las dos operaciones, o bien no se ha realizado ninguna.

Las transacciones que operan en datos distribuidos se les conoce como transacciones distribuidas

Las transacciones distribuidas abarcan dos o más servidores conocidos como administradores de recursos. La administración de la transacción debe ser coordinada entre los administradores de recursos mediante un componente de servidor llamado administrador de transacciones. Cada instancia de SQL Server Database Engine (Motor de base de datos de SQL Server) puede funcionar como administrador de recursos en las transacciones distribuidas que coordinan los administradores de transacciones, como el Coordinador de transacciones distribuidas de Microsoft (MS DTC) u otros administradores que admitan la especificación Open Group XA del procesamiento de transacciones distribuidas. Para obtener más información, consulte la documentación de MS DTC.


Una transacción de una sola instancia de Motor de base de datos que abarque dos o más bases de datos es, de hecho, una transacción distribuida. La instancia administra la transacción distribuida internamente; para el usuario funciona como una transacción local.

En la aplicación, una transacción distribuida se administra de forma muy parecida a una transacción local. Al final de la transacción, la aplicación pide que se confirme o se revierta la transacción. El administrador de transacciones debe administrar una confirmación distribuida de forma diferente para reducir al mínimo el riesgo de que, si se produce un error en la red, algunos administradores de recursos realicen confirmaciones mientras los demás revierten la transacción. Esto se consigue mediante la administración del proceso de confirmación en dos fases (la fase de preparación y la fase de confirmación), que se conoce como confirmación en dos fases (2PC).

ACID

En bases de datos se denomina ACID a un conjunto de características necesarias para que una serie de instrucciones puedan ser consideradas como una transacción. Así pues, si un sistema de gestión de bases de datos es ACID compliant quiere decir que el mismo cuenta con las funcionalidades

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.