Tag

evaluation

2 articles tagged with “evaluation”

AI AI-Search API-gateway ASP.NET-Core Azure-APIM Azure-OpenAI CI Claude CoT Copilot Cosmos-DB Cursor DORA Event-Grid GPT Gemma GitFlow GitHub HPA ICL JSON JSON-mode LLM LLM-security MCP Mistral Model-Context-Protocol OIDC Omit Partial Phi Pick Pinecone Qdrant RAG ReAct Record SDK SLI SLM SLO Semantic-Kernel Service-Bus Windsurf a-star agents aggregation ai ai-gateway aks alerting algorithms api-design api-gateway api-versioning apim app-router app-service appsec architecture arm-templates aspnet-core aspnetcore async audit authentication authorization automation azure azure-front-door azure-functions azure-openai azure-policy azure-storage bdd benchmarks best-practices bfs bicep binary-search branching bst cache-components caching cap-theorem chain-of-thought chatbot ci-cd ci-optimization cicd clean-architecture cloud cloud-security cloudevents code-review coding-agents comparison compliance compose concurrency concurrent-rendering conditional-types consistency consistent-hashing constraints consumer-driven containers context contract-testing cosmos-db cost-control cost-optimization coverage cqrs csharp cve cypress dapper dast data-fetching databases dataloader ddd decision-framework dependency-injection dependency-scanning deployment-slots deployments deprecation design-patterns devops dfs dijkstra discriminated-unions distributive docker documentation dotnet dotnet-9 drift-detection dynamic-programming e2e-testing ef-core ef-core-9 embeddings engineering environments error-budget evaluation event-driven event-grid event-hubs eventing examples feature-flags federation few-shot fiber fine-tuning flaky-tests flex-consumption frontend function-calling generics git github-actions golden-signals gpt-4o graph graphql grpc hcl health-checks heap hooks hotchocolate http http2 http3 hybridcache iac idempotency identity in-context-learning indexes infer inference infrastructure integration integration-testing introsort isolation jailbreak jest joins jotai jsonb jwt k8s key-remapping key-vault kiota knapsack knowledge-base kubernetes language legacy-code linq load-balancing lower-bound managed-identity mapped-types materialized-views memoization memory merge message-queue messaging metrics microservices minimal-apis mocking mocks model-routing modules mongodb monitoring msw multi-agent multi-stage-builds multi-tenant mvcc narrowing network-security nextjs-16 normalization nosql oauth oauth2 observability oidc opa openapi orchestration output-format owasp paas pact pactflow page-objects parsing partitioning performance personal-AI pgvector pinecone pipeline planning playwright plugins policy-as-code polly postgresql production prompt-design prompt-engineering prompt-injection protobuf pulumi python quality quality-gates quantization queues rag rate-limiting react react-19 react-compiler react-internals react-query react-server-components realtime reasoning recursion recursive-types red-black red-green-refactor red-teaming redis regression-testing release-management resource-limits rest reusable-workflows rls rolling-updates runtime-safety saga-pattern sast sbom scale schema schema-design sdlc secrets-management security security-testing self-consistency serializable server-actions serverless service-bus sharding shortest-path signalr snapshot-testing software-design sorting spies sql stability state-management streams stride structured-output stubs supertest supply-chain system-design tail-call tanstack-query task-framing tdd template-literals terraform test-architecture test-doubles test-pyramid testcontainers testing testing-patterns testing-strategy threat-modeling token-bucket token-economics tokens tool-calling tool-use topological-sort transactions trees trie trunk-based type-guards type-predicates type-system type-transforms typescript unit-testing utility-types validation valkey vault vector-db vector-search version-control visual-regression vitest vulnerabilities weaviate web-api web-security websockets window-functions wiremock workload-identity workspaces xunit yarp zero-shot zero-trust zod zustand

Testing Engineering

Testing LLM-Powered Features Without Going Broke

Mock strategies, evaluation harnesses, snapshot testing, and cost-aware CI for LLM-integrated applications.

24 Jan 20269 min

Read →

AI Observability

LLM Evaluation Beyond Vibes

Systematic approaches to evaluating LLM outputs — automated metrics, human evaluation frameworks, regression testing, and building evaluation pipelines.

05 Feb 20269 min

Read →