merge with kernels from MH's master thesis
[LbmBenchmarkKernelsPublic.git] / src / BenchKernelD3Q19AaVecSl.c
index 885a065c8fbdc8b8c7eec262721b4870d2662eef..989e3d0d187770286cdacc220b9dc12d4bdb08b4 100644 (file)
@@ -121,6 +121,8 @@ void FNAME(D3Q19AaVecSlKernel)(LatticeDesc * ld, KernelData * kd, CaseData * cd)
 
        Assert((maxIterations % 2) == 0);
 
+       X_KERNEL_START(kd);
+
        #ifdef _OPENMP
                #pragma omp parallel default(none) shared(kda, kd, ld, cd, src, maxIterations)
        #endif
@@ -238,6 +240,8 @@ void FNAME(D3Q19AaVecSlKernel)(LatticeDesc * ld, KernelData * kd, CaseData * cd)
                } // for (int iter = 0; ...
        } // omp parallel
 
+       X_KERNEL_END(kd);
+
        #ifdef VTK_OUTPUT
 
        if (cd->VtkOutput) {
@@ -379,7 +383,7 @@ static void KernelEven(LatticeDesc * ld, KernelData * kd, CaseData * cd) // {{{
        //              threadId, indexStart, indexEnd, threadStart, threadEnd);
 
 
-       for (int i = threadStart; i < threadEnd; i += VSIZE) {
+       for (int i = threadStart; i < threadEnd; i += VSIZE) { // LOOP aa-vec-sl-even
 
                // Load PDFs of local cell: pdf_N = src[I(x, y, z, D3Q19_N)]; ...
                // #define X(name, idx, idxinv, _x, _y, _z)     JOIN(vpdf_,name) = VLDU(&src[I(x, y, z, idx)]);
@@ -605,7 +609,7 @@ startX , startY , startZ , startX + _x, startY + _y, startZ + _z);
 #endif // DEBUG_EXTENDED
 
 
-       for (int i = threadStart; i < threadEnd; i += VSIZE) {
+       for (int i = threadStart; i < threadEnd; i += VSIZE) { // LOOP aa-vec-sl-odd
 
 #if DEBUG_EXTENDED
                #define X(name, idx, idxinv, _x, _y, _z)        Assert((unsigned long)(JOIN(ppdf_,idx)) >= (unsigned long)(JOIN(ppdf_start_,idx))); Assert((unsigned long)(JOIN(ppdf_,idx)) <= (unsigned long)(JOIN(ppdf_end_,idx)));
This page took 0.06288 seconds and 5 git commands to generate.